Pengelas masakan 2

Dalam pelajaran pengelasan kedua ini, anda akan meneroka lebih banyak cara untuk mengelas data berangka. Anda juga akan mempelajari kesan pemilihan satu pengelas berbanding yang lain.

Kuiz pra-ceramah

Prasyarat

Kami menganggap anda telah menyelesaikan pelajaran sebelum ini dan mempunyai set data yang telah dibersihkan dalam folder data anda yang dipanggil cleaned_cuisines.csv di akar folder 4 pelajaran ini.

Persediaan

Kami telah memuatkan fail notebook.ipynb anda dengan set data yang dibersihkan dan telah membahagikannya kepada dataframe X dan y, sedia untuk proses pembinaan model.

Peta pengelasan

Sebelum ini, anda telah belajar tentang pelbagai pilihan yang anda ada apabila mengelaskan data menggunakan helaian cheat Microsoft. Scikit-learn menawarkan helaian cheat yang serupa, tetapi lebih terperinci yang boleh membantu mempersempitkan lagi estimator anda (istilah lain untuk pengelas):

Tip: lawati peta ini secara dalam talian dan klik sepanjang laluan untuk membaca dokumentasi.

Pelan

Peta ini sangat berguna setelah anda memahami data anda dengan jelas, kerana anda boleh ‘berjalan’ sepanjang laluan untuk membuat keputusan:

Kami mempunyai >50 sampel
Kami ingin meramalkan kategori
Kami mempunyai data yang dilabel
Kami mempunyai kurang daripada 100K sampel
✨ Kami boleh memilih Linear SVC
Jika itu tidak berfungsi, kerana kami mempunyai data berangka
- Kami boleh cuba ✨ KNeighbors Classifier
  - Jika itu tidak berfungsi, cuba ✨ SVC dan ✨ Ensemble Classifiers

Ini adalah laluan yang sangat berguna untuk diikuti.

Latihan - bahagikan data

Mengikuti laluan ini, kita harus mulakan dengan mengimport beberapa perpustakaan yang diperlukan.

Import perpustakaan yang diperlukan:

from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.ensemble import RandomForestClassifier, AdaBoostClassifier
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.metrics import accuracy_score,precision_score,confusion_matrix,classification_report, precision_recall_curve
import numpy as np

Bahagikan data latihan dan ujian anda:

X_train, X_test, y_train, y_test = train_test_split(cuisines_features_df, cuisines_label_df, test_size=0.3)

Pengelas Linear SVC

Support-Vector clustering (SVC) adalah salah satu jenis dalam keluarga mesin Support-Vector teknik ML (ketahui lebih lanjut tentang ini di bawah). Dalam kaedah ini, anda boleh memilih ‘kernel’ untuk menentukan bagaimana mengelompokkan label. Parameter ‘C’ merujuk kepada ‘regularisasi’ yang mengawal pengaruh parameter. Kernel boleh menjadi salah satu daripada beberapa; di sini kami menetapkannya kepada ‘linear’ untuk memastikan kami memanfaatkan Linear SVC. Kebarangkalian lalai adalah ‘false’; di sini kami tetapkan kepada ‘true’ untuk mengumpul anggaran kebarangkalian. Kami tetapkan random state kepada ‘0’ untuk mengocak data supaya mendapat kebarangkalian.

Latihan - gunakan Linear SVC

Mula dengan mencipta satu senarai pengelas. Anda akan menambah secara berperingkat kepada senarai ini semasa kita menguji.

Mula dengan Linear SVC:

C = 10
# Buat penyaing yang berbeza.
classifiers = {
    'Linear SVC': SVC(kernel='linear', C=C, probability=True,random_state=0)
}

Latih model anda menggunakan Linear SVC dan cetak laporan:

n_classifiers = len(classifiers)

for index, (name, classifier) in enumerate(classifiers.items()):
    classifier.fit(X_train, np.ravel(y_train))

    y_pred = classifier.predict(X_test)
    accuracy = accuracy_score(y_test, y_pred)
    print("Accuracy (train) for %s: %0.1f%% " % (name, accuracy * 100))
    print(classification_report(y_test,y_pred))

Keputusannya agak baik:

Accuracy (train) for Linear SVC: 78.6% 
              precision    recall  f1-score   support

     chinese       0.71      0.67      0.69       242
      indian       0.88      0.86      0.87       234
    japanese       0.79      0.74      0.76       254
      korean       0.85      0.81      0.83       242
        thai       0.71      0.86      0.78       227

    accuracy                           0.79      1199
   macro avg       0.79      0.79      0.79      1199
weighted avg       0.79      0.79      0.79      1199

Pengelas K-Neighbors

K-Neighbors adalah sebahagian daripada keluarga ‘neighbors’ dalam kaedah ML, yang boleh digunakan untuk pembelajaran terkawal dan tidak terkawal. Dalam kaedah ini, bilangan titik telah ditetapkan dan data dikumpulkan di sekitar titik-titik ini supaya label yang digeneralisasi boleh diramalkan untuk data tersebut.

Latihan - gunakan pengelas K-Neighbors

Pengelas sebelum ini baik dan berfungsi dengan baik dengan data, tetapi mungkin kita boleh dapat ketepatan yang lebih baik. Cuba pengelas K-Neighbors.

Tambah satu baris ke senarai pengelas anda (tambah koma selepas item Linear SVC):

'KNN classifier': KNeighborsClassifier(C),

Keputusannya sedikit lebih buruk:

Accuracy (train) for KNN classifier: 73.8% 
              precision    recall  f1-score   support

     chinese       0.64      0.67      0.66       242
      indian       0.86      0.78      0.82       234
    japanese       0.66      0.83      0.74       254
      korean       0.94      0.58      0.72       242
        thai       0.71      0.82      0.76       227

    accuracy                           0.74      1199
   macro avg       0.76      0.74      0.74      1199
weighted avg       0.76      0.74      0.74      1199

✅ Pelajari tentang K-Neighbors

Pengelas Support Vector

Pengelas Support-Vector adalah sebahagian daripada keluarga Support-Vector Machine kaedah ML yang digunakan untuk tugasan pengelasan dan regresi. SVM "memetakan contoh latihan ke titik dalam ruang" untuk memaksimumkan jarak antara dua kategori. Data seterusnya dipetakan ke dalam ruang ini supaya kategori mereka boleh diramalkan.

Latihan - gunakan Pengelas Support Vector

Mari cuba untuk ketepatan yang sedikit lebih baik dengan Pengelas Support Vector.

Tambah koma selepas item K-Neighbors, dan kemudian tambah baris ini:

'SVC': SVC(),

Keputusannya sangat baik!

Accuracy (train) for SVC: 83.2% 
              precision    recall  f1-score   support

     chinese       0.79      0.74      0.76       242
      indian       0.88      0.90      0.89       234
    japanese       0.87      0.81      0.84       254
      korean       0.91      0.82      0.86       242
        thai       0.74      0.90      0.81       227

    accuracy                           0.83      1199
   macro avg       0.84      0.83      0.83      1199
weighted avg       0.84      0.83      0.83      1199

✅ Pelajari tentang Support-Vectors

Pengelas Ensembel

Mari ikuti laluan hingga ke penghujung, walaupun ujian sebelum ini sudah cukup baik. Mari cuba beberapa ‘Pengelas Ensembel’, khususnya Random Forest dan AdaBoost:

  'RFST': RandomForestClassifier(n_estimators=100),
  'ADA': AdaBoostClassifier(n_estimators=100)

Keputusannya sangat baik, terutamanya untuk Random Forest:

Accuracy (train) for RFST: 84.5% 
              precision    recall  f1-score   support

     chinese       0.80      0.77      0.78       242
      indian       0.89      0.92      0.90       234
    japanese       0.86      0.84      0.85       254
      korean       0.88      0.83      0.85       242
        thai       0.80      0.87      0.83       227

    accuracy                           0.84      1199
   macro avg       0.85      0.85      0.84      1199
weighted avg       0.85      0.84      0.84      1199

Accuracy (train) for ADA: 72.4% 
              precision    recall  f1-score   support

     chinese       0.64      0.49      0.56       242
      indian       0.91      0.83      0.87       234
    japanese       0.68      0.69      0.69       254
      korean       0.73      0.79      0.76       242
        thai       0.67      0.83      0.74       227

    accuracy                           0.72      1199
   macro avg       0.73      0.73      0.72      1199
weighted avg       0.73      0.72      0.72      1199

✅ Pelajari tentang Pengelas Ensembel

Kaedah Pembelajaran Mesin ini "menggabungkan ramalan beberapa estimator asas" untuk meningkatkan kualiti model. Dalam contoh kami, kami menggunakan Random Trees dan AdaBoost.

Random Forest, kaedah purata, membina ‘hutan’ ‘pokok keputusan’ yang dipenuhi dengan rawak untuk mengelakkan overfitting. Parameter n_estimators ditetapkan kepada bilangan pokok.
AdaBoost menyesuaikan satu pengelas kepada set data dan kemudian menyesuaikan salinan pengelas itu kepada set data yang sama. Ia menumpukan pada berat bagi item yang salah diklasifikasikan dan melaraskan keserasian untuk pengelas seterusnya untuk membetulkan.

🚀Cabaran

Setiap teknik ini mempunyai banyak parameter yang boleh anda laraskan. Selidiki parameter lalai setiap satu dan fikirkan apa maksud melaraskan parameter ini untuk kualiti model.

Kuiz pasca-ceramah

Semakan & Pembelajaran Sendiri

Terdapat banyak jargon dalam pelajaran ini, jadi ambil masa untuk menyemak senarai ini istilah berguna!

Tugasan

Parameter play

Penafian:
Dokumen ini telah diterjemahkan menggunakan perkhidmatan terjemahan AI Co-op Translator. Walaupun kami berusaha untuk memastikan ketepatan, sila maklum bahawa terjemahan automatik mungkin mengandungi kesilapan atau ketidaktepatan. Dokumen asal dalam bahasa asalnya harus dianggap sebagai sumber utama yang sahih. Untuk maklumat penting, terjemahan profesional oleh manusia adalah disyorkan. Kami tidak bertanggungjawab atas sebarang salah faham atau salah tafsir yang timbul daripada penggunaan terjemahan ini.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Pengelas masakan 2

Kuiz pra-ceramah

Prasyarat

Persediaan

Peta pengelasan

Pelan

Latihan - bahagikan data

Pengelas Linear SVC

Latihan - gunakan Linear SVC

Pengelas K-Neighbors

Latihan - gunakan pengelas K-Neighbors

Pengelas Support Vector

Latihan - gunakan Pengelas Support Vector

Pengelas Ensembel

🚀Cabaran

Kuiz pasca-ceramah

Semakan & Pembelajaran Sendiri

Tugasan

FilesExpand file tree

README.md

Latest commit

History

README.md

File metadata and controls

Pengelas masakan 2

Kuiz pra-ceramah

Prasyarat

Persediaan

Peta pengelasan

Pelan

Latihan - bahagikan data

Pengelas Linear SVC

Latihan - gunakan Linear SVC

Pengelas K-Neighbors

Latihan - gunakan pengelas K-Neighbors

Pengelas Support Vector

Latihan - gunakan Pengelas Support Vector

Pengelas Ensembel

🚀Cabaran

Kuiz pasca-ceramah

Semakan & Pembelajaran Sendiri

Tugasan