Model Evaluation

Menengah

Proses mengukur seberapa baik performa model ML menggunakan berbagai metrik, untuk memastikan model benar-benar berguna sebelum dipakai di dunia nyata.

Apa Itu Model Evaluation?

Sebelum kamu rekrut karyawan baru, kamu pasti tes dulu, kan? Nggak mungkin langsung terima orang tanpa tahu seberapa kompeten dia. Model Evaluation itu fungsinya persis sama: serangkaian "tes" yang ngukur seberapa baik model ML kamu sebelum beneran dipakai.

Model Evaluation bukan cuma liat satu angka accuracy terus selesai. Di kehidupan nyata, kamu perlu milih metrik yang tepat sesuai masalah yang mau diselesaikan, dan interpretasi angka-angkanya harus dalam konteks bisnis yang relevan.

Metrik Utama Classification

MetrikKapan Prioritaskan
AccuracyData seimbang, cost error semua kelas sama
PrecisionKetika false positive mahal (spam filter)
RecallKetika false negative mahal (deteksi penyakit)
F1 ScoreData imbalanced, butuh keseimbangan precision-recall
AUC-ROCEvaluasi kemampuan diskriminasi keseluruhan model

Metrik untuk Regression

MetrikKepanjanganKarakteristik
MAEMean Absolute ErrorMudah diinterpretasi, robust terhadap outlier
RMSERoot Mean Squared ErrorPenalize error besar lebih berat
MAPEMean Absolute Percentage ErrorMudah dipahami bisnis (dalam persen)

Konsep Penting: Confusion Matrix

Confusion matrix adalah tabel 2x2 yang nunjukin empat kombinasi prediksi vs kenyataan:

  • True Positive (TP): Model bilang positif, memang positif
  • True Negative (TN): Model bilang negatif, memang negatif
  • False Positive (FP): Model bilang positif, ternyata negatif (false alarm)
  • False Negative (FN): Model bilang negatif, ternyata positif (miss)

Dari confusion matrix ini semua metrik classification di atas bisa dihitung. Jangan cuma lihat angka aggregat karena bisa menipu, terutama di dataset yang imbalanced.

Pitfall Umum dalam Evaluasi

Hanya liat accuracy di data imbalanced: Kalau 95% data adalah kelas negatif, model yang selalu prediksi negatif pun punya accuracy 95% tapi sama sekali nggak berguna.

Evaluasi di data training, bukan test set: Ini bukan evaluasi yang valid. Selalu evaluasi di data yang belum pernah dilihat model.

Metrik bagus tapi nggak relevan bisnis: Model dengan F1 0.85 mungkin kedengarannya oke, tapi kalau setiap false negative bikin kerugian miliaran rupiah, kamu perlu fokus ke recall-nya secara spesifik.

Model Evaluation juga bukan proses sekali jalan. Setelah deploy, model perlu dipantau terus karena distribusi data dunia nyata bisa berubah dari waktu ke waktu, fenomena yang disebut model drift.

Lanjut Latihan

Udah paham Model Evaluation? Lanjut latihan SQL dan Excel yuk!

Latihan interaktif, langsung di browser.

Mulai Latihan →