Model Evaluation
Proses mengukur seberapa baik performa model ML menggunakan berbagai metrik, untuk memastikan model benar-benar berguna sebelum dipakai di dunia nyata.
Apa Itu Model Evaluation?
Sebelum kamu rekrut karyawan baru, kamu pasti tes dulu, kan? Nggak mungkin langsung terima orang tanpa tahu seberapa kompeten dia. Model Evaluation itu fungsinya persis sama: serangkaian "tes" yang ngukur seberapa baik model ML kamu sebelum beneran dipakai.
Model Evaluation bukan cuma liat satu angka accuracy terus selesai. Di kehidupan nyata, kamu perlu milih metrik yang tepat sesuai masalah yang mau diselesaikan, dan interpretasi angka-angkanya harus dalam konteks bisnis yang relevan.
Metrik Utama Classification
| Metrik | Kapan Prioritaskan |
|---|---|
| Accuracy | Data seimbang, cost error semua kelas sama |
| Precision | Ketika false positive mahal (spam filter) |
| Recall | Ketika false negative mahal (deteksi penyakit) |
| F1 Score | Data imbalanced, butuh keseimbangan precision-recall |
| AUC-ROC | Evaluasi kemampuan diskriminasi keseluruhan model |
Metrik untuk Regression
| Metrik | Kepanjangan | Karakteristik |
|---|---|---|
| MAE | Mean Absolute Error | Mudah diinterpretasi, robust terhadap outlier |
| RMSE | Root Mean Squared Error | Penalize error besar lebih berat |
| MAPE | Mean Absolute Percentage Error | Mudah dipahami bisnis (dalam persen) |
Konsep Penting: Confusion Matrix
Confusion matrix adalah tabel 2x2 yang nunjukin empat kombinasi prediksi vs kenyataan:
- True Positive (TP): Model bilang positif, memang positif
- True Negative (TN): Model bilang negatif, memang negatif
- False Positive (FP): Model bilang positif, ternyata negatif (false alarm)
- False Negative (FN): Model bilang negatif, ternyata positif (miss)
Dari confusion matrix ini semua metrik classification di atas bisa dihitung. Jangan cuma lihat angka aggregat karena bisa menipu, terutama di dataset yang imbalanced.
Pitfall Umum dalam Evaluasi
Hanya liat accuracy di data imbalanced: Kalau 95% data adalah kelas negatif, model yang selalu prediksi negatif pun punya accuracy 95% tapi sama sekali nggak berguna.
Evaluasi di data training, bukan test set: Ini bukan evaluasi yang valid. Selalu evaluasi di data yang belum pernah dilihat model.
Metrik bagus tapi nggak relevan bisnis: Model dengan F1 0.85 mungkin kedengarannya oke, tapi kalau setiap false negative bikin kerugian miliaran rupiah, kamu perlu fokus ke recall-nya secara spesifik.
Model Evaluation juga bukan proses sekali jalan. Setelah deploy, model perlu dipantau terus karena distribusi data dunia nyata bisa berubah dari waktu ke waktu, fenomena yang disebut model drift.
Udah paham Model Evaluation? Lanjut latihan SQL dan Excel yuk!
Latihan interaktif, langsung di browser.