Classification

Pemula

Classification adalah teknik machine learning untuk memprediksi kategori atau kelas dari suatu data - misalnya spam atau bukan spam, churn atau tidak, kategori produk apa. Outputnya adalah label, bukan angka.

Apa itu Classification?

Classification adalah teknik machine learning di mana model belajar dari data berlabel untuk kemudian memprediksi kategori data baru. Beda dari regression yang memprediksi angka, classification memprediksi "mana dari beberapa pilihan ini yang paling cocok?"

Contoh paling klasik: email spam detection. Model melihat ribuan email yang sudah di-label "spam" atau "bukan spam", belajar pola apa yang membedakannya, lalu terapkan ke email baru.

Binary vs. Multi-class Classification

Ada dua tipe besar:

Binary Classification: cuma ada 2 kelas

  • Spam vs. bukan spam
  • Churn vs. tidak churn
  • Fraud vs. bukan fraud
  • Klik vs. tidak klik

Multi-class Classification: lebih dari 2 kelas

  • Kategori produk: Elektronik, Fashion, Makanan, Olahraga
  • Sentimen: Positif, Negatif, Netral
  • Prioritas tiket: Low, Medium, High, Critical

Algoritma Classification Populer

AlgoritmaKapan CocokKelebihan
Logistic RegressionBinary, data linier, butuh interpretasiCepat, interpretable
Decision TreePerlu penjelasan ke stakeholderMudah divisualisasikan
Random ForestData tabular, performa baikRobust, nggak gampang overfitting
XGBoostKompetisi, performa maksimalState-of-the-art untuk tabular data
SVMData dimensi tinggiBagus untuk teks
Neural NetworkData kompleks, gambar, teksSangat fleksibel

Cara Evaluasi Model Classification

Ini penting banget karena accuracy doang sering menyesatkan:

  • Accuracy: dari semua prediksi, berapa persen yang benar. Misleading kalau datanya imbalanced.
  • Precision: dari yang diprediksi positif, berapa yang beneran positif. Penting kalau false positive mahal.
  • Recall: dari yang beneran positif, berapa yang berhasil terdeteksi. Penting kalau false negative mahal.
  • F1 Score: harmonic mean dari precision dan recall. Balance dari keduanya.
  • AUC-ROC: seberapa baik model membedakan kelas, terlepas dari threshold yang dipilih.

Masalah Imbalanced Data

Ini masalah umum di dunia nyata. Bayangkan deteksi fraud di bank: dari 10.000 transaksi, mungkin cuma 50 yang fraud (0.5%). Model yang selalu prediksi "bukan fraud" akan punya accuracy 99.5% tapi sama sekali nggak berguna.

Solusinya: pakai teknik seperti oversampling (SMOTE), undersampling, atau timbang ulang class weight di modelnya.

Kapan Data Analyst Butuh Classification?

  • Marketing: prediksi customer mana yang akan churn bulan depan
  • Finance: deteksi transaksi mencurigakan (fraud detection)
  • Operasional: klasifikasi tiket support ke departemen yang tepat
  • Content: moderasi konten otomatis (komentar negatif, spam)
  • Product: rekomendasi kategori untuk listing produk baru di marketplace
Lanjut Latihan

Udah paham Classification? Lanjut latihan SQL dan Excel yuk!

Latihan interaktif, langsung di browser.

Mulai Latihan →