Kondisi di mana model ML terlalu hafal data training sampai dia gagal bekerja dengan baik di data baru yang belum pernah dilihat sebelumnya.

Apa Itu Overfitting?

Bayangin kamu lagi belajar ujian dengan cara hafalin semua soal latihan beserta jawabannya tanpa benar-benar ngerti konsepnya. Pas ujian beneran datang dengan soal yang sedikit beda, kamu langsung bingung. Model ML yang overfitting persis kayak gitu.

Overfitting terjadi ketika model belajar terlalu detail dari data training, termasuk noise dan kebetulan-kebetulan yang sebenernya nggak bermakna secara statistik. Alhasil, model punya performa bagus banget di data training, tapi jeblok pas diuji dengan data baru.

Kenapa Bisa Terjadi?

Ada beberapa kondisi yang sering bikin overfitting muncul:

  • Data training terlalu sedikit: Model nggak punya cukup contoh buat belajar pola umum
  • Model terlalu kompleks: Terlalu banyak parameter untuk jumlah data yang ada
  • Training terlalu lama: Model punya waktu terlalu banyak buat hafalin detail-detail kecil
  • Nggak ada regularization: Model nggak dikasih "rem" biar nggak terlalu kompleks

Cara Deteksi Overfitting

Cara paling simpel adalah bandingin performa di training data vs validation/test data:

KondisiTraining AccuracyValidation AccuracyKesimpulan
OverfittingTinggi (95%+)Rendah (65%)Model hafal, bukan belajar
UnderfittingRendah (60%)Rendah (60%)Model belum cukup belajar
Just rightTinggi (90%)Mirip (87%)Model generalisasi dengan baik

Gap besar antara training accuracy dan validation accuracy adalah tanda overfitting yang paling klasik.

Cara Atasi Overfitting

Beberapa teknik yang umum dipakai:

  • Regularization (L1/L2): Tambahkan penalti ke model biar nggak terlalu bergantung ke fitur tertentu
  • Dropout: Teknik khusus neural network, matiin sebagian neuron secara random saat training
  • Early stopping: Hentikan training sebelum model mulai overfitting
  • Data augmentation: Perbanyak data training dengan variasi data yang udah ada
  • Cross-validation: Evaluasi model di berbagai subset data, bukan cuma satu split

Overfitting bukan berarti model kamu bodoh. Ini cuma sinyal bahwa model butuh lebih banyak data, lebih banyak variasi, atau sedikit "pengekangan" supaya bisa generalisasi dengan baik.

Lanjut Latihan

Udah paham Overfitting? Lanjut latihan SQL dan Excel yuk!

Latihan interaktif, langsung di browser.

Mulai Latihan →