Data Drift

Menengah

Pergeseran perlahan pada distribusi atau karakteristik data dari waktu ke waktu, yang bikin model machine learning atau laporan analitik jadi makin nggak akurat meski kodenya nggak berubah.

Apa itu Data Drift?

Kamu punya model prediksi churn yang dilatih pakai data pelanggan tahun 2022. Akurasinya waktu itu 92%. Sekarang, setahun kemudian, modelnya mulai sering salah, padahal kodenya nggak ada yang berubah. Apa yang terjadi?

Kemungkinan besar: data drift. Distribusi data input ke model udah berubah dari yang dia 'kenal' waktu training. Pelanggan baru punya perilaku berbeda. Fitur yang dulu relevan mungkin udah kehilangan signifikansinya.

Data drift bukan kejadian tiba-tiba. Dia merayap pelan-pelan, dan sering baru ketahuan pas performa model udah cukup parah turunnya.

Tiga Tipe Utama Data Drift

TipeYang BerubahDampak Langsung
Feature Drift (Covariate Shift)Distribusi input data (X) berubahModel dapat input yang 'asing' dari saat training
Label Drift (Prior Probability Shift)Distribusi target/output (Y) berubahProporsi kelas berubah, threshold model jadi off
Concept DriftHubungan antara X dan Y berubahPola lama udah nggak relevan, model salah secara struktural

Contoh Nyata di Industri Indonesia

  • E-commerce: Perilaku belanja pasca-pandemi beda banget dari pre-pandemi. Model rekomendasi yang dilatih 2019 bakal kesulitan memprediksi preferensi 2022.
  • Fintech: Inflasi tinggi mengubah profil risiko kredit. Skor kredit yang dulu 'aman' sekarang bisa jadi lebih berisiko.
  • Retail: Seasonal drift terjadi tiap tahun. Model yang nggak aware pola musiman akan salah prediksi terus.

Drift vs Data Quality Issue

Kadang susah bedain drift dengan masalah kualitas data biasa:

  • Data Drift: Datanya valid dan konsisten, tapi distribusinya bergeser karena dunia nyata berubah.
  • Data Quality Issue: Ada error di pipeline. Missing values naik tiba-tiba, encoding salah, atau sumber data berubah format.

Kalau tiba-tiba ada banyak null values di kolom yang tadinya selalu terisi, itu bukan drift. Itu data quality issue yang perlu dicari root cause-nya di pipeline.

Cara Monitoring Data Drift

Kamu bisa pantau drift dengan membandingkan distribusi data baru vs data referensi (biasanya data training). Beberapa pendekatan statistik yang umum dipakai:

  • PSI (Population Stability Index): populer di fintech, PSI di atas 0.25 biasanya sinyal drift yang serius.
  • KL Divergence: ukur seberapa beda dua distribusi probabilitas.
  • Kolmogorov-Smirnov Test: untuk fitur numerik, cek apakah dua sampel berasal dari distribusi yang sama.

Yang penting bukan cuma deteksi, tapi juga respons: kapan harus retrain model, dan apakah drift-nya sementara atau permanen.

Lanjut Latihan

Udah paham Data Drift? Lanjut latihan SQL dan Excel yuk!

Latihan interaktif, langsung di browser.

Mulai Latihan →