Data Drift
Pergeseran perlahan pada distribusi atau karakteristik data dari waktu ke waktu, yang bikin model machine learning atau laporan analitik jadi makin nggak akurat meski kodenya nggak berubah.
Apa itu Data Drift?
Kamu punya model prediksi churn yang dilatih pakai data pelanggan tahun 2022. Akurasinya waktu itu 92%. Sekarang, setahun kemudian, modelnya mulai sering salah, padahal kodenya nggak ada yang berubah. Apa yang terjadi?
Kemungkinan besar: data drift. Distribusi data input ke model udah berubah dari yang dia 'kenal' waktu training. Pelanggan baru punya perilaku berbeda. Fitur yang dulu relevan mungkin udah kehilangan signifikansinya.
Data drift bukan kejadian tiba-tiba. Dia merayap pelan-pelan, dan sering baru ketahuan pas performa model udah cukup parah turunnya.
Tiga Tipe Utama Data Drift
| Tipe | Yang Berubah | Dampak Langsung |
|---|---|---|
| Feature Drift (Covariate Shift) | Distribusi input data (X) berubah | Model dapat input yang 'asing' dari saat training |
| Label Drift (Prior Probability Shift) | Distribusi target/output (Y) berubah | Proporsi kelas berubah, threshold model jadi off |
| Concept Drift | Hubungan antara X dan Y berubah | Pola lama udah nggak relevan, model salah secara struktural |
Contoh Nyata di Industri Indonesia
- E-commerce: Perilaku belanja pasca-pandemi beda banget dari pre-pandemi. Model rekomendasi yang dilatih 2019 bakal kesulitan memprediksi preferensi 2022.
- Fintech: Inflasi tinggi mengubah profil risiko kredit. Skor kredit yang dulu 'aman' sekarang bisa jadi lebih berisiko.
- Retail: Seasonal drift terjadi tiap tahun. Model yang nggak aware pola musiman akan salah prediksi terus.
Drift vs Data Quality Issue
Kadang susah bedain drift dengan masalah kualitas data biasa:
- Data Drift: Datanya valid dan konsisten, tapi distribusinya bergeser karena dunia nyata berubah.
- Data Quality Issue: Ada error di pipeline. Missing values naik tiba-tiba, encoding salah, atau sumber data berubah format.
Kalau tiba-tiba ada banyak null values di kolom yang tadinya selalu terisi, itu bukan drift. Itu data quality issue yang perlu dicari root cause-nya di pipeline.
Cara Monitoring Data Drift
Kamu bisa pantau drift dengan membandingkan distribusi data baru vs data referensi (biasanya data training). Beberapa pendekatan statistik yang umum dipakai:
- PSI (Population Stability Index): populer di fintech, PSI di atas 0.25 biasanya sinyal drift yang serius.
- KL Divergence: ukur seberapa beda dua distribusi probabilitas.
- Kolmogorov-Smirnov Test: untuk fitur numerik, cek apakah dua sampel berasal dari distribusi yang sama.
Yang penting bukan cuma deteksi, tapi juga respons: kapan harus retrain model, dan apakah drift-nya sementara atau permanen.
Udah paham Data Drift? Lanjut latihan SQL dan Excel yuk!
Latihan interaktif, langsung di browser.