Data Anomaly

Pemula

Data yang nilainya nyentil banget dari pola normal, bisa error input, bisa juga signal penting yang perlu diinvestigasi lebih lanjut sebelum diambil kesimpulan.

Apa itu Data Anomaly?

Bayangkan kamu punya toko online dan rata-rata order per hari sekitar 150. Tiba-tiba di suatu hari angkanya muncul 1.500, sepuluh kali lipat. Data anomaly adalah kondisi ini: nilai atau pola yang menyimpang jauh dari yang biasanya kamu harapkan.

Yang bikin menarik, anomali nggak otomatis berarti salah. Bisa jadi itu hari promo besar-besaran, atau ada bug di sistem pencatatan order, atau malah ada fraud yang lagi terjadi. Tugasmu adalah investigasi dulu sebelum bereaksi.

Tiga Tipe Anomali yang Paling Umum

TipeDeskripsiContoh
Point AnomalySatu data point yang jauh dari yang lainUser beli 1.000 item sekaligus
Contextual AnomalyNormal di konteks lain, aneh di konteks iniSuhu 35°C wajar siang hari, tapi aneh kalau terjadi tengah malam di Jakarta
Collective AnomalyTiap nilai kelihatan normal sendiri, tapi secara kolektif mencurigakanSekelompok transaksi kecil beruntun dari satu akun dalam hitungan menit

Bedanya Anomali vs Error

Penting banget buat bedain dua hal ini:

  • Anomali adalah observasi yang menyimpang dari pola. Bisa valid, bisa nggak.
  • Error sudah pasti salah: typo, format salah, nilai mustahil kayak umur -5 tahun.

Semua error bisa dianggap anomali, tapi nggak semua anomali adalah error.

Kenapa Ini Penting di Data Pipeline?

Kalau kamu nggak deteksi anomali sedini mungkin, dampaknya bisa menjalar. Dashboard jadi misleading, model machine learning jadi bias, keputusan bisnis jadi based on data yang nggak akurat.

Di industri perbankan misalnya, anomali transaksi yang nggak terdeteksi bisa berujung kerugian jutaan rupiah. Makanya tim data biasanya pasang anomaly detector di awal pipeline supaya data bermasalah ketangkap sebelum masuk ke downstream systems.

Investigasi Sebelum Bereaksi

Ketika nemuin anomali, jangan langsung dihapus. Proses yang biasanya dipakai:

  1. Identifikasi: seberapa jauh nilainya menyimpang dari baseline?
  2. Kontekstualisasi: adakah event bisnis yang bisa menjelaskan ini?
  3. Verifikasi ke sumber: apakah sumber datanya juga menunjukkan hal yang sama?
  4. Keputusan: flag, hapus, atau dokumentasikan sebagai insight?

Anomali yang diinvestigasi dengan baik kadang malah jadi temuan bisnis yang berharga.

Lanjut Latihan

Udah paham Data Anomaly? Lanjut latihan SQL dan Excel yuk!

Latihan interaktif, langsung di browser.

Mulai Latihan →