Outlier adalah nilai dalam dataset yang jauh menyimpang dari pola umum data. Bisa jadi error, bisa juga justru temuan bisnis yang paling penting.

Bayangin kamu lagi cek data gaji karyawan. Semua orang gajinya di rentang 5 sampai 30 juta, tapi ada satu orang yang gajinya 500 juta. Ini outlier. Sekarang pertanyaannya: ini salah input nol, atau ini memang gaji direktur yang valid?

Inilah yang bikin outlier menarik sekaligus tricky: kamu nggak bisa langsung buang atau langsung percaya. Perlu investigasi dulu.

Jenis-jenis Outlier

JenisPenjelasanContoh
Error OutlierNilai aneh karena kesalahan dataUsia pelanggan: 999, atau transaksi senilai Rp 0
Genuine OutlierNilai aneh tapi valid secara bisnisTransaksi besar dari corporate client atau produk yang viral
Point OutlierSatu nilai tunggal yang anehSatu hari di mana traffic website 10x dari hari biasa
Contextual OutlierNilai normal secara global, tapi aneh di konteksnyaSuhu 35°C di bulan Desember di kota yang biasanya dingin
Collective OutlierSekelompok nilai yang bersama-sama anehSerangkaian transaksi kecil-kecil dalam 2 menit (indikasi fraud)

Cara Mendeteksi Outlier

Ada beberapa pendekatan populer:

Z-Score: Nilai yang lebih dari 3 standar deviasi dari mean dianggap outlier. Cocok untuk data yang terdistribusi normal.

IQR Method (Interquartile Range): Hitung rentang antara Q1 dan Q3. Nilai yang lebih dari 1.5 kali IQR di bawah Q1 atau di atas Q3 dianggap outlier. Lebih robust untuk data yang skewed.

Visual Check: Boxplot, scatter plot, atau histogram seringkali cukup untuk melihat outlier secara langsung, terutama di tahap eksplorasi awal.

Outlier Bisa Jadi Insights Paling Berharga

Ini yang sering dilupain: outlier bukan selalu musuh. Di banyak kasus bisnis, outlier adalah sinyal paling penting yang perlu diperhatikan:

  • Fraud detection: Transaksi yang jauh dari pola normal bisa indikasi penipuan
  • Best customer identification: Pelanggan yang spending-nya jauh di atas rata-rata bisa jadi segmen VIP yang perlu diprioritaskan
  • Viral moment: Lonjakan traffic atau penjualan yang tiba-tiba perlu ditelusuri sebabnya
  • System error: Outlier yang nggak masuk akal secara bisnis sering menunjukkan bug di sistem upstream

Outlier dalam Machine Learning

Di model ML, outlier bisa punya dampak besar. Algoritma yang sensitif terhadap outlier seperti linear regression bisa hasil prediksinya "ditarik" ke arah outlier dan jadi nggak akurat untuk mayoritas kasus. Makanya, salah satu langkah penting dalam data preprocessing adalah outlier handling: apakah di-remove, di-cap dengan teknik winsorizing, atau ditransformasi dulu.

Lanjut Latihan

Udah paham Outlier? Lanjut latihan SQL dan Excel yuk!

Latihan interaktif, langsung di browser.

Mulai Latihan →