Data Cleansing
Proses mengidentifikasi dan memperbaiki data yang tidak akurat, tidak lengkap, duplikat, atau tidak konsisten dalam sebuah dataset agar siap digunakan untuk analisis.
Data Cleansing (juga dikenal sebagai Data Cleaning atau Data Scrubbing) adalah proses mendeteksi dan memperbaiki berbagai masalah dalam data mentah sehingga dataset menjadi akurat, lengkap, dan konsisten.
Jenis-Jenis Masalah Data yang Dibersihkan
1. Missing Values (Nilai Null/Kosong)
- Drop: Hapus baris jika nilai kritis null dan proporsinya kecil
- Imputation: Isi dengan mean/median/mode atau nilai yang diprediksi
- Default value: Isi dengan nilai bisnis yang masuk akal (misalnya: 0 untuk amount)
2. Duplikat
- Identifikasi dengan GROUP BY dan HAVING COUNT(*) > 1
- Dedup dengan ROW_NUMBER() OVER (PARTITION BY ... ORDER BY ...)
- Pilih record "terbaik" berdasarkan timestamp terbaru atau kelengkapan data
3. Format yang Tidak Konsisten
- Standarisasi case: UPPER(), LOWER(), INITCAP()
- Hapus whitespace: TRIM(), LTRIM(), RTRIM()
- Standarisasi format tanggal, nomor telepon, dll.
4. Outlier dan Nilai Tidak Valid
- Deteksi dengan IQR, Z-score, atau aturan bisnis
- Tindakan: hapus, ganti dengan null, atau clamp ke batas wajar
Kapan Melakukan Cleansing
- Sebelum analisis: pastikan insight tidak didasarkan pada data kotor
- Sebelum training ML: model mewarisi kualitas training data
- Dalam pipeline ETL/ELT: otomatis saat data masuk ke warehouse
- Secara berkala: data bersih bisa terkontaminasi oleh input baru
Istilah Terkait
Data Quality
Data QualityUkuran seberapa baik data memenuhi kebutuhan penggunaannya, mencakup enam dimensi utama: akurasi, kelengkapan, konsistensi, aktualitas, validitas, dan keunikan.
Data Validation
Data QualityProses memastikan data memenuhi aturan, constraint, dan standar format yang telah ditentukan sebelum digunakan dalam analisis, pelaporan, atau sistem produksi.
Data Profiling
Data QualityProses analisis statistik dan struktural terhadap dataset untuk memahami karakteristik, distribusi, dan kualitas data sebelum melakukan transformasi atau analisis lebih lanjut.
Deduplication
Data QualityProses mengidentifikasi dan menghilangkan record duplikat dalam dataset untuk memastikan setiap entitas hanya diwakili sekali, meningkatkan akurasi analisis dan laporan.
Udah paham Data Cleansing? Lanjut latihan SQL dan Excel yuk!
Latihan interaktif, langsung di browser.