Data Cleansing

Pemula

Proses mengidentifikasi dan memperbaiki data yang tidak akurat, tidak lengkap, duplikat, atau tidak konsisten dalam sebuah dataset agar siap digunakan untuk analisis.

Data Cleansing (juga dikenal sebagai Data Cleaning atau Data Scrubbing) adalah proses mendeteksi dan memperbaiki berbagai masalah dalam data mentah sehingga dataset menjadi akurat, lengkap, dan konsisten.

Jenis-Jenis Masalah Data yang Dibersihkan

1. Missing Values (Nilai Null/Kosong)

  • Drop: Hapus baris jika nilai kritis null dan proporsinya kecil
  • Imputation: Isi dengan mean/median/mode atau nilai yang diprediksi
  • Default value: Isi dengan nilai bisnis yang masuk akal (misalnya: 0 untuk amount)

2. Duplikat

  • Identifikasi dengan GROUP BY dan HAVING COUNT(*) > 1
  • Dedup dengan ROW_NUMBER() OVER (PARTITION BY ... ORDER BY ...)
  • Pilih record "terbaik" berdasarkan timestamp terbaru atau kelengkapan data

3. Format yang Tidak Konsisten

  • Standarisasi case: UPPER(), LOWER(), INITCAP()
  • Hapus whitespace: TRIM(), LTRIM(), RTRIM()
  • Standarisasi format tanggal, nomor telepon, dll.

4. Outlier dan Nilai Tidak Valid

  • Deteksi dengan IQR, Z-score, atau aturan bisnis
  • Tindakan: hapus, ganti dengan null, atau clamp ke batas wajar

Kapan Melakukan Cleansing

  • Sebelum analisis: pastikan insight tidak didasarkan pada data kotor
  • Sebelum training ML: model mewarisi kualitas training data
  • Dalam pipeline ETL/ELT: otomatis saat data masuk ke warehouse
  • Secara berkala: data bersih bisa terkontaminasi oleh input baru
Lanjut Latihan

Udah paham Data Cleansing? Lanjut latihan SQL dan Excel yuk!

Latihan interaktif, langsung di browser.

Mulai Latihan →