Question 1

Apa itu Data Cleansing?

Accepted Answer

Proses mengidentifikasi dan memperbaiki data yang tidak akurat, tidak lengkap, duplikat, atau tidak konsisten dalam sebuah dataset agar siap digunakan untuk analisis.

Question 2

Kapan Data Cleansing digunakan?

Accepted Answer

Membersihkan data pelanggan dari CRM sebelum campaign email marketing. Menstandarisasi format alamat dan nomor telepon untuk pengiriman. Memperbaiki data historis sebelum migrasi ke sistem baru. Menghapus duplikat dari data produk yang diinput manual. Membersihkan data transaksi dari nilai negatif dan outlier ekstrem sebelum pelaporan finansial

Question 3

Apa kesalahpahaman umum tentang Data Cleansing?

Accepted Answer

Data cleansing bukan proses satu kali - data baru yang masuk terus-menerus membawa masalah kualitas baru yang perlu dibersihkan secara berkala. Menghapus null tidak selalu tepat - terkadang null memiliki makna bisnis yang spesifik (bukan kesalahan) dan harus dipertahankan. Data cleansing manual tidak skalabel - untuk dataset besar, cleansing harus diotomasi dalam pipeline dan divalidasi secara programatik

Data Cleansing

Jenis-Jenis Masalah Data yang Dibersihkan

1. Missing Values (Nilai Null/Kosong)

2. Duplikat

3. Format yang Tidak Konsisten

4. Outlier dan Nilai Tidak Valid

Kapan Melakukan Cleansing

Istilah Terkait

Data Quality

Data Validation

Data Profiling

Deduplication