Deduplication
Proses mengidentifikasi dan menghilangkan record duplikat dalam dataset untuk memastikan setiap entitas hanya diwakili sekali, meningkatkan akurasi analisis dan laporan.
Deduplication (dedup) adalah proses menemukan dan menghilangkan record yang merepresentasikan entitas yang sama namun muncul lebih dari sekali dalam dataset - baik karena input ganda, integrasi sistem, atau kesalahan proses.
Jenis Duplikat
1. Exact Duplicates
- Seluruh kolom identik
- Mudah dideteksi dengan GROUP BY dan HAVING COUNT(*) > 1
2. Near Duplicates (Fuzzy Duplicates)
- Merepresentasikan entitas yang sama tapi ada perbedaan minor
- Contoh: "Budi Santoso" vs "Budi Santoso " (trailing space), atau "0812-3456-789" vs "08123456789"
- Membutuhkan string similarity atau fuzzy matching
3. Business-Rule Duplicates
- Duplikat berdasarkan aturan bisnis spesifik
- Contoh: dua transaksi dengan amount dan timestamp sama dalam 5 menit → potensial duplikat pembayaran
Strategi Penanganan Duplikat
| Strategi | Kapan Digunakan | Teknik |
|---|---|---|
| Keep first | Record terlama lebih dipercaya | ORDER BY created_at ASC |
| Keep last | Record terbaru lebih akurat | ORDER BY updated_at DESC |
| Keep most complete | Maksimalkan kelengkapan data | Hitung non-null columns |
| Merge | Gabungkan atribut terbaik dari tiap duplikat | COALESCE antar record |
Mencegah Duplikat
- UNIQUE constraint di database
- Idempotent API dengan idempotency key
- Dedup check sebelum INSERT
- Partitioning pipeline dengan dedup step
Istilah Terkait
Data Quality
Data QualityUkuran seberapa baik data memenuhi kebutuhan penggunaannya, mencakup enam dimensi utama: akurasi, kelengkapan, konsistensi, aktualitas, validitas, dan keunikan.
Data Cleansing
Data QualityProses mengidentifikasi dan memperbaiki data yang tidak akurat, tidak lengkap, duplikat, atau tidak konsisten dalam sebuah dataset agar siap digunakan untuk analisis.
Data Validation
Data QualityProses memastikan data memenuhi aturan, constraint, dan standar format yang telah ditentukan sebelum digunakan dalam analisis, pelaporan, atau sistem produksi.
Data Profiling
Data QualityProses analisis statistik dan struktural terhadap dataset untuk memahami karakteristik, distribusi, dan kualitas data sebelum melakukan transformasi atau analisis lebih lanjut.
Udah paham Deduplication? Lanjut latihan SQL dan Excel yuk!
Latihan interaktif, langsung di browser.