Deduplication

Menengah

Proses mengidentifikasi dan menghilangkan record duplikat dalam dataset untuk memastikan setiap entitas hanya diwakili sekali, meningkatkan akurasi analisis dan laporan.

Deduplication (dedup) adalah proses menemukan dan menghilangkan record yang merepresentasikan entitas yang sama namun muncul lebih dari sekali dalam dataset - baik karena input ganda, integrasi sistem, atau kesalahan proses.

Jenis Duplikat

1. Exact Duplicates

  • Seluruh kolom identik
  • Mudah dideteksi dengan GROUP BY dan HAVING COUNT(*) > 1

2. Near Duplicates (Fuzzy Duplicates)

  • Merepresentasikan entitas yang sama tapi ada perbedaan minor
  • Contoh: "Budi Santoso" vs "Budi Santoso " (trailing space), atau "0812-3456-789" vs "08123456789"
  • Membutuhkan string similarity atau fuzzy matching

3. Business-Rule Duplicates

  • Duplikat berdasarkan aturan bisnis spesifik
  • Contoh: dua transaksi dengan amount dan timestamp sama dalam 5 menit → potensial duplikat pembayaran

Strategi Penanganan Duplikat

StrategiKapan DigunakanTeknik
Keep firstRecord terlama lebih dipercayaORDER BY created_at ASC
Keep lastRecord terbaru lebih akuratORDER BY updated_at DESC
Keep most completeMaksimalkan kelengkapan dataHitung non-null columns
MergeGabungkan atribut terbaik dari tiap duplikatCOALESCE antar record

Mencegah Duplikat

  • UNIQUE constraint di database
  • Idempotent API dengan idempotency key
  • Dedup check sebelum INSERT
  • Partitioning pipeline dengan dedup step
Lanjut Latihan

Udah paham Deduplication? Lanjut latihan SQL dan Excel yuk!

Latihan interaktif, langsung di browser.

Mulai Latihan →