Data Quality

Menengah

Ukuran seberapa baik data memenuhi kebutuhan penggunaannya, mencakup enam dimensi utama: akurasi, kelengkapan, konsistensi, aktualitas, validitas, dan keunikan.

Data Quality adalah derajat di mana data memenuhi standar kualitas yang dipersyaratkan untuk mendukung pengambilan keputusan, pelaporan, dan operasional bisnis secara andal.

6 Dimensi Data Quality

DimensiDefinisiContoh Masalah
AccuracyData merepresentasikan realita dengan benarNama pelanggan salah eja, harga tidak sesuai
CompletenessTidak ada nilai yang hilang atau nullKolom email kosong pada 30% baris
ConsistencyData konsisten antar sistem dan tabelGender "L" di satu tabel, "Laki-laki" di tabel lain
TimelinessData tersedia dan terkini saat dibutuhkanData penjualan baru tersedia 3 hari setelah terjadi
ValidityData sesuai format dan aturan bisnisTanggal lahir di masa depan, kode pos 4 digit
UniquenessTidak ada duplikat yang tidak diinginkanPelanggan sama muncul dua kali dengan ID berbeda

Mengapa Data Quality Penting?

Data berkualitas buruk menyebabkan:

  • Keputusan bisnis yang salah - model ML dan laporan berdasarkan data kotor menghasilkan output yang menyesatkan
  • Biaya yang membengkak - "garbage in, garbage out" membutuhkan rework yang mahal
  • Kehilangan kepercayaan - jika data sering salah, user berhenti menggunakannya
  • Risiko compliance - data pelanggan yang tidak akurat melanggar regulasi (PDPA, GDPR)

Siklus Data Quality Management

  1. Profiling: Pahami kondisi data saat ini
  2. Assessment: Ukur dimensi kualitas yang relevan
  3. Cleansing: Perbaiki masalah yang ditemukan
  4. Monitoring: Deteksi degradasi kualitas secara berkelanjutan
  5. Improvement: Perbaiki proses upstream yang menghasilkan data kotor

Istilah Terkait

Data Cleansing

Data Quality
Pemula

Proses mengidentifikasi dan memperbaiki data yang tidak akurat, tidak lengkap, duplikat, atau tidak konsisten dalam sebuah dataset agar siap digunakan untuk analisis.

Data Validation

Data Quality
Menengah

Proses memastikan data memenuhi aturan, constraint, dan standar format yang telah ditentukan sebelum digunakan dalam analisis, pelaporan, atau sistem produksi.

Data Profiling

Data Quality
Menengah

Proses analisis statistik dan struktural terhadap dataset untuk memahami karakteristik, distribusi, dan kualitas data sebelum melakukan transformasi atau analisis lebih lanjut.

Deduplication

Data Quality
Menengah

Proses mengidentifikasi dan menghilangkan record duplikat dalam dataset untuk memastikan setiap entitas hanya diwakili sekali, meningkatkan akurasi analisis dan laporan.

Data Accuracy

Data Quality
Pemula

Dimensi kualitas data yang mengukur seberapa benar data merepresentasikan realita atau sumber kebenaran yang seharusnya, termasuk ketepatan nilai, format, dan konteks.

Data Completeness

Data Quality
Pemula

Dimensi kualitas data yang mengukur seberapa lengkap data yang tersedia, yaitu seberapa sedikit nilai yang hilang (null, kosong, atau tidak diisi) dalam dataset.

Data Governance

Data Governance
Menengah

Kerangka kebijakan, proses, dan tanggung jawab yang memastikan data dikelola secara konsisten, aman, berkualitas, dan sesuai regulasi di seluruh organisasi.

Master Data Management

Data Governance
Lanjutan

Proses dan teknologi untuk membuat dan memelihara satu versi tunggal yang konsisten dari data master bisnis - seperti data pelanggan, produk, dan lokasi - sebagai sumber kebenaran tunggal di seluruh sistem.

Lanjut Latihan

Udah paham Data Quality? Lanjut latihan SQL dan Excel yuk!

Latihan interaktif, langsung di browser.

Mulai Latihan →