Data Quality
Ukuran seberapa baik data memenuhi kebutuhan penggunaannya, mencakup enam dimensi utama: akurasi, kelengkapan, konsistensi, aktualitas, validitas, dan keunikan.
Data Quality adalah derajat di mana data memenuhi standar kualitas yang dipersyaratkan untuk mendukung pengambilan keputusan, pelaporan, dan operasional bisnis secara andal.
6 Dimensi Data Quality
| Dimensi | Definisi | Contoh Masalah |
|---|---|---|
| Accuracy | Data merepresentasikan realita dengan benar | Nama pelanggan salah eja, harga tidak sesuai |
| Completeness | Tidak ada nilai yang hilang atau null | Kolom email kosong pada 30% baris |
| Consistency | Data konsisten antar sistem dan tabel | Gender "L" di satu tabel, "Laki-laki" di tabel lain |
| Timeliness | Data tersedia dan terkini saat dibutuhkan | Data penjualan baru tersedia 3 hari setelah terjadi |
| Validity | Data sesuai format dan aturan bisnis | Tanggal lahir di masa depan, kode pos 4 digit |
| Uniqueness | Tidak ada duplikat yang tidak diinginkan | Pelanggan sama muncul dua kali dengan ID berbeda |
Mengapa Data Quality Penting?
Data berkualitas buruk menyebabkan:
- Keputusan bisnis yang salah - model ML dan laporan berdasarkan data kotor menghasilkan output yang menyesatkan
- Biaya yang membengkak - "garbage in, garbage out" membutuhkan rework yang mahal
- Kehilangan kepercayaan - jika data sering salah, user berhenti menggunakannya
- Risiko compliance - data pelanggan yang tidak akurat melanggar regulasi (PDPA, GDPR)
Siklus Data Quality Management
- Profiling: Pahami kondisi data saat ini
- Assessment: Ukur dimensi kualitas yang relevan
- Cleansing: Perbaiki masalah yang ditemukan
- Monitoring: Deteksi degradasi kualitas secara berkelanjutan
- Improvement: Perbaiki proses upstream yang menghasilkan data kotor
Istilah Terkait
Data Cleansing
Data QualityProses mengidentifikasi dan memperbaiki data yang tidak akurat, tidak lengkap, duplikat, atau tidak konsisten dalam sebuah dataset agar siap digunakan untuk analisis.
Data Validation
Data QualityProses memastikan data memenuhi aturan, constraint, dan standar format yang telah ditentukan sebelum digunakan dalam analisis, pelaporan, atau sistem produksi.
Data Profiling
Data QualityProses analisis statistik dan struktural terhadap dataset untuk memahami karakteristik, distribusi, dan kualitas data sebelum melakukan transformasi atau analisis lebih lanjut.
Deduplication
Data QualityProses mengidentifikasi dan menghilangkan record duplikat dalam dataset untuk memastikan setiap entitas hanya diwakili sekali, meningkatkan akurasi analisis dan laporan.
Data Accuracy
Data QualityDimensi kualitas data yang mengukur seberapa benar data merepresentasikan realita atau sumber kebenaran yang seharusnya, termasuk ketepatan nilai, format, dan konteks.
Data Completeness
Data QualityDimensi kualitas data yang mengukur seberapa lengkap data yang tersedia, yaitu seberapa sedikit nilai yang hilang (null, kosong, atau tidak diisi) dalam dataset.
Data Governance
Data GovernanceKerangka kebijakan, proses, dan tanggung jawab yang memastikan data dikelola secara konsisten, aman, berkualitas, dan sesuai regulasi di seluruh organisasi.
Master Data Management
Data GovernanceProses dan teknologi untuk membuat dan memelihara satu versi tunggal yang konsisten dari data master bisnis - seperti data pelanggan, produk, dan lokasi - sebagai sumber kebenaran tunggal di seluruh sistem.
Udah paham Data Quality? Lanjut latihan SQL dan Excel yuk!
Latihan interaktif, langsung di browser.