Data Profiling
Proses analisis statistik dan struktural terhadap dataset untuk memahami karakteristik, distribusi, dan kualitas data sebelum melakukan transformasi atau analisis lebih lanjut.
Data Profiling adalah proses pemeriksaan data yang sistematis untuk menghasilkan pemahaman mendalam tentang konten, kualitas, dan karakteristik statistik suatu dataset.
Apa yang Dianalisis dalam Data Profiling
Analisis Kolom (Column Profiling)
- Tipe data: apakah tipe data sudah sesuai?
- Null count & persentase: berapa banyak nilai kosong?
- Distinct count: berapa banyak nilai unik?
- Min, Max, Mean, Median, Std Dev: statistik deskriptif
- Distribusi: histogram dan frequency distribution
Analisis Antar Kolom (Cross-Column Profiling)
- Korelasi antar kolom numerik
- Dependensi fungsional (kolom A selalu menentukan kolom B)
- Konsistensi pasangan kolom (city dan province harus cocok)
Analisis Antar Tabel (Cross-Table Profiling)
- Orphan records: baris yang referensinya tidak ada
- Redundansi: informasi yang sama disimpan di banyak tempat
- Referential integrity check
Output Data Profiling
Profiling menghasilkan laporan yang memuat:
- Statistik ringkasan per kolom
- Deteksi masalah kualitas potensial
- Rekomendasi tindakan perbaikan
- Baseline kualitas untuk perbandingan di masa depan
Istilah Terkait
Data Quality
Data QualityUkuran seberapa baik data memenuhi kebutuhan penggunaannya, mencakup enam dimensi utama: akurasi, kelengkapan, konsistensi, aktualitas, validitas, dan keunikan.
Data Cleansing
Data QualityProses mengidentifikasi dan memperbaiki data yang tidak akurat, tidak lengkap, duplikat, atau tidak konsisten dalam sebuah dataset agar siap digunakan untuk analisis.
Data Validation
Data QualityProses memastikan data memenuhi aturan, constraint, dan standar format yang telah ditentukan sebelum digunakan dalam analisis, pelaporan, atau sistem produksi.
Deduplication
Data QualityProses mengidentifikasi dan menghilangkan record duplikat dalam dataset untuk memastikan setiap entitas hanya diwakili sekali, meningkatkan akurasi analisis dan laporan.
Udah paham Data Profiling? Lanjut latihan SQL dan Excel yuk!
Latihan interaktif, langsung di browser.