Data Profiling

Menengah

Proses analisis statistik dan struktural terhadap dataset untuk memahami karakteristik, distribusi, dan kualitas data sebelum melakukan transformasi atau analisis lebih lanjut.

Data Profiling adalah proses pemeriksaan data yang sistematis untuk menghasilkan pemahaman mendalam tentang konten, kualitas, dan karakteristik statistik suatu dataset.

Apa yang Dianalisis dalam Data Profiling

Analisis Kolom (Column Profiling)

  • Tipe data: apakah tipe data sudah sesuai?
  • Null count & persentase: berapa banyak nilai kosong?
  • Distinct count: berapa banyak nilai unik?
  • Min, Max, Mean, Median, Std Dev: statistik deskriptif
  • Distribusi: histogram dan frequency distribution

Analisis Antar Kolom (Cross-Column Profiling)

  • Korelasi antar kolom numerik
  • Dependensi fungsional (kolom A selalu menentukan kolom B)
  • Konsistensi pasangan kolom (city dan province harus cocok)

Analisis Antar Tabel (Cross-Table Profiling)

  • Orphan records: baris yang referensinya tidak ada
  • Redundansi: informasi yang sama disimpan di banyak tempat
  • Referential integrity check

Output Data Profiling

Profiling menghasilkan laporan yang memuat:

  • Statistik ringkasan per kolom
  • Deteksi masalah kualitas potensial
  • Rekomendasi tindakan perbaikan
  • Baseline kualitas untuk perbandingan di masa depan
Lanjut Latihan

Udah paham Data Profiling? Lanjut latihan SQL dan Excel yuk!

Latihan interaktif, langsung di browser.

Mulai Latihan →