Data Validation
Proses memastikan data memenuhi aturan, constraint, dan standar format yang telah ditentukan sebelum digunakan dalam analisis, pelaporan, atau sistem produksi.
Data Validation adalah proses sistematis untuk memeriksa apakah data yang masuk atau yang ada dalam sistem mematuhi seperangkat aturan bisnis, format, dan constraint yang telah ditentukan.
Jenis-Jenis Validasi Data
1. Format Validation
- Memastikan data dalam format yang benar
- Contoh: email harus mengandung @, tanggal dalam format YYYY-MM-DD
2. Range Validation
- Nilai numerik dalam rentang yang diperbolehkan
- Contoh: umur antara 0-120, rating antara 1-5
3. Constraint Validation
- Aturan integritas referensial dan bisnis
- Contoh: order_id di tabel order_items harus ada di tabel orders
4. Completeness Validation
- Kolom yang wajib diisi tidak boleh null
- Contoh: customer_id, order_date wajib ada
5. Consistency Validation
- Data konsisten antar kolom atau antar tabel
- Contoh: ship_date tidak boleh sebelum order_date
Di Mana Validasi Diterapkan
| Layer | Tools | Kapan |
|---|---|---|
| Database | SQL CHECK constraint, FK, NOT NULL | Saat INSERT/UPDATE |
| Pipeline | dbt tests, Great Expectations | Saat ETL/ELT berjalan |
| API | Pydantic, Cerberus | Saat request masuk |
| Aplikasi | Form validation | Saat user mengisi data |
Validasi vs Cleansing
- Validasi: memeriksa apakah data sesuai aturan (pass/fail)
- Cleansing: memperbaiki data yang tidak sesuai aturan
Istilah Terkait
Data Quality
Data QualityUkuran seberapa baik data memenuhi kebutuhan penggunaannya, mencakup enam dimensi utama: akurasi, kelengkapan, konsistensi, aktualitas, validitas, dan keunikan.
Data Cleansing
Data QualityProses mengidentifikasi dan memperbaiki data yang tidak akurat, tidak lengkap, duplikat, atau tidak konsisten dalam sebuah dataset agar siap digunakan untuk analisis.
Data Profiling
Data QualityProses analisis statistik dan struktural terhadap dataset untuk memahami karakteristik, distribusi, dan kualitas data sebelum melakukan transformasi atau analisis lebih lanjut.
Deduplication
Data QualityProses mengidentifikasi dan menghilangkan record duplikat dalam dataset untuk memastikan setiap entitas hanya diwakili sekali, meningkatkan akurasi analisis dan laporan.
Udah paham Data Validation? Lanjut latihan SQL dan Excel yuk!
Latihan interaktif, langsung di browser.