Data Transformation
Proses mengubah format, struktur, atau nilai data dari bentuk aslinya ke bentuk yang lebih bersih dan siap dipakai untuk analisis atau sistem tujuan.
Apa Itu Data Transformation?
Data yang baru masuk dari sumber sering kali belum siap dipakai langsung. Tanggal disimpan sebagai teks biasa, angka yang seharusnya ribuan tapi disimpan sebagai jutaan, atau kategori yang nggak konsisten kayak "laki-laki", "L", dan "Male" untuk field yang sama. Data Transformation adalah proses mengubah semua itu jadi bentuk yang bersih, konsisten, dan siap dianalisis.
Analognya kayak menyiapkan bahan masakan sebelum dimasak. Data mentah itu bahan yang baru dibeli dari pasar: ada sayuran yang perlu dicuci, dipotong ukuran tertentu, dan bumbu yang perlu dihaluskan dulu. Baru setelah semuanya siap, kamu bisa mulai masak.
Jenis-Jenis Transformasi Data
| Jenis Transformasi | Contoh Konkret |
|---|---|
| Type casting | Ubah kolom tanggal dari string "2024-01-15" ke format date yang proper |
| Normalisasi | Seragamkan nilai "Jakarta", "jakarta", "DKI Jakarta" jadi satu standar |
| Agregasi | Ringkas data transaksi harian jadi total penjualan per bulan |
| Derived column | Hitung kolom baru usia dari tanggal_lahir dan tanggal hari ini |
| Filtering | Buang baris dengan nilai null di kolom yang kritis |
| Joining | Gabungkan tabel pesanan dengan pelanggan berdasarkan customer_id |
| Pivoting | Ubah data dari format panjang ke format lebar atau sebaliknya |
| Deduplication | Hapus baris duplikat yang masuk karena error di sumber data |
Kapan Transformasi Dilakukan?
Dalam arsitektur modern, ada dua pendekatan utama:
ETL (Extract, Transform, Load): Transformasi dilakukan sebelum data masuk ke data warehouse. Pendekatan lama tapi masih relevan untuk sistem legacy atau kebutuhan keamanan data yang ketat.
ELT (Extract, Load, Transform): Data dimasukkan dulu apa adanya, transformasi dilakukan di dalam data warehouse pakai SQL atau tool seperti dbt. Ini pendekatan yang lebih populer sekarang karena memanfaatkan kekuatan komputasi cloud.
Transformasi di SQL vs di Python
SQL sangat cocok untuk transformasi berbasis set: join, agregasi, filter, group by. Python lewat pandas atau Spark lebih fleksibel untuk transformasi yang kompleks: text parsing, machine learning preprocessing, atau logika bisnis yang rumit. Di praktiknya, banyak tim pakai keduanya sesuai kebutuhan masing-masing.
Kenapa Transformasi Sering Jadi Pekerjaan Terbesar?
Survey industri secara konsisten menunjukkan bahwa data practitioners menghabiskan 60-80% waktunya untuk "menyiapkan data", dan transformasi adalah bagian terbesar dari itu. Ini bukan tanda ada yang salah, transformasi memang pekerjaan yang bernilai tinggi karena di sinilah logika bisnis dikodifikasikan ke dalam data. Kolom "status pelanggan aktif" itu hasil transformasi dari puluhan aturan bisnis yang disepakati tim.
Udah paham Data Transformation? Lanjut latihan SQL dan Excel yuk!
Latihan interaktif, langsung di browser.