Data Transformation

Pemula

Proses mengubah format, struktur, atau nilai data dari bentuk aslinya ke bentuk yang lebih bersih dan siap dipakai untuk analisis atau sistem tujuan.

Apa Itu Data Transformation?

Data yang baru masuk dari sumber sering kali belum siap dipakai langsung. Tanggal disimpan sebagai teks biasa, angka yang seharusnya ribuan tapi disimpan sebagai jutaan, atau kategori yang nggak konsisten kayak "laki-laki", "L", dan "Male" untuk field yang sama. Data Transformation adalah proses mengubah semua itu jadi bentuk yang bersih, konsisten, dan siap dianalisis.

Analognya kayak menyiapkan bahan masakan sebelum dimasak. Data mentah itu bahan yang baru dibeli dari pasar: ada sayuran yang perlu dicuci, dipotong ukuran tertentu, dan bumbu yang perlu dihaluskan dulu. Baru setelah semuanya siap, kamu bisa mulai masak.

Jenis-Jenis Transformasi Data

Jenis TransformasiContoh Konkret
Type castingUbah kolom tanggal dari string "2024-01-15" ke format date yang proper
NormalisasiSeragamkan nilai "Jakarta", "jakarta", "DKI Jakarta" jadi satu standar
AgregasiRingkas data transaksi harian jadi total penjualan per bulan
Derived columnHitung kolom baru usia dari tanggal_lahir dan tanggal hari ini
FilteringBuang baris dengan nilai null di kolom yang kritis
JoiningGabungkan tabel pesanan dengan pelanggan berdasarkan customer_id
PivotingUbah data dari format panjang ke format lebar atau sebaliknya
DeduplicationHapus baris duplikat yang masuk karena error di sumber data

Kapan Transformasi Dilakukan?

Dalam arsitektur modern, ada dua pendekatan utama:

ETL (Extract, Transform, Load): Transformasi dilakukan sebelum data masuk ke data warehouse. Pendekatan lama tapi masih relevan untuk sistem legacy atau kebutuhan keamanan data yang ketat.

ELT (Extract, Load, Transform): Data dimasukkan dulu apa adanya, transformasi dilakukan di dalam data warehouse pakai SQL atau tool seperti dbt. Ini pendekatan yang lebih populer sekarang karena memanfaatkan kekuatan komputasi cloud.

Transformasi di SQL vs di Python

SQL sangat cocok untuk transformasi berbasis set: join, agregasi, filter, group by. Python lewat pandas atau Spark lebih fleksibel untuk transformasi yang kompleks: text parsing, machine learning preprocessing, atau logika bisnis yang rumit. Di praktiknya, banyak tim pakai keduanya sesuai kebutuhan masing-masing.

Kenapa Transformasi Sering Jadi Pekerjaan Terbesar?

Survey industri secara konsisten menunjukkan bahwa data practitioners menghabiskan 60-80% waktunya untuk "menyiapkan data", dan transformasi adalah bagian terbesar dari itu. Ini bukan tanda ada yang salah, transformasi memang pekerjaan yang bernilai tinggi karena di sinilah logika bisnis dikodifikasikan ke dalam data. Kolom "status pelanggan aktif" itu hasil transformasi dari puluhan aturan bisnis yang disepakati tim.

Lanjut Latihan

Udah paham Data Transformation? Lanjut latihan SQL dan Excel yuk!

Latihan interaktif, langsung di browser.

Mulai Latihan →