Data Wrangling

Pemula

Proses hands-on untuk membersihkan, mereshape, dan menyiapkan data mentah yang berantakan supaya siap dianalisis. Sering disebut juga data munging.

Apa Itu Data Wrangling?

"Wrangling" dalam bahasa Inggris artinya menggiring ternak yang susah diatur. Nama ini cocok banget untuk menggambarkan pekerjaan ini: bergulat dengan data yang berantakan, nggak konsisten, dan penuh kejutan tak menyenangkan.

Bayangkan kamu dikasih file Excel dari 5 cabang berbeda. Satu pakai format tanggal DD/MM/YYYY, yang lain MM-DD-YY. Ada kolom "Nama Kota" yang isinya campuran "Bandung", "bandung", "BANDUNG", dan "Bdg". Nomor telepon ada yang diawali +62, ada yang 08, ada yang 8 saja. Itu belum termasuk baris kosong, data duplikat, dan kolom yang namanya beda padahal maksudnya sama.

Proses bersih-bersih dan merapikan semua itu sebelum bisa dianalisis: itulah Data Wrangling.

Aktivitas yang Masuk Kategori Wrangling

AktivitasContoh Konkret
Handling missing valuesIsi nilai kosong dengan median, atau hapus baris jika terlalu banyak field yang kosong
Standardisasi formatSeragamkan semua tanggal ke ISO 8601 (YYYY-MM-DD)
DeduplikasiDeteksi dan hapus baris yang sama persis atau sangat mirip
Memperbaiki data typesUbah kolom "harga" dari tipe object/string ke numeric
Menangani outlierIdentifikasi nilai yang nggak masuk akal seperti usia 200 tahun atau harga negatif
Reshaping dataPivot, melt, stack, unstack untuk mengubah struktur tabel
String cleaningStrip whitespace, lowercase, normalisasi singkatan dan ejaan
Merging datasetsGabungkan beberapa file atau tabel jadi satu dataset yang utuh

Wrangling vs Transformation vs Cleaning

Tiga istilah ini sering dipakai bergantian, tapi ada nuansanya:

  • Data Cleaning: Fokus pada memperbaiki kesalahan dan inkonsistensi. Ini subset dari wrangling.
  • Data Transformation: Lebih luas, mencakup perubahan struktur dan kalkulasi business logic. Biasanya dikodifikasikan dalam pipeline otomatis.
  • Data Wrangling: Istilah yang paling "hands-on". Biasanya merujuk ke proses eksplorasi dan pembersihan interaktif yang dilakukan analis atau data scientist, sebelum data masuk ke pipeline formal.

Jadi wrangling lebih ke "pekerjaan di lapangan" yang dilakukan manusia dengan alat eksplorasi, sedangkan transformation lebih ke "pekerjaan yang sudah dikodifikasikan" dalam pipeline.

Kenapa Wrangling Makan Waktu Banget?

Karena kamu nggak tahu apa yang bakal ketemu sebelum melihatnya. Wrangling adalah pekerjaan penemuan: setiap dataset punya quirks dan masalah uniknya sendiri, nggak ada dua dataset yang masalahnya persis sama.

Di sinilah domain knowledge sangat penting. Kamu perlu paham bisnisnya untuk bisa menentukan: nilai null di kolom "kota" itu data kosong yang valid atau error? Transaksi senilai Rp 0 itu bug atau memang gratis? Pertanyaan-pertanyaan itu nggak bisa dijawab cuma dari melihat datanya saja.

Lanjut Latihan

Udah paham Data Wrangling? Lanjut latihan SQL dan Excel yuk!

Latihan interaktif, langsung di browser.

Mulai Latihan →