Feature Engineering
Proses mengubah data mentah menjadi fitur (variabel input) yang lebih informatif dan relevan untuk meningkatkan performa model machine learning.
Feature Engineering adalah seni dan ilmu mengubah data mentah menjadi representasi numerik yang dapat ditangkap model machine learning secara efektif. Kualitas fitur sering kali lebih menentukan performa model daripada pilihan algoritma itu sendiri.
Teknik-Teknik Feature Engineering
Encoding Variabel Kategorikal
| Teknik | Kapan Digunakan | Kelebihan |
|---|---|---|
| One-Hot Encoding | Kategori nominal, kardinalitas rendah (<15) | Sederhana, tidak bias urutan |
| Label Encoding | Kategori ordinal (kecil, sedang, besar) | Hemat memori |
| Target Encoding | Kardinalitas tinggi (kode pos, ID produk) | Efektif untuk tree models |
| Embedding | Teks, kategori sangat tinggi kardinalitas | Menangkap semantic similarity |
Transformasi Numerik
- Log transform: Untuk distribusi skewed kanan (harga, pendapatan)
- Binning/Bucketizing: Usia → kelompok usia, transaksi → tier
- Polynomial features: Interaksi antar fitur (fitur A × fitur B)
- Normalisasi / Standarisasi: Wajib untuk model berbasis jarak (KNN, SVM)
Feature Engineering Temporal
- Ekstrak komponen tanggal: hari, bulan, quarter, hari dalam minggu
- Lag features: nilai fitur T-1, T-7, T-30 untuk time series
- Rolling aggregates: rata-rata 7 hari, 30 hari terakhir
Feature Engineering Berbasis SQL
SQL sangat kuat untuk feature engineering pada data transaksional:
- Agregasi per pelanggan: total transaksi, rata-rata nilai, frekuensi
- Window functions: lag, lead, rolling average
- Ratio dan persentase: pct_change, market share
Istilah Terkait
MLOps
Machine Learning & AIPraktik dan tools untuk menstandarisasi, mengotomasi, dan memonitor siklus hidup model machine learning dari pengembangan hingga deployment dan monitoring di production.
Model Training
Machine Learning & AIProses melatih algoritma machine learning menggunakan data berlabel sehingga model mempelajari pola dan dapat membuat prediksi yang akurat pada data baru.
Model Deployment
Machine Learning & AIProses memindahkan model machine learning yang sudah dilatih ke lingkungan production sehingga dapat digunakan oleh aplikasi nyata untuk menghasilkan prediksi.
Udah paham Feature Engineering? Lanjut latihan SQL dan Excel yuk!
Latihan interaktif, langsung di browser.