Feature Engineering

Lanjutan

Proses mengubah data mentah menjadi fitur (variabel input) yang lebih informatif dan relevan untuk meningkatkan performa model machine learning.

Feature Engineering adalah seni dan ilmu mengubah data mentah menjadi representasi numerik yang dapat ditangkap model machine learning secara efektif. Kualitas fitur sering kali lebih menentukan performa model daripada pilihan algoritma itu sendiri.

Teknik-Teknik Feature Engineering

Encoding Variabel Kategorikal

TeknikKapan DigunakanKelebihan
One-Hot EncodingKategori nominal, kardinalitas rendah (<15)Sederhana, tidak bias urutan
Label EncodingKategori ordinal (kecil, sedang, besar)Hemat memori
Target EncodingKardinalitas tinggi (kode pos, ID produk)Efektif untuk tree models
EmbeddingTeks, kategori sangat tinggi kardinalitasMenangkap semantic similarity

Transformasi Numerik

  • Log transform: Untuk distribusi skewed kanan (harga, pendapatan)
  • Binning/Bucketizing: Usia → kelompok usia, transaksi → tier
  • Polynomial features: Interaksi antar fitur (fitur A × fitur B)
  • Normalisasi / Standarisasi: Wajib untuk model berbasis jarak (KNN, SVM)

Feature Engineering Temporal

  • Ekstrak komponen tanggal: hari, bulan, quarter, hari dalam minggu
  • Lag features: nilai fitur T-1, T-7, T-30 untuk time series
  • Rolling aggregates: rata-rata 7 hari, 30 hari terakhir

Feature Engineering Berbasis SQL

SQL sangat kuat untuk feature engineering pada data transaksional:

  • Agregasi per pelanggan: total transaksi, rata-rata nilai, frekuensi
  • Window functions: lag, lead, rolling average
  • Ratio dan persentase: pct_change, market share
Lanjut Latihan

Udah paham Feature Engineering? Lanjut latihan SQL dan Excel yuk!

Latihan interaktif, langsung di browser.

Mulai Latihan →