Training data adalah kumpulan data berlabel yang dipakai untuk melatih model machine learning - dari sini model belajar mengenali pola dan membuat prediksi. Kualitas training data nentuin banget seberapa bagus model bisa bekerja di dunia nyata.

Apa itu Training Data?

Training data adalah kumpulan data yang dipakai untuk "mengajarkan" model machine learning cara mengenali pola. Analoginya simpel: kalau kamu mau ajar seseorang bedain kucing dan anjing dari foto, kamu perlu kasih ribuan contoh foto kucing berlabel "kucing" dan foto anjing berlabel "anjing". Itulah training data - contoh-contoh yang dari situ model belajar pola.

Kualitas dan kuantitas training data adalah salah satu penentu terbesar performa model ML. Ada pepatah terkenal di komunitas ML: "garbage in, garbage out" - model sebaik apapun tetap akan menghasilkan output buruk kalau training data-nya buruk.

Komponen Training Data

Training data biasanya punya beberapa elemen penting:

Features (fitur): Variabel input yang dipakai model untuk membuat prediksi. Contoh: umur pelanggan, total pembelian, frekuensi login dalam 30 hari terakhir.

Label atau Target: Nilai yang ingin diprediksi model. Contoh: "akan churn atau tidak", "harga rumah", "apakah email ini spam".

Data splits: Training data biasanya dibagi jadi tiga subset. Training set dipakai untuk model belajar pola, validation set untuk tuning hyperparameter, dan test set untuk evaluasi final performa model.

Jenis Training Data berdasarkan Tipe Learning

Tipe LearningKarakteristik Training DataContoh Use Case
Supervised learningAda label atau target untuk setiap data pointKlasifikasi spam, prediksi harga rumah
Unsupervised learningTidak ada label, model cari pola sendiriClustering pelanggan, anomaly detection
Semi-supervisedSebagian data berlabel, sebagian tidakKlasifikasi konten dengan label terbatas
Reinforcement learningReward signal, bukan label statisGame AI, robotics, sistem rekomendasi
Self-supervisedLabel dibuat dari data itu sendiriPre-training LLM seperti GPT dan Gemini

Kenapa Kualitas Training Data Sangat Penting?

Model ML pada dasarnya menemukan pola dalam training data. Kalau pola di data nggak merepresentasikan kenyataan, model akan "belajar hal yang salah":

Bias dalam data: Kalau training data historis model kredit didominasi oleh profil demografis tertentu, model bisa diskriminatif terhadap grup lain tanpa disengaja.

Data imbalance: Kalau 99% data adalah kelas "tidak fraud" dan 1% "fraud", model bisa belajar untuk selalu prediksi "tidak fraud" dan tetap akurat 99% tapi gagal mendeteksi penipuan yang sebenarnya.

Label noise: Label yang salah akan membingungkan model. Email spam yang salah dikategorikan sebagai email normal akan bikin filter spam jadi kurang akurat.

Data leakage: Informasi dari test set yang "bocor" ke training data bisa bikin model terlihat bagus saat evaluasi tapi jelek ketika dipakai di produksi nyata.

Proses Membuat Training Data

Membuat training data berkualitas sering jadi bagian yang paling memakan waktu dalam proyek ML - bisa mencapai 60-80% dari total waktu proyek:

Pengumpulan: Data bisa dari database internal, web scraping, API, atau pembelian dataset dari pihak ketiga.

Labeling atau Annotation: Untuk supervised learning, data harus diberi label. Bisa dilakukan manual oleh tim annotator, semi-otomatis dengan active learning, atau menggunakan layanan crowdsourcing.

Data cleaning: Handle missing values, outlier, duplikat, dan format yang tidak konsisten.

Feature engineering: Transformasi dan pembuatan fitur baru dari data mentah untuk membantu model belajar lebih efektif.

Data augmentation: Teknik untuk memperbanyak training data secara artifisial. Untuk image data bisa dengan rotasi, flip, atau perubahan kecerahan foto.

Training Data untuk Large Language Models

LLM seperti GPT atau Gemini dilatih dengan training data yang sangat besar - ratusan miliar token teks dari internet, buku, kode, dan berbagai sumber lain. Ini yang bikin mereka "tahu" begitu banyak hal. Tapi juga berarti mereka mewarisi bias dan informasi yang mungkin tidak akurat dari sumber training mereka. Kualitas dan cakupan training data LLM langsung menentukan seberapa reliabel dan aman model bisa dipakai di aplikasi nyata.

Lanjut Latihan

Udah paham Training Data? Lanjut latihan SQL dan Excel yuk!

Latihan interaktif, langsung di browser.

Mulai Latihan →