Question 1

Apa itu Training Data?

Accepted Answer

Training data adalah kumpulan data berlabel yang dipakai untuk melatih model machine learning - dari sini model belajar mengenali pola dan membuat prediksi. Kualitas training data nentuin banget seberapa bagus model bisa bekerja di dunia nyata.

Question 2

Kapan Training Data digunakan?

Accepted Answer

Melatih model klasifikasi email spam dengan contoh email berlabel spam dan bukan spam. Training model computer vision untuk deteksi objek dengan ribuan foto berlabel. Membuat dataset sentimen dari review produk untuk melatih model analisis sentimen. Pre-training large language model dengan ratusan miliar token teks dari berbagai sumber. Melatih model prediksi churn pelanggan dengan data historis perilaku dan status langganan

Question 3

Apa kesalahpahaman umum tentang Training Data?

Accepted Answer

Semakin banyak data selalu lebih baik - data yang banyak tapi berkualitas buruk bisa lebih merusak daripada data sedikit tapi bersih dan representatif. Training data yang bagus cukup dibuat sekali - perlu diupdate secara berkala seiring perubahan pola di dunia nyata (data drift). Model yang akurat di training data pasti bagus di produksi - bisa jadi model overfit atau ada data leakage yang bikin evaluasi menyesatkan. Labeling data itu mudah dan cepat - labeling yang konsisten dan akurat butuh waktu, panduan annotator, dan quality control yang ketat

Tipe Learning	Karakteristik Training Data	Contoh Use Case
Supervised learning	Ada label atau target untuk setiap data point	Klasifikasi spam, prediksi harga rumah
Unsupervised learning	Tidak ada label, model cari pola sendiri	Clustering pelanggan, anomaly detection
Semi-supervised	Sebagian data berlabel, sebagian tidak	Klasifikasi konten dengan label terbatas
Reinforcement learning	Reward signal, bukan label statis	Game AI, robotics, sistem rekomendasi
Self-supervised	Label dibuat dari data itu sendiri	Pre-training LLM seperti GPT dan Gemini

Training Data

Apa itu Training Data?

Komponen Training Data

Jenis Training Data berdasarkan Tipe Learning

Kenapa Kualitas Training Data Sangat Penting?

Proses Membuat Training Data

Training Data untuk Large Language Models