Data Labeling
Proses memberikan label atau anotasi pada data mentah supaya model ML bisa belajar dari contoh-contoh yang sudah dikategorikan dengan benar.
Apa Itu Data Labeling?
Bayangin kamu mau ajarin anak kecil bedain kucing dan anjing. Kamu pasti tunjukin foto satu per satu sambil bilang "ini kucing", "ini anjing". Data Labeling itu persis proses itu: manusia memberikan "jawaban benar" ke tiap contoh data supaya model ML bisa belajar.
Supervised Machine Learning bergantung penuh pada data berlabel. Tanpa label, model nggak tau apa yang harus dipelajari. Data Labeling adalah pekerjaan di balik layar yang sering nggak glamor tapi punya peran besar dalam bikin model ML bisa bekerja.
Jenis-jenis Data Labeling
Bentuk labelingnya berbeda tergantung tipe data dan task-nya:
| Tipe Data | Contoh Task | Contoh Label |
|---|---|---|
| Teks | Klasifikasi sentimen | Positif / Negatif / Netral |
| Teks | Named Entity Recognition | Nama orang, organisasi, lokasi |
| Gambar | Klasifikasi objek | "kucing", "anjing", "burung" |
| Gambar | Object Detection | Bounding box + label kelas |
| Gambar | Segmentasi | Piksel per piksel diberi label |
| Audio | Speech Recognition | Transkripsi teks dari audio |
Proses Data Labeling
Biasanya data labeling punya alur seperti ini:
- Pengumpulan data mentah: Kumpulkan foto, teks, audio, atau apapun yang relevan
- Pembuatan guideline: Buat panduan yang jelas buat labeler supaya konsisten
- Labeling: Manusia (labeler/annotator) kasih label ke setiap data point
- Quality check: Review label yang udah ada untuk pastiin konsistensi dan akurasi
- Resolusi disagreement: Kalau banyak labeler, tangani kasus di mana labeler nggak setuju
Tantangan Umum
- Subjektivitas: Dua orang labeler bisa labeling hal yang sama secara berbeda, terutama untuk sentimen atau konten ambigu
- Skala: Butuh ribuan atau bahkan jutaan data berlabel untuk model yang baik, yang berarti butuh waktu dan biaya yang nggak sedikit
- Konsistensi: Makin banyak labeler yang terlibat, makin susah menjaga konsistensi label
- Domain expertise: Beberapa task seperti labeling medical image butuh labeler yang punya keahlian khusus
Pendekatan Modern untuk Kurangi Beban Labeling
- Semi-supervised learning: Train model dari sedikit data berlabel ditambah banyak data tidak berlabel
- Active learning: Model sendiri yang minta labeler untuk melabeli data yang paling "bingung" dia hadapi
- Weak supervision: Pakai aturan atau heuristik otomatis untuk generate label awal, walaupun nggak sempurna
- LLM-assisted labeling: Gunakan LLM untuk pre-labeling, manusia tinggal review dan koreksi
Udah paham Data Labeling? Lanjut latihan SQL dan Excel yuk!
Latihan interaktif, langsung di browser.