Proses memberikan label atau anotasi pada data mentah supaya model ML bisa belajar dari contoh-contoh yang sudah dikategorikan dengan benar.

Apa Itu Data Labeling?

Bayangin kamu mau ajarin anak kecil bedain kucing dan anjing. Kamu pasti tunjukin foto satu per satu sambil bilang "ini kucing", "ini anjing". Data Labeling itu persis proses itu: manusia memberikan "jawaban benar" ke tiap contoh data supaya model ML bisa belajar.

Supervised Machine Learning bergantung penuh pada data berlabel. Tanpa label, model nggak tau apa yang harus dipelajari. Data Labeling adalah pekerjaan di balik layar yang sering nggak glamor tapi punya peran besar dalam bikin model ML bisa bekerja.

Jenis-jenis Data Labeling

Bentuk labelingnya berbeda tergantung tipe data dan task-nya:

Tipe DataContoh TaskContoh Label
TeksKlasifikasi sentimenPositif / Negatif / Netral
TeksNamed Entity RecognitionNama orang, organisasi, lokasi
GambarKlasifikasi objek"kucing", "anjing", "burung"
GambarObject DetectionBounding box + label kelas
GambarSegmentasiPiksel per piksel diberi label
AudioSpeech RecognitionTranskripsi teks dari audio

Proses Data Labeling

Biasanya data labeling punya alur seperti ini:

  1. Pengumpulan data mentah: Kumpulkan foto, teks, audio, atau apapun yang relevan
  2. Pembuatan guideline: Buat panduan yang jelas buat labeler supaya konsisten
  3. Labeling: Manusia (labeler/annotator) kasih label ke setiap data point
  4. Quality check: Review label yang udah ada untuk pastiin konsistensi dan akurasi
  5. Resolusi disagreement: Kalau banyak labeler, tangani kasus di mana labeler nggak setuju

Tantangan Umum

  • Subjektivitas: Dua orang labeler bisa labeling hal yang sama secara berbeda, terutama untuk sentimen atau konten ambigu
  • Skala: Butuh ribuan atau bahkan jutaan data berlabel untuk model yang baik, yang berarti butuh waktu dan biaya yang nggak sedikit
  • Konsistensi: Makin banyak labeler yang terlibat, makin susah menjaga konsistensi label
  • Domain expertise: Beberapa task seperti labeling medical image butuh labeler yang punya keahlian khusus

Pendekatan Modern untuk Kurangi Beban Labeling

  • Semi-supervised learning: Train model dari sedikit data berlabel ditambah banyak data tidak berlabel
  • Active learning: Model sendiri yang minta labeler untuk melabeli data yang paling "bingung" dia hadapi
  • Weak supervision: Pakai aturan atau heuristik otomatis untuk generate label awal, walaupun nggak sempurna
  • LLM-assisted labeling: Gunakan LLM untuk pre-labeling, manusia tinggal review dan koreksi
Lanjut Latihan

Udah paham Data Labeling? Lanjut latihan SQL dan Excel yuk!

Latihan interaktif, langsung di browser.

Mulai Latihan →