Embedding adalah representasi teks, gambar, atau data lain sebagai deretan angka (vector) yang menangkap makna semantiknya. Dengan embedding, komputer bisa 'mengerti' bahwa 'kucing' dan 'kitty' punya makna yang dekat, meski kata-katanya beda.

Apa itu Embedding?

Komputer nggak bisa baca teks seperti manusia. Yang bisa dia proses adalah angka. Embedding adalah cara mengubah teks (atau data lain) menjadi deretan angka berdimensi tinggi yang merepresentasikan "makna" dari teks tersebut.

Bayangkan sebuah peta kota. Setiap tempat punya koordinat (x, y). Tempat yang dekat secara geografis akan punya koordinat yang mirip. Embedding bekerja mirip, tapi untuk makna: teks dengan makna yang mirip akan punya vector yang berdekatan di "ruang makna" berdimensi ratusan atau ribuan.

Analogi yang Lebih Konkret

Bayangkan kamu punya skala penilaian untuk restoran:

  • Rasa: 0-10
  • Harga: 0-10
  • Suasana: 0-10

Setiap restoran bisa direpresentasikan sebagai vector 3 dimensi: [8, 5, 9]. Restoran dengan vector yang mirip berarti punya karakteristik yang mirip.

Embedding bekerja dengan cara serupa, tapi dimensinya bisa ratusan hingga ribuan, dan yang ditangkap bukan cuma rasa-harga-suasana, tapi seluruh nuansa makna dari teks.

Tipe-Tipe Embedding

TipeApa yang Di-embedDipakai untuk
Text EmbeddingKata, kalimat, paragrafSemantic search, RAG, klasifikasi
Image EmbeddingFoto, gambarPencarian gambar, deteksi objek
Graph EmbeddingNode dan relasiRekomendasi, knowledge graph
User EmbeddingPerilaku penggunaRekomendasi produk, personalisasi
Product EmbeddingAtribut produkCollaborative filtering

Cara Kerja Semantic Search dengan Embedding

Tanpa embedding, search engine bekerja dengan keyword matching: dokumen hanya muncul kalau ada kata yang persis sama dengan query.

Dengan embedding, kamu bisa melakukan semantic search: query "makanan sehat" akan menemukan dokumen tentang "nutrisi seimbang" atau "diet rendah kalori," meski kata-katanya berbeda.

Prosesnya sederhana:

  1. Teks query diubah ke vector embedding
  2. Dibandingkan dengan vector semua dokumen dalam database
  3. Dokumen dengan vector paling "dekat" (cosine similarity) dikembalikan sebagai hasil

Model Embedding Populer

ModelDimensiTipeCatatan
OpenAI text-embedding-3-small1536ProprietaryPerforma tinggi
sentence-transformers all-MiniLM-L6-v2384Open sourceRingan, cepat
Cohere Embed v31024ProprietaryMultilingual kuat
paraphrase-multilingual-MiniLM384Open sourceBagus untuk Bahasa Indonesia

Kaitannya dengan Data Work

Kalau kamu kerja dengan data teks seperti feedback pelanggan, ulasan produk, atau tiket support, embedding memungkinkan kamu melakukan analisis yang jauh lebih kaya dari sekadar keyword counting. Kamu bisa cluster dokumen berdasarkan topik, cari ulasan yang maknanya mirip, atau bangun sistem RAG yang bisa menjawab pertanyaan dari dokumen internalmu.

Lanjut Latihan

Udah paham Embedding? Lanjut latihan SQL dan Excel yuk!

Latihan interaktif, langsung di browser.

Mulai Latihan →