Vector Search

Menengah

Teknik pencarian yang menemukan item berdasarkan kemiripan makna (semantik) menggunakan representasi matematika berbentuk vektor, bukan pencocokan kata kunci secara harfiah.

Apa Itu Vector Search?

Coba search "laptop buat coding" di sebuah toko online. Kalau search engine-nya cuma pakai keyword matching, dia butuh dokumen yang literally punya kata "laptop" dan "buat" dan "coding" untuk bisa match. Tapi kalau pakai Vector Search, dia bisa nemuin "notebook developer", "ThinkPad untuk programmer", atau "ultrabook ringan untuk kerja teknis" meskipun nggak ada kata yang persis sama.

Vector Search itu pencarian berbasis kemiripan makna, bukan kemiripan kata. Di belakangnya ada representasi matematika yang disebut embedding vector: deretan angka yang mengkodekan "makna" dari sebuah teks, gambar, atau data lainnya.

Cara Kerjanya: Dari Teks ke Vektor

Prosesnya secara umum seperti ini:

  1. Embedding: Setiap item (dokumen, gambar, produk) dikonversi jadi embedding vector oleh model embedding
  2. Indexing: Semua vector disimpan di vector database dengan struktur index khusus untuk pencarian cepat
  3. Query: Saat user cari sesuatu, query-nya juga dikonversi jadi vector dengan model yang sama
  4. Similarity search: Sistem cari vector-vector yang paling "dekat" dengan query vector menggunakan metrik jarak

Perbandingan dengan Keyword Search

AspekKeyword SearchVector Search
Matching basisKecocokan kata harfiahKemiripan makna semantik
Bisa handle sinonimTerbatas (butuh dictionary)Secara natural
Bisa handle bahasa berbedaNggak (butuh setup khusus)Bisa dengan multilingual embedding
LatencySangat cepatLebih lambat, tapi bisa di-optimize
ExplainabilityMudah dijelaskanLebih sulit dijelaskan mengapa item muncul
Cocok untukQuery yang sangat spesifik dan exactQuery yang conversational dan konseptual

Kenapa Vector Search Makin Populer?

Dua alasan utama: perkembangan LLM dan booming RAG (Retrieval-Augmented Generation). Di arsitektur RAG, Vector Search dipakai untuk retrieve dokumen-dokumen yang relevan dengan pertanyaan user sebelum LLM generate jawabannya. Ini bikin LLM bisa "tahu" tentang informasi spesifik perusahaan kamu tanpa perlu di-fine-tune.

Selain itu, Vector Search juga relevan untuk:

  • Semantic search di produk: Nemuin produk berdasarkan deskripsi natural, bukan kode produk
  • Duplicate detection: Nemuin dokumen atau konten yang mirip meskipun kata-katanya beda
  • Recommendation: Nemuin item yang semantically mirip dengan yang udah kamu suka
  • Image search: Cari gambar yang mirip dengan foto yang kamu upload

Metrik Kemiripan

Dua metrik yang paling umum dipakai:

  • Cosine Similarity: Ukur sudut antara dua vektor. Cocok untuk teks karena nggak terpengaruh panjang dokumen
  • Euclidean Distance: Jarak lurus antara dua titik di ruang vektor. Lebih intuitif secara geometris
Lanjut Latihan

Udah paham Vector Search? Lanjut latihan SQL dan Excel yuk!

Latihan interaktif, langsung di browser.

Mulai Latihan →