Vector Search
Teknik pencarian yang menemukan item berdasarkan kemiripan makna (semantik) menggunakan representasi matematika berbentuk vektor, bukan pencocokan kata kunci secara harfiah.
Apa Itu Vector Search?
Coba search "laptop buat coding" di sebuah toko online. Kalau search engine-nya cuma pakai keyword matching, dia butuh dokumen yang literally punya kata "laptop" dan "buat" dan "coding" untuk bisa match. Tapi kalau pakai Vector Search, dia bisa nemuin "notebook developer", "ThinkPad untuk programmer", atau "ultrabook ringan untuk kerja teknis" meskipun nggak ada kata yang persis sama.
Vector Search itu pencarian berbasis kemiripan makna, bukan kemiripan kata. Di belakangnya ada representasi matematika yang disebut embedding vector: deretan angka yang mengkodekan "makna" dari sebuah teks, gambar, atau data lainnya.
Cara Kerjanya: Dari Teks ke Vektor
Prosesnya secara umum seperti ini:
- Embedding: Setiap item (dokumen, gambar, produk) dikonversi jadi embedding vector oleh model embedding
- Indexing: Semua vector disimpan di vector database dengan struktur index khusus untuk pencarian cepat
- Query: Saat user cari sesuatu, query-nya juga dikonversi jadi vector dengan model yang sama
- Similarity search: Sistem cari vector-vector yang paling "dekat" dengan query vector menggunakan metrik jarak
Perbandingan dengan Keyword Search
| Aspek | Keyword Search | Vector Search |
|---|---|---|
| Matching basis | Kecocokan kata harfiah | Kemiripan makna semantik |
| Bisa handle sinonim | Terbatas (butuh dictionary) | Secara natural |
| Bisa handle bahasa berbeda | Nggak (butuh setup khusus) | Bisa dengan multilingual embedding |
| Latency | Sangat cepat | Lebih lambat, tapi bisa di-optimize |
| Explainability | Mudah dijelaskan | Lebih sulit dijelaskan mengapa item muncul |
| Cocok untuk | Query yang sangat spesifik dan exact | Query yang conversational dan konseptual |
Kenapa Vector Search Makin Populer?
Dua alasan utama: perkembangan LLM dan booming RAG (Retrieval-Augmented Generation). Di arsitektur RAG, Vector Search dipakai untuk retrieve dokumen-dokumen yang relevan dengan pertanyaan user sebelum LLM generate jawabannya. Ini bikin LLM bisa "tahu" tentang informasi spesifik perusahaan kamu tanpa perlu di-fine-tune.
Selain itu, Vector Search juga relevan untuk:
- Semantic search di produk: Nemuin produk berdasarkan deskripsi natural, bukan kode produk
- Duplicate detection: Nemuin dokumen atau konten yang mirip meskipun kata-katanya beda
- Recommendation: Nemuin item yang semantically mirip dengan yang udah kamu suka
- Image search: Cari gambar yang mirip dengan foto yang kamu upload
Metrik Kemiripan
Dua metrik yang paling umum dipakai:
- Cosine Similarity: Ukur sudut antara dua vektor. Cocok untuk teks karena nggak terpengaruh panjang dokumen
- Euclidean Distance: Jarak lurus antara dua titik di ruang vektor. Lebih intuitif secara geometris
Udah paham Vector Search? Lanjut latihan SQL dan Excel yuk!
Latihan interaktif, langsung di browser.