Clustering
Clustering adalah teknik machine learning untuk mengelompokkan data berdasarkan kemiripannya, tanpa label yang sudah ada sebelumnya. Cocok untuk segmentasi pelanggan, eksplorasi data, atau menemukan pola yang belum kamu sadari.
Apa itu Clustering?
Bayangkan kamu punya 10.000 pelanggan dan mau tahu "tipe-tipe pelanggan" apa yang ada di bisnismu. Tapi kamu nggak tahu dari awal ada berapa tipe atau apa cirinya. Di sinilah clustering berguna.
Clustering adalah teknik unsupervised machine learning: model nggak dikasih label. Dia hanya melihat data dan mencari sendiri kelompok-kelompok yang "alami" berdasarkan kemiripan antar data point.
Berbeda dari Classification yang butuh data berlabel, Clustering bisa jalan dari data mentah tanpa anotasi.
Analogi: Sorting Buku Tanpa Panduan
Bayangkan kamu punya 500 buku yang berantakan dan disuruh merapikan tanpa dikasih daftar kategorinya. Kamu mungkin akan mulai mengelompokkan berdasarkan kesamaan yang kamu lihat sendiri: buku dengan cover gelap, buku tebal dengan bahasa teknis, buku dengan gambar banyak. Itulah clustering, kamu menemukan struktur dari data tanpa panduan awal.
Algoritma Clustering Populer
| Algoritma | Cara Kerja | Cocok Untuk |
|---|---|---|
| K-Means | Bagi data ke K kelompok berdasarkan jarak ke centroid | Data besar, bentuk cluster bulat |
| DBSCAN | Cluster berdasarkan kepadatan data | Cluster bentuk aneh, ada noise atau outlier |
| Hierarchical Clustering | Bangun pohon dendrogram dari bawah ke atas | Eksplorasi, menentukan jumlah cluster |
| Gaussian Mixture Model | Probabilistik, data point bisa masuk beberapa cluster | Data overlap antar cluster |
Gimana Cara Menentukan Jumlah Cluster?
Ini salah satu tantangan clustering: jumlah cluster (K) harus ditentukan sebelum modeling untuk K-Means. Ada beberapa teknik:
Elbow Method: plot total within-cluster sum of squares untuk berbagai nilai K. Cari "siku" di mana penambahan K nggak lagi signifikan mengurangi error.
Silhouette Score: ukur seberapa mirip setiap data point dengan cluster-nya sendiri dibanding cluster lain. Skor mendekati 1 berarti cluster yang baik.
Clustering vs. Classification
| Aspek | Clustering | Classification |
|---|---|---|
| Label | Tidak butuh label | Butuh data berlabel |
| Tipe learning | Unsupervised | Supervised |
| Output | Kelompok tanpa nama | Kategori yang sudah terdefinisi |
| Tujuan | Eksplorasi, discovery | Prediksi, automation |
| Contoh | Segmentasi pelanggan baru | Prediksi churn pelanggan |
Interpretasi Hasil Cluster
Cluster yang dihasilkan algoritma adalah "kotak hitam" tanpa nama. Tugas analyst adalah menginterpretasikan: apa yang membedakan Cluster 0 dari Cluster 1? Biasanya ini dilakukan dengan melihat rata-rata atau distribusi tiap fitur per cluster, lalu kasih nama yang bermakna untuk stakeholder, misalnya "High Value Loyal", "Price Sensitive Churner", atau "New Casual Buyer".
Clustering yang bagus bukan cuma yang metrik teknisnya bagus, tapi juga yang hasil segmennya masuk akal dari sudut pandang bisnis.
Udah paham Clustering? Lanjut latihan SQL dan Excel yuk!
Latihan interaktif, langsung di browser.