Clustering adalah teknik machine learning untuk mengelompokkan data berdasarkan kemiripannya, tanpa label yang sudah ada sebelumnya. Cocok untuk segmentasi pelanggan, eksplorasi data, atau menemukan pola yang belum kamu sadari.

Apa itu Clustering?

Bayangkan kamu punya 10.000 pelanggan dan mau tahu "tipe-tipe pelanggan" apa yang ada di bisnismu. Tapi kamu nggak tahu dari awal ada berapa tipe atau apa cirinya. Di sinilah clustering berguna.

Clustering adalah teknik unsupervised machine learning: model nggak dikasih label. Dia hanya melihat data dan mencari sendiri kelompok-kelompok yang "alami" berdasarkan kemiripan antar data point.

Berbeda dari Classification yang butuh data berlabel, Clustering bisa jalan dari data mentah tanpa anotasi.

Analogi: Sorting Buku Tanpa Panduan

Bayangkan kamu punya 500 buku yang berantakan dan disuruh merapikan tanpa dikasih daftar kategorinya. Kamu mungkin akan mulai mengelompokkan berdasarkan kesamaan yang kamu lihat sendiri: buku dengan cover gelap, buku tebal dengan bahasa teknis, buku dengan gambar banyak. Itulah clustering, kamu menemukan struktur dari data tanpa panduan awal.

Algoritma Clustering Populer

AlgoritmaCara KerjaCocok Untuk
K-MeansBagi data ke K kelompok berdasarkan jarak ke centroidData besar, bentuk cluster bulat
DBSCANCluster berdasarkan kepadatan dataCluster bentuk aneh, ada noise atau outlier
Hierarchical ClusteringBangun pohon dendrogram dari bawah ke atasEksplorasi, menentukan jumlah cluster
Gaussian Mixture ModelProbabilistik, data point bisa masuk beberapa clusterData overlap antar cluster

Gimana Cara Menentukan Jumlah Cluster?

Ini salah satu tantangan clustering: jumlah cluster (K) harus ditentukan sebelum modeling untuk K-Means. Ada beberapa teknik:

Elbow Method: plot total within-cluster sum of squares untuk berbagai nilai K. Cari "siku" di mana penambahan K nggak lagi signifikan mengurangi error.

Silhouette Score: ukur seberapa mirip setiap data point dengan cluster-nya sendiri dibanding cluster lain. Skor mendekati 1 berarti cluster yang baik.

Clustering vs. Classification

AspekClusteringClassification
LabelTidak butuh labelButuh data berlabel
Tipe learningUnsupervisedSupervised
OutputKelompok tanpa namaKategori yang sudah terdefinisi
TujuanEksplorasi, discoveryPrediksi, automation
ContohSegmentasi pelanggan baruPrediksi churn pelanggan

Interpretasi Hasil Cluster

Cluster yang dihasilkan algoritma adalah "kotak hitam" tanpa nama. Tugas analyst adalah menginterpretasikan: apa yang membedakan Cluster 0 dari Cluster 1? Biasanya ini dilakukan dengan melihat rata-rata atau distribusi tiap fitur per cluster, lalu kasih nama yang bermakna untuk stakeholder, misalnya "High Value Loyal", "Price Sensitive Churner", atau "New Casual Buyer".

Clustering yang bagus bukan cuma yang metrik teknisnya bagus, tapi juga yang hasil segmennya masuk akal dari sudut pandang bisnis.

Lanjut Latihan

Udah paham Clustering? Lanjut latihan SQL dan Excel yuk!

Latihan interaktif, langsung di browser.

Mulai Latihan →