Praktikum Modul 6: Clustering & Segmentasi Pasar

Pada pembelajaran modul 6 ini, kita mempelajari bagaimana clustering bekerja sebagai salah satu teknik utama dalam unsupervised learning yang banyak digunakan dalam analisis data dan segmentasi pasar. Tidak seperti klasifikasi yang membutuhkan label atau kelas sebagai acuan, clustering memungkinkan sistem untuk secara otomatis mengelompokkan data berdasarkan kemiripan karakteristik tanpa menggunakan kategori yang telah ditentukan sebelumnya. Teknik ini menjadi sangat penting ketika kita ingin memahami struktur alami dalam data, menemukan pola tersembunyi, atau membentuk segmentasi pelanggan tanpa bias awal.

Salah satu metode clustering yang paling populer adalah K-Means, yaitu algoritma yang membagi data ke dalam sejumlah klaster tertentu (K) dengan meminimalkan jarak antara titik data dan pusat klasternya (centroid). Namun, menentukan jumlah klaster yang optimal bukanlah hal yang sederhana. Oleh karena itu, modul ini juga memperkenalkan dua metode penting, yaitu Metode Elbow dan Silhouette Score. Metode Elbow membantu kita mengidentifikasi titik K yang ideal melalui analisis penurunan nilai within-cluster sum of squares (WCSS), sedangkan Silhouette Score memberikan ukuran seberapa baik setiap data berada dalam klusternya dibandingkan dengan klaster lain. Dengan kedua pendekatan ini, kita dapat memastikan bahwa segmentasi yang dihasilkan tidak hanya rapi secara matematis, tetapi juga relevan secara bisnis.

Lebih jauh lagi, modul ini menekankan penerapan clustering dalam konteks segmentasi pasar, sebuah strategi penting dalam pemasaran modern. Melalui clustering, perusahaan dapat mengelompokkan pelanggan ke dalam segmen berdasarkan perilaku, preferensi, demografi, atau pola pembelian. Segmentasi yang tepat memungkinkan perusahaan menyusun strategi pemasaran yang lebih personal, efektif, dan berdampak tinggi. Dengan memahami bagaimana K-Means bekerja, bagaimana menentukan jumlah klaster optimal, serta bagaimana menginterpretasikan pola dari hasil clustering, kita dapat membangun dasar keterampilan analitik yang kuat untuk mendukung pengambilan keputusan bisnis yang lebih cerdas.

1. Persiapan Praktikum

Sebelum memulai praktikum kita harus mempersiapkan tools yang akan digunakan yaitu google colab. Google colab dapat diakses melalui google colab. Cara menggunakan google colab sangatlah mudah anda tinggal masuk kesitus colab diatas, lalu login dengan akun google yang anda miliki, setelah itu opsi open notebook akan muncul, pilih pada pojok kiri yaitu opsi new notebook, maka anda telah selesai untuk membuat notebook baru yang akan anda gunakan. Oh yaaa, jika opsi open notebook tidak muncul otomatis, anda bisa pergi ke opsi file di pojok kiri atas dan pilih open notebook. Setelah anda membuat laman notebook baru anda bisa mengganti nama file/laman notebook anda dengan format .ipynb.

2. Memulai Praktikum

a. Persiapan Dataset Pelanggan E-Commerce (Dummy)

Tahap praaktikum ini adalah pembuatan dataset dummy pelanggan e-commerce menggunakan pustaka pandas dan numpy. Pertama, dilakukan impor kedua pustaka tersebut, serta modul files dari google.colab untuk keperluan unduhan. Kemudian, np.random.seed(42) diatur untuk memastikan hasil data acak dapat direplikasi. Dataset dummy dibuat dengan tiga fitur (dijelaskan lebih lanjut di bawah): Frekuensi_Transaksi (jumlah pembelian, integer 1-30), Rata2_Nilai_Transaksi (nilai nominal rata-rata, float 50-500 dengan 2 desimal), dan Lama_Berlangganan_bulan (durasi berlangganan, integer 1-36 bulan), dengan total 50 sampel. Data ini kemudian dikonversi menjadi DataFrame (df) dan disimpan sebagai file CSV bernama data_pelanggan_ecommerce.csv. Selanjutnya, gambar kedua menunjukkan kode untuk memastikan file CSV telah tersimpan, menampilkan 5 baris pertama dari DataFrame untuk memverifikasi isinya (termasuk penjelasan fitur), dan mengunduh file CSV tersebut ke lokal komputer. Fitur-fitur tersebut didefinisikan sebagai: Frekuensi_Transaksi (jumlah pembelian), Rata2_Nilai_Transaksi (rata-rata nominal setiap transaksi dalam ribuan rupiah), dan Lama_Berlangganan_bulan (lama waktu menjadi pelanggan).

b. Standarisasi & K-Means Clustering (k=3)

Proses selanjutnya adalah pengolahan data untuk analisis clustering yang efektif. Tahapan pertama adalah Standarisasi Fitur, di mana seluruh fitur dalam dataset diubah skalanya agar memiliki rata-rata nol dan standar deviasi satu. Normalisasi ini krusial karena adanya perbedaan skala yang besar antar fitur (misalnya, frekuensi transaksi berkisar puluhan sementara nilai belanja bisa mencapai ratusan), yang dapat menyebabkan fitur dengan nilai besar mendominasi perhitungan jarak. Setelah standarisasi, algoritma K-Means Clustering dijalankan dengan menetapkan jumlah kluster sebanyak tiga k=3.

Algoritma ini bekerja dengan menginisiasi tiga titik pusat (centroid) acak, kemudian setiap titik data dikelompokkan ke centroid terdekat. Proses ini diulang secara iteratif hingga posisi centroid stabil, yang menghasilkan pembagian dataset menjadi tiga kelompok yang homogen secara internal dan heterogen antar kelompok. Hasil dari proses ini adalah label kluster baru pada dataset, yang kemudian divisualisasikan menggunakan scatter plot. Plot ini menunjukkan sebaran pelanggan dalam dua dimensi fitur utama (Frekuensi Transaksi vs. Rata-rata Nilai Transaksi), di mana warna setiap titik merepresentasikan kelompok kluster yang telah terbentuk. Visualisasi ini memungkinkan identifikasi kelompok pelanggan yang berbeda, seperti memisahkan pelanggan dengan frekuensi tinggi dari pelanggan dengan nilai belanja premium.

c. Menentukan Jumlah Cluster menggunakan Metode Elbow

Tahap ini bertujuan untuk menemukan jumlah kluster (k) yang paling optimal untuk analisis pengelompokan menggunakan teknik Metode Elbow. Metode ini bekerja dengan menghitung nilai WCSS (Within-Cluster Sum of Squares) untuk berbagai variasi jumlah kluster, misalnya dari (k=1) hingga (k=10). Nilai WCSS sendiri mengukur seberapa padat data dalam setiap kluster terhadap titik pusatnya (centroid); semakin kecil nilai WCSS, semakin baik kualitas pengelompokannya. Hasil perhitungan WCSS ini kemudian divisualisasikan dalam bentuk grafik, di mana sumbu-X (x) adalah jumlah kluster (k) dan sumbu-Y (y) adalah nilai WCSS. Secara umum, grafik akan menunjukkan penurunan WCSS yang tajam pada awal penambahan kluster, kemudian melambat secara signifikan setelah titik tertentu. Titik "belokan" atau "siku" (elbow) pada grafik inilah yang dianggap sebagai jumlah kluster optimal karena setelah titik tersebut, penambahan kluster tidak lagi memberikan peningkatan kualitas pemisahan data yang signifikan. Berdasarkan interpretasi grafik yang ada, terdapat dua kemungkinan titik belokan yang dapat dipertimbangkan: (k=3) atau (k=5). Pilihan akhir antara kedua nilai ini sangat bergantung pada tujuan analisis; (k=3) cocok untuk segmentasi yang sederhana dan mudah dipahami, sedangkan (k=5) lebih sesuai jika dibutuhkan pembedaan pelanggan yang lebih detail dan granular.

d. Eksperimen Silhouette Score

Eksperimen ini dilakukan untuk mengukur kualitas klustering dan secara objektif memilih jumlah kluster terbaik dengan menggunakan metrik Silhouette Score. Nilai Silhouette Score berkisar antara -1 sampai 1, di mana nilai yang mendekati 1 menunjukkan bahwa kluster terpisah dengan baik dan data di dalamnya kompak, nilai mendekati 0 menunjukkan adanya tumpang tindih antar kluster, dan nilai negatif menunjukkan data salah dikelompokkan. Untuk menguji nilai kluster optimal, dilakukan perhitungan Silhouette Score untuk berbagai jumlah kluster, mulai dari k=2 hingga k=10, dan skor tertinggi akan menunjukkan jumlah kluster dengan kualitas terbaik. Berdasarkan hasil perhitungan, skor tertinggi diperoleh pada k=5 dengan nilai 0.441. Skor untuk k=2 hingga k=4 relatif lebih rendah, dan mulai dari k=7 hingga k=10, skor cenderung menurun, yang mengindikasikan bahwa penambahan kluster di atas k=5 tidak lagi memberikan peningkatan kualitas yang signifikan. Kesimpulan ini diperkuat ketika dibandingkan dengan hasil Metode Elbow sebelumnya, di mana setelah k=5, penurunan nilai WCSS (Within-Cluster Sum of Squares) mulai melambat. Oleh karena itu, melalui konfirmasi dari kedua metode (Elbow dan Silhouette Score), disimpulkan bahwa k=5 adalah jumlah kluster yang paling optimal untuk dataset ini karena menghasilkan skor Silhouette tertinggi, menunjukkan keseimbangan terbaik antara kepadatan internal kluster dan jarak pemisahan antar kluster.

e. Implementasi Hierarchical Clustering & Dendrogram

Proses ini melibatkan implementasi Hierarchical Clustering, yaitu metode pengelompokan yang menyusun struktur bertingkat dalam bentuk pohon yang disebut Dendrogram. Awalnya, setiap data dianggap sebagai kluster terpisah, kemudian secara bertahap kluster-kluster digabungkan berdasarkan tingkat kemiripan, menggunakan metode Linkage (Ward Method) untuk meminimalkan variasi (variansi) di dalam kluster, menghasilkan kelompok yang kompak. Dendrogram yang dihasilkan memvisualisasikan seluruh proses penggabungan kluster, di mana sumbu-Y menunjukkan jarak (atau disimilaritas) antar kluster; semakin tinggi percabangan, semakin jauh jarak antar kluster. Untuk menentukan jumlah kluster yang diinginkan (misalnya 3 kluster), dilakukan pemotongan pohon (cut) pada dendrogram di ketinggian jarak tertentu. Hasil pemotongan ini kemudian diterapkan pada dataset, menghasilkan label kluster baru. Langkah terakhir adalah visualisasi hasil clustering menggunakan scatter plot yang menampilkan Frekuensi Transaksi (sumbu X) terhadap Rata-rata Nilai Transaksi (sumbu Y). Visualisasi menunjukkan perbedaan segmen pelanggan yang jelas di antara tiga kluster: Kluster 1 (pelanggan acak dengan transaksi bervariasi), Kluster 2 (pelanggan loyal bernilai tinggi), dan Kluster 3 (pelanggan rutin dengan transaksi kecil), yang memungkinkan perusahaan menyusun strategi pemasaran yang spesifik untuk setiap kelompok.

3. Interpretasi

Seluruh proses analisis, yang dimulai dari penyiapan data dummy, standarisasi fitur, hingga pengujian kluster optimal menggunakan Metode Elbow dan Silhouette Score, secara konsisten menyimpulkan bahwa lima (k=5) kluster merupakan jumlah segmentasi terbaik untuk dataset ini. Hasil implementasi clustering (baik K-Means maupun Hierarchical) berhasil membagi 50 sampel pelanggan menjadi kelompok-kelompok yang jelas dan dapat diinterpretasikan. Segmentasi ini mengidentifikasi berbagai profil pelanggan, mulai dari Pelanggan Loyal/Premium (memiliki frekuensi dan nilai transaksi tinggi) yang sangat penting untuk dipertahankan, hingga Pelanggan Potensial (memiliki frekuensi rutin tetapi nilai transaksi kecil) yang berpotensi ditingkatkan nilainya melalui strategi upselling atau promosi bertarget. Dengan memisahkan dan memahami karakteristik unik dari setiap kluster (misalnya, Kluster 1: Pelanggan Acak, Kluster 2: Pelanggan Premium, Kluster 3: Pelanggan Rutin Menengah), perusahaan e-commerce dapat menyusun strategi pemasaran dan retention yang sangat spesifik dan efisien untuk memaksimalkan nilai seumur hidup pelanggan (Customer Lifetime Value).

4. Kesimpulan

Proses analisis ini menunjukkan tahapan lengkap dalam segmentasi pelanggan e-commerce menggunakan data dummy, dimulai dari persiapan data, standarisasi fitur, hingga implementasi algoritma clustering dan penentuan jumlah kluster optimal. Melalui pengujian Metode Elbow dan Silhouette Score, disimpulkan bahwa k=5 adalah jumlah kluster yang paling sesuai karena memberikan keseimbangan terbaik antara kepadatan kluster internal dan jarak pemisahan antar kluster. Hasil akhir clustering berhasil membagi pelanggan menjadi segmen-segmen yang berbeda (misalnya, pelanggan loyal bernilai tinggi, pelanggan rutin bernilai kecil, dan pelanggan acak), yang secara jelas memvisualisasikan perbedaan perilaku belanja. Keseluruhan temuan ini memberikan dasar yang kuat bagi perusahaan e-commerce untuk mengembangkan strategi pemasaran dan retensi yang sangat terfokus dan berbeda untuk setiap segmen pelanggan, sehingga dapat meningkatkan efektivitas kampanye dan memaksimalkan pendapatan.

Link Praktikum & Latihan

1. Praktikum

2. Latihan

Referensi

Sumber utama:

Link Flipbook: Flipbook

Atau anda bisa mengakses langsung dari blog pribadi penulis: Adi Muhamad Muhsidi

Lokasi:

Farhan