Praktikum Modul 6: Clustering & Segmentasi Pasar
Pada pembelajaran modul 6 ini, kita mempelajari bagaimana clustering bekerja sebagai salah satu teknik utama dalam unsupervised learning yang banyak digunakan dalam analisis data dan segmentasi pasar. Tidak seperti klasifikasi yang membutuhkan label atau kelas sebagai acuan, clustering memungkinkan sistem untuk secara otomatis mengelompokkan data berdasarkan kemiripan karakteristik tanpa menggunakan kategori yang telah ditentukan sebelumnya. Teknik ini menjadi sangat penting ketika kita ingin memahami struktur alami dalam data, menemukan pola tersembunyi, atau membentuk segmentasi pelanggan tanpa bias awal.
Salah satu metode clustering yang paling populer adalah K-Means, yaitu algoritma yang membagi data ke dalam sejumlah klaster tertentu (K) dengan meminimalkan jarak antara titik data dan pusat klasternya (centroid). Namun, menentukan jumlah klaster yang optimal bukanlah hal yang sederhana. Oleh karena itu, modul ini juga memperkenalkan dua metode penting, yaitu Metode Elbow dan Silhouette Score. Metode Elbow membantu kita mengidentifikasi titik K yang ideal melalui analisis penurunan nilai within-cluster sum of squares (WCSS), sedangkan Silhouette Score memberikan ukuran seberapa baik setiap data berada dalam klusternya dibandingkan dengan klaster lain. Dengan kedua pendekatan ini, kita dapat memastikan bahwa segmentasi yang dihasilkan tidak hanya rapi secara matematis, tetapi juga relevan secara bisnis.
Lebih jauh lagi, modul ini menekankan penerapan clustering dalam konteks segmentasi pasar, sebuah strategi penting dalam pemasaran modern. Melalui clustering, perusahaan dapat mengelompokkan pelanggan ke dalam segmen berdasarkan perilaku, preferensi, demografi, atau pola pembelian. Segmentasi yang tepat memungkinkan perusahaan menyusun strategi pemasaran yang lebih personal, efektif, dan berdampak tinggi. Dengan memahami bagaimana K-Means bekerja, bagaimana menentukan jumlah klaster optimal, serta bagaimana menginterpretasikan pola dari hasil clustering, kita dapat membangun dasar keterampilan analitik yang kuat untuk mendukung pengambilan keputusan bisnis yang lebih cerdas.
1. Persiapan Praktikum
2. Memulai Praktikum
a. Persiapan Dataset Pelanggan E-Commerce (Dummy)
Tahap praaktikum ini adalah pembuatan dataset dummy pelanggan
e-commerce menggunakan pustaka pandas dan numpy. Pertama, dilakukan impor kedua
pustaka tersebut, serta modul files dari google.colab untuk keperluan unduhan.
Kemudian, np.random.seed(42) diatur untuk memastikan hasil data acak dapat
direplikasi. Dataset dummy dibuat dengan tiga fitur (dijelaskan lebih
lanjut di bawah): Frekuensi_Transaksi (jumlah pembelian, integer 1-30), Rata2_Nilai_Transaksi
(nilai nominal rata-rata, float 50-500 dengan 2 desimal), dan Lama_Berlangganan_bulan
(durasi berlangganan, integer 1-36 bulan), dengan total 50 sampel. Data ini
kemudian dikonversi menjadi DataFrame (df) dan disimpan sebagai file CSV
bernama data_pelanggan_ecommerce.csv. Selanjutnya, gambar kedua menunjukkan
kode untuk memastikan file CSV telah tersimpan, menampilkan 5 baris pertama
dari DataFrame untuk memverifikasi isinya (termasuk penjelasan fitur), dan mengunduh
file CSV tersebut ke lokal komputer. Fitur-fitur tersebut didefinisikan
sebagai: Frekuensi_Transaksi (jumlah pembelian), Rata2_Nilai_Transaksi
(rata-rata nominal setiap transaksi dalam ribuan rupiah), dan Lama_Berlangganan_bulan
(lama waktu menjadi pelanggan).
b. Standarisasi & K-Means Clustering (k=3)
Proses selanjutnya adalah pengolahan data untuk analisis clustering
yang efektif. Tahapan pertama adalah Standarisasi Fitur, di mana seluruh fitur
dalam dataset diubah skalanya agar memiliki rata-rata nol dan standar
deviasi satu. Normalisasi ini krusial karena adanya perbedaan skala yang besar
antar fitur (misalnya, frekuensi transaksi berkisar puluhan sementara nilai
belanja bisa mencapai ratusan), yang dapat menyebabkan fitur dengan nilai besar
mendominasi perhitungan jarak. Setelah standarisasi, algoritma K-Means
Clustering dijalankan dengan menetapkan jumlah kluster sebanyak tiga k=3.
Algoritma
ini bekerja dengan menginisiasi tiga titik pusat (centroid) acak, kemudian
setiap titik data dikelompokkan ke centroid terdekat. Proses ini diulang secara
iteratif hingga posisi centroid stabil, yang menghasilkan pembagian dataset
menjadi tiga kelompok yang homogen secara internal dan heterogen antar
kelompok. Hasil dari proses ini adalah label kluster baru pada dataset, yang
kemudian divisualisasikan menggunakan scatter plot. Plot ini menunjukkan
sebaran pelanggan dalam dua dimensi fitur utama (Frekuensi Transaksi vs.
Rata-rata Nilai Transaksi), di mana warna setiap titik merepresentasikan
kelompok kluster yang telah terbentuk. Visualisasi ini memungkinkan
identifikasi kelompok pelanggan yang berbeda, seperti memisahkan pelanggan
dengan frekuensi tinggi dari pelanggan dengan nilai belanja premium.
c. Menentukan Jumlah Cluster menggunakan Metode Elbow
Tahap ini
bertujuan untuk menemukan jumlah kluster (k) yang paling optimal untuk analisis
pengelompokan menggunakan teknik Metode Elbow. Metode ini bekerja dengan
menghitung nilai WCSS (Within-Cluster Sum of Squares) untuk berbagai
variasi jumlah kluster, misalnya dari (k=1) hingga (k=10). Nilai WCSS sendiri
mengukur seberapa padat data dalam setiap kluster terhadap titik pusatnya (centroid);
semakin kecil nilai WCSS, semakin baik kualitas pengelompokannya. Hasil
perhitungan WCSS ini kemudian divisualisasikan dalam bentuk grafik, di mana
sumbu-X (x) adalah jumlah kluster (k) dan sumbu-Y (y) adalah nilai WCSS. Secara
umum, grafik akan menunjukkan penurunan WCSS yang tajam pada awal penambahan
kluster, kemudian melambat secara signifikan setelah titik tertentu. Titik
"belokan" atau "siku" (elbow) pada grafik inilah
yang dianggap sebagai jumlah kluster optimal karena setelah titik tersebut,
penambahan kluster tidak lagi memberikan peningkatan kualitas pemisahan data
yang signifikan. Berdasarkan interpretasi grafik yang ada, terdapat dua
kemungkinan titik belokan yang dapat dipertimbangkan: (k=3) atau (k=5). Pilihan
akhir antara kedua nilai ini sangat bergantung pada tujuan analisis; (k=3)
cocok untuk segmentasi yang sederhana dan mudah dipahami, sedangkan (k=5) lebih
sesuai jika dibutuhkan pembedaan pelanggan yang lebih detail dan granular.
d. Eksperimen Silhouette Score
e. Implementasi Hierarchical Clustering & Dendrogram
3. Interpretasi
Seluruh proses analisis, yang dimulai dari penyiapan data dummy, standarisasi fitur, hingga pengujian kluster optimal menggunakan Metode Elbow dan Silhouette Score, secara konsisten menyimpulkan bahwa lima (k=5) kluster merupakan jumlah segmentasi terbaik untuk dataset ini. Hasil implementasi clustering (baik K-Means maupun Hierarchical) berhasil membagi 50 sampel pelanggan menjadi kelompok-kelompok yang jelas dan dapat diinterpretasikan. Segmentasi ini mengidentifikasi berbagai profil pelanggan, mulai dari Pelanggan Loyal/Premium (memiliki frekuensi dan nilai transaksi tinggi) yang sangat penting untuk dipertahankan, hingga Pelanggan Potensial (memiliki frekuensi rutin tetapi nilai transaksi kecil) yang berpotensi ditingkatkan nilainya melalui strategi upselling atau promosi bertarget. Dengan memisahkan dan memahami karakteristik unik dari setiap kluster (misalnya, Kluster 1: Pelanggan Acak, Kluster 2: Pelanggan Premium, Kluster 3: Pelanggan Rutin Menengah), perusahaan e-commerce dapat menyusun strategi pemasaran dan retention yang sangat spesifik dan efisien untuk memaksimalkan nilai seumur hidup pelanggan (Customer Lifetime Value).
4. Kesimpulan
Link Praktikum & Latihan
1. Praktikum
2. Latihan
Referensi
Sumber utama:
Link Flipbook: Flipbook
Atau anda bisa mengakses langsung dari blog pribadi penulis: Adi Muhamad Muhsidi
.png)
Posting Komentar untuk "Praktikum Modul 6: Clustering & Segmentasi Pasar"