Laporan Quizz ML & AI Bab 6
a) Konsep Clustering
Clustering adalah teknik unsupervised learning yang
digunakan untuk mengelompokkan data ke dalam beberapa kelompok berdasarkan
kemiripan karakteristik. Data yang memiliki pola atau nilai yang mirip akan
berada dalam cluster yang sama, sedangkan data yang berbeda akan berada di
cluster lain. Clustering berguna untuk menemukan pola tersembunyi, segmentasi,
dan memahami struktur data tanpa membutuhkan label.
b) Perbedaan & Alasan Standardisasi
1. Perbedaan utama antara Clustering (Unsupervised Learning) dan
Klasifikasi (Supervised Learning)
Clustering (Unsupervised Learning)
- Tidak
menggunakan label kelas pada data.
- Sistem
secara otomatis menemukan pola dan struktur data.
- Hasilnya
berupa kelompok (cluster) yang harus diinterpretasikan.
- Digunakan
untuk eksplorasi data, seperti segmentasi pelanggan.
Klasifikasi (Supervised Learning)
- Menggunakan
data berlabel (misalnya: spam / tidak spam).
- Model
belajar dari data yang sudah memiliki kelas, lalu memprediksi kelas baru.
- Digunakan
untuk tugas prediksi yang spesifik.
2. Mengapa Standardisasi Data Diperlukan sebelum Menggunakan
K-Means?
- K-Means
menghitung jarak antar data menggunakan jarak Euclidean, yang
sensitif terhadap skala.
- Jika
fitur memiliki skala berbeda (misalnya pendapatan dalam juta, sedangkan
umur hanya puluhan), fitur berskala besar akan mendominasi proses
clustering.
- Standardisasi
menyamakan skala antar fitur sehingga:
- perhitungan
jarak lebih seimbang,
- cluster
lebih akurat,
- centroid
lebih representatif.
b) Algoritma Clustering
1. Cara Kerja Algoritma K-Means
- Tentukan
jumlah cluster (k).
- Inisialisasi
centroid awal secara acak.
- Hitung
jarak setiap data ke seluruh centroid.
- Masukkan
data ke cluster dengan jarak terdekat.
- Perbarui
centroid dengan menghitung rata-rata data dalam tiap cluster.
- Ulangi
langkah 3–5 sampai posisi centroid stabil (konvergen).
2. Kelebihan dan Kekurangan Hierarchical Clustering dibandingkan
K-Means
Kelebihan
- Tidak
perlu menentukan jumlah cluster di awal.
- Menyediakan
dendrogram yang membantu melihat struktur dan hubungan antar cluster.
- Lebih
stabil karena tidak bergantung pada inisialisasi acak seperti K-Means.
Kekurangan
- Komputasi
lebih berat, kurang efektif untuk dataset besar.
- Penggabungan/pemisahan
cluster bersifat permanen (tidak dapat diubah).
- Sensitif
terhadap outlier dan noise.
c) Evaluasi & Aplikasi
1. Fungsi Metode Elbow dan Silhouette Score dalam Clustering
Metode Elbow
- Digunakan
untuk menentukan jumlah cluster (k) terbaik.
- Melihat
grafik hubungan antara jumlah k dan nilai WCSS (Within-Cluster Sum of
Squares).
- Titik
“tekukan” atau “elbow” menunjukkan k yang paling optimal.
Silhouette Score
- Mengukur
kualitas clustering dengan melihat seberapa dekat data dengan cluster-nya
sendiri dan seberapa jauh dari cluster lain.
- Nilai
berkisar dari -1 hingga 1.
- 0.5
→ cluster cukup baik
- Mendekati
1 → cluster sangat baik
- Nilai
negatif → cluster buruk atau salah kelompok
2. Contoh Strategi Pemasaran Berdasarkan Hasil Segmentasi
Pelanggan dengan Clustering
Misalnya hasil clustering menghasilkan 3 segmen:
Cluster 1: Pelanggan Loyal
- Ciri:
rutin membeli, tidak sensitif harga.
- Strategi
pemasaran:
- Program
loyalitas (reward point, VIP).
- Penawaran
eksklusif.
- Layanan
prioritas.
Cluster 2: Pelanggan Sensitif Harga
- Ciri:
membeli saat ada diskon, cenderung hemat.
- Strategi
pemasaran:
- Promo
diskon, voucher, flash sale.
- Paket
bundling hemat.
- Notifikasi
promo lebih sering.
Cluster 3: Pelanggan Impulsif
- Ciri:
mudah tertarik oleh tren dan tampilan menarik.
- Strategi
pemasaran:
- Kampanye
visual menarik (TikTok/Instagram).
- Limited
edition untuk memicu FOMO.
- Kolaborasi
dengan influencer.
.png)
Posting Komentar untuk "Laporan Quizz ML & AI Bab 6"