Lompat ke konten Lompat ke sidebar Lompat ke footer

Laporan Quizz ML & AI Bab 6

 


a) Konsep Clustering

Clustering adalah teknik unsupervised learning yang digunakan untuk mengelompokkan data ke dalam beberapa kelompok berdasarkan kemiripan karakteristik. Data yang memiliki pola atau nilai yang mirip akan berada dalam cluster yang sama, sedangkan data yang berbeda akan berada di cluster lain. Clustering berguna untuk menemukan pola tersembunyi, segmentasi, dan memahami struktur data tanpa membutuhkan label.

b) Perbedaan & Alasan Standardisasi

1. Perbedaan utama antara Clustering (Unsupervised Learning) dan Klasifikasi (Supervised Learning)

Clustering (Unsupervised Learning)

  • Tidak menggunakan label kelas pada data.
  • Sistem secara otomatis menemukan pola dan struktur data.
  • Hasilnya berupa kelompok (cluster) yang harus diinterpretasikan.
  • Digunakan untuk eksplorasi data, seperti segmentasi pelanggan.

Klasifikasi (Supervised Learning)

  • Menggunakan data berlabel (misalnya: spam / tidak spam).
  • Model belajar dari data yang sudah memiliki kelas, lalu memprediksi kelas baru.
  • Digunakan untuk tugas prediksi yang spesifik.

2. Mengapa Standardisasi Data Diperlukan sebelum Menggunakan K-Means?

  • K-Means menghitung jarak antar data menggunakan jarak Euclidean, yang sensitif terhadap skala.
  • Jika fitur memiliki skala berbeda (misalnya pendapatan dalam juta, sedangkan umur hanya puluhan), fitur berskala besar akan mendominasi proses clustering.
  • Standardisasi menyamakan skala antar fitur sehingga:
    • perhitungan jarak lebih seimbang,
    • cluster lebih akurat,
    • centroid lebih representatif.

 

b) Algoritma Clustering

1. Cara Kerja Algoritma K-Means

  1. Tentukan jumlah cluster (k).
  2. Inisialisasi centroid awal secara acak.
  3. Hitung jarak setiap data ke seluruh centroid.
  4. Masukkan data ke cluster dengan jarak terdekat.
  5. Perbarui centroid dengan menghitung rata-rata data dalam tiap cluster.
  6. Ulangi langkah 3–5 sampai posisi centroid stabil (konvergen).

2. Kelebihan dan Kekurangan Hierarchical Clustering dibandingkan K-Means

Kelebihan

  • Tidak perlu menentukan jumlah cluster di awal.
  • Menyediakan dendrogram yang membantu melihat struktur dan hubungan antar cluster.
  • Lebih stabil karena tidak bergantung pada inisialisasi acak seperti K-Means.

Kekurangan

  • Komputasi lebih berat, kurang efektif untuk dataset besar.
  • Penggabungan/pemisahan cluster bersifat permanen (tidak dapat diubah).
  • Sensitif terhadap outlier dan noise.

 

c) Evaluasi & Aplikasi

1. Fungsi Metode Elbow dan Silhouette Score dalam Clustering

Metode Elbow

  • Digunakan untuk menentukan jumlah cluster (k) terbaik.
  • Melihat grafik hubungan antara jumlah k dan nilai WCSS (Within-Cluster Sum of Squares).
  • Titik “tekukan” atau “elbow” menunjukkan k yang paling optimal.

Silhouette Score

  • Mengukur kualitas clustering dengan melihat seberapa dekat data dengan cluster-nya sendiri dan seberapa jauh dari cluster lain.
  • Nilai berkisar dari -1 hingga 1.
    • 0.5 → cluster cukup baik
    • Mendekati 1 → cluster sangat baik
    • Nilai negatif → cluster buruk atau salah kelompok

2. Contoh Strategi Pemasaran Berdasarkan Hasil Segmentasi Pelanggan dengan Clustering

Misalnya hasil clustering menghasilkan 3 segmen:

Cluster 1: Pelanggan Loyal

  • Ciri: rutin membeli, tidak sensitif harga.
  • Strategi pemasaran:
    • Program loyalitas (reward point, VIP).
    • Penawaran eksklusif.
    • Layanan prioritas.

Cluster 2: Pelanggan Sensitif Harga

  • Ciri: membeli saat ada diskon, cenderung hemat.
  • Strategi pemasaran:
    • Promo diskon, voucher, flash sale.
    • Paket bundling hemat.
    • Notifikasi promo lebih sering.

Cluster 3: Pelanggan Impulsif

  • Ciri: mudah tertarik oleh tren dan tampilan menarik.
  • Strategi pemasaran:
    • Kampanye visual menarik (TikTok/Instagram).
    • Limited edition untuk memicu FOMO.
    • Kolaborasi dengan influencer.

Tugas dalam bentuk PDF bisa diakses disini

Posting Komentar untuk "Laporan Quizz ML & AI Bab 6"