Praktikum Modul 2: Paradigma Machine Learning dan AI

Pada pembelajaran ini mahasiswa mempelajari pola dari machine learning dan ai. Artikel ini akan memuat pembahasan terkait fondasi utama dalam ilmu data, yaitu paradigma Machine Learning dan pentingnya pemahaman statistik deskriptif.

Machine Learning (ML) adalah cabang dari kecerdasan buatan yang memungkinkan sistem belajar secara otomatis dari data, tanpa harus diprogram secara eksplisit. Terdapat tiga paradigma atau pendekatan utama dalam ML:

Paradigma Machine Learning (ML) & Data

1. Supervised Learning

Inti: Model dilatih menggunakan data berlabel, di mana setiap data input sudah dilengkapi dengan "jawaban" atau output yang benar (label).
Proses: Model belajar memprediksi hubungan antara fitur input (misalnya, luas, lokasi, dan jumlah kamar rumah) dan output yang diharapkan (misalnya, harga rumah).
Aplikasi: Klasifikasi (memprediksi kategori, seperti deteksi spam) dan Regresi (memprediksi nilai kontinu, seperti prediksi harga).

2. Unsupervised Learning

Inti: Model bekerja dengan data tanpa label, di mana tidak ada jawaban yang diketahui. Tujuannya adalah menemukan pola, struktur, atau kesamaan tersembunyi dalam data.
Proses: Model berusaha mengelompokkan data (klustering) atau menemukan hubungan antara variabel secara mandiri.
Aplikasi: Segmentasi pelanggan, deteksi anomali (pencilan), dan reduksi dimensi data yang kompleks.

3. Reinforcement Learning

Inti: Model belajar melalui interaksi dengan lingkungan. Model atau "agen" mengambil tindakan dan menerima umpan balik (reward atau punishment) dari lingkungan.
Proses: Agen mencoba memaksimalkan reward jangka panjang, secara adaptif menyesuaikan perilakunya seiring waktu.
Aplikasi: Robotika, sistem kontrol otonom, dan mengajari komputer bermain game strategi yang kompleks (seperti catur atau Go).

Statistik Deskriptif untuk Data Science

Statistik adalah alat penting untuk memahami, menggambarkan, dan merangkum data sebelum membangun model machine learning.

1. Ukuran Pemusatan Data (Measures of Central Tendency)

Ukuran ini memberikan nilai tunggal yang mewakili titik tengah data:

Rata-rata (Mean): Nilai rata-rata hitung. Sangat sensitif terhadap nilai yang ekstrem (pencilan atau outlier).
Median (Nilai Tengah): Nilai yang berada di tengah setelah data diurutkan. Lebih disarankan jika data mengandung outlier karena median tidak sensitif terhadap nilai ekstrem.
Modus (Mode): Nilai yang paling sering muncul. Berguna untuk data kategorik atau diskrit.

2. Ukuran Penyebaran Data (Measures of Spread)

Ukuran ini menunjukkan seberapa tersebar atau bervariasi nilai data di sekitar pusatnya:

Jangkauan (Range): Selisih antara nilai data terbesar dan terkecil.
Standar Deviasi (Standard Deviation): Ukuran seberapa jauh data tersebar dari rata-ratanya. Nilai ini diinterpretasikan dalam satuan yang sama dengan data aslinya.
Varians: Rata-rata dari kuadrat selisih setiap data terhadap rata-rata. Varians yang besar menunjukkan variasi data yang tinggi.

3. Ukuran Posisi Data (Percentiles & Quartiles)

Ukuran ini menunjukkan posisi relatif suatu nilai dalam distribusi data:

Persentil: Membagi data menjadi 100 bagian. Misalnya, persentil ke-90 berarti 90% siswa lain nilainya lebih rendah.
Kuartil: Membagi data menjadi empat bagian yang sama (masing-masing 25%). Kuartil kedua (Q2) adalah nilai yang sama dengan Median.

4. Bentuk Distribusi Data

Memahami bagaimana data didistribusikan adalah langkah fundamental:

Kemencengan (Skewness): Mengukur simetri distribusi. Kemencengan positif (miring ke kanan) berarti mayoritas nilai data ada di bagian kecil. Kemencengan negatif (miring ke kiri) berarti mayoritas nilai data ada di bagian besar.
Keruncingan (Kurtosis): Mengukur "ketajaman" puncak distribusi. Keruncingan tinggi menunjukkan distribusi memiliki puncak yang tajam dan banyak nilai ekstrem.

Memahami Distribusi Data

Setelah mengetahui ukuran pemusatan data dan penyebaran data, langkah selanjutnya adalah memahami bagaimana data di distribusikan. Dalam data science dan machine learning, distribusi data mempengaruhi efektivitas algoritma.

Distribusi Normal: Distribusi ideal berbentuk lonceng dan simetris, di mana nilai terpusat di sekitar rata-rata. Ini adalah asumsi yang digunakan oleh banyak metode statistik.
Teorema Limit Pusat (CLT): Prinsip yang menjelaskan mengapa rata-rata dari banyak sampel acak akan membentuk distribusi mendekati normal, terlepas dari distribusi awal populasi. Ini menjadikan distribusi normal dasar bagi banyak teknik modern.

Eksploratory Data Analysis (EDA)

Setelah memahami paradigma Machine Learning dan statistik deskriptif, langkah selanjutnya dalam alur kerja Data Science adalah menggali data lebih dalam, memahami konsep peluang, dan menyajikan temuan secara persuasif.

Exploratory Data Analysis (EDA) adalah fase awal yang krusial sebelum memulai pemodelan machine learning. Tujuannya adalah mengeksplorasi struktur data, mengidentifikasi pola, mendeteksi anomali (outlier), dan menggali hubungan antar variabel untuk membangun pemahaman intuitif yang menjadi dasar strategi pemodelan. EDA yang komprehensif memungkinkan pengambilan keputusan yang lebih akurat.

EDA umumnya dilakukan melalui tiga pendekatan:

Univariate Analysis: Analisis yang fokus pada satu variabel untuk memahami distribusinya. Teknik visualisasi yang umum digunakan adalah Histogram (untuk data numerik) dan Bar Chart (untuk data kategorikal). Ini membantu mengidentifikasi outlier dan kategori yang tidak seimbang.
Bivariate Analysis: Analisis yang mengevaluasi hubungan antara dua variabel.
- Contoh visualisasi: Scatter Plot (korelasi antar dua variabel numerik) dan Box Plot (perbandingan distribusi numerik berdasarkan kategori tertentu).
Multivariate Analysis: Analisis untuk memahami interaksi antara lebih dari dua variabel.

Teknik yang sering digunakan: Correlation Matrix (mengukur kekuatan hubungan antar pasangan fitur), Heatmap (memvisualisasikan korelasi), dan Pair Plot (menampilkan scatter plot seluruh pasangan fitur dalam satu grid).

Probabilitas dalam Konteks Data Science

Probabilitas (Peluang) merupakan landasan penting yang mendasari berbagai algoritma Machine Learning, terutama yang berkaitan dengan klasifikasi, inferensi, dan evaluasi model. Pemahaman peluang praktisi data memungkinkan pengelolaan ketidakpastian, melakukan prediksi, dan menilai tingkat kepercayaan terhadap hasil analisis.

1. Konsep Dasar Peluang

Peluang mengukur seberapa besar kemungkinan suatu kejadian terjadi, dinyatakan dalam rentang 0 hingga 1. Nilai 0 berarti kejadian mustahil, sedangkan 1 berarti kejadian pasti terjadi.

Peluang Bersyarat (Conditional Probability): Ini adalah peluang terjadinya suatu kejadian dengan syarat bahwa kejadian lain sudah terjadi. Banyak peristiwa dalam data saling berkaitan, dan konsep peluang bersyarat menjadi dasar bagi algoritma seperti Naive Bayes.

Teorema Bayes (Bayes' Theorem): Teorema Bayes adalah konsep kunci yang menjelaskan bagaimana kita memperbarui peluang suatu hipotesis berdasarkan bukti baru.

Dalam bentuk intuitif, Teorema Bayes memungkinkan kita mengambil keyakinan awal (prior probability) terhadap sesuatu, dan memperbarui keyakinan tersebut menjadi keyakinan baru (posterior probability) ketika muncul bukti-bukti baru. Konsep ini menjadi dasar bagi banyak algoritma machine learning, terutama yang digunakan untuk pemodelan probabilitas.

Storytelling dengan Data

Data yang akurat belum tentu efektif jika tidak disampaikan secara jelas, sehingga di sinilah pentingnya Storytelling dengan Data. Storytelling tidak hanya membuat grafik menarik, tetapi juga membangun narasi yang logis dan persuasif berdasarkan bukti data, yang sangat penting untuk pengambilan keputusan.

1. Prinsip Visualisasi yang Efektif

Visualisasi yang baik harus menyederhanakan kompleksitas data dan menyoroti pesan utama. Prinsip-prinsip kuncinya meliputi:

Fokus dan sederhana: Hindari elemen berlebihan; gunakan warna dan label seperlunya.
Kontekstual: Tambahkan judul, keterangan, dan skala yang relevan untuk memperjelas.
Konsisten: Pertahankan gaya visual, warna, dan skala agar mudah dibandingkan.
Tegas: Pastikan pesan utama tersampaikan tanpa perlu interpretasi rumit.

2. Memilih Grafik Sesuai Tipe Data

Memilih visualisasi yang tepat membantu audiens memahami isi data:

Data Kategorik: Gunakan bar chart atau pie chart.
Data Numerik Tunggal: Gunakan histogram untuk menunjukkan distribusi.
Dua Variabel Numerik: Gunakan scatter plot untuk melihat korelasi.
Data Waktu: Gunakan line chart untuk melihat tren dari waktu ke waktu.
Banyak Variabel: Gunakan heatmap atau pair plot.

3. Kesalahan Umum dalam Visualisasi

Meskipun terlihat sederhana, visualisasi data sering mengandung kesalahan yang dapat menyesatkan dan merusak kredibilitas analisis:

Memotong sumbu yang membuat perbedaan kecil tampak lebih ekstrem.
Menggunakan warna atau efek berlebihan yang mengalihkan perhatian.
Menyajikan data tanpa konteks, seperti tanpa skala atau pembanding.
Menyalahgunakan proporsi, misalnya pie chart yang tidak utuh.

Seorang data scientist tidak cukup hanya pintar menganalisis, tetapi juga harus mampu menyampaikan temuan secara komunikatif. Dengan visualisasi yang tepat dan storytelling yang baik, data dapat diubah menjadi cerita yang mendorong aksi dan keputusan yang tepat.

Latihan dan Tugas

1. Pemahaman Paradigma Machine Learning

A. Perbedaan Tiga Paradigma Utama

Tiga jenis utama Machine Learning dibedakan berdasarkan jenis data dan tujuan pembelajarannya:

Supervised Learning menggunakan data berlabel, yang berarti setiap masukan data sudah memiliki jawaban atau target yang benar. Tujuannya adalah melatih model untuk memetakan masukan ke keluaran dan memprediksi label untuk data baru.
Unsupervised Learning hanya menggunakan data tanpa label. Tujuannya adalah agar model dapat menemukan struktur tersembunyi, pola, atau kelompok alami dalam data itu sendiri tanpa panduan apa pun.
Reinforcement Learning belajar melalui interaksi dengan lingkungan. Tidak ada data masukan tetap; model (agen) mengambil tindakan dan menerima umpan balik (reward atau punishment) untuk belajar mengambil urutan tindakan yang optimal.

B. Contoh Kasus Nyata

Berikut adalah dua contoh nyata untuk setiap paradigma:

Supervised Learning:
1. Prediksi Harga Rumah: Menggunakan data luas, lokasi, dan jumlah kamar (masukan) yang berpasangan dengan harga jual aktual (label) untuk memprediksi harga rumah yang belum terjual.
2. Klasifikasi Gambar: Menggunakan gambar yang sudah diberi label (kucing, anjing) untuk mengklasifikasikan gambar baru.
Unsupervised Learning:
1. Segmentasi Pasar: Mengelompokkan konsumen ke dalam segmen-segmen dengan minat yang serupa untuk menargetkan iklan secara efektif.
2. Deteksi Anomali Jaringan: Mengidentifikasi pola lalu lintas jaringan yang tidak biasa yang mungkin mengindikasikan serangan siber.
Reinforcement Learning:
1. Perdagangan Algoritmik: Agen belajar kapan harus membeli atau menjual aset di pasar keuangan untuk memaksimalkan keuntungan berdasarkan kondisi pasar saat itu.
2. Mengajarkan Robot Berjalan: Robot mencoba berbagai gerakan; gerakan yang berhasil membuatnya maju mendapat reward positif, sementara jatuh mendapat punishment negatif.

C. Logika Penggunaan Reinforcement Learning pada Robotika dan Game

Reinforcement Learning (RL) sangat ideal untuk robotika dan game karena keduanya melibatkan lingkungan yang dinamis di mana langkah-langkah yang benar tidak dapat dilabeli sebelumnya. Agen (robot atau karakter game) harus belajar secara mandiri bagaimana mencapai tujuan yang diberikan (misalnya, memenangkan permainan, mencapai target lokasi) melalui proses coba-coba. Model RL beradaptasi terhadap perubahan situasi dan mengembangkan strategi yang optimal dari waktu ke waktu, menjadikannya sempurna untuk pengambilan keputusan berurutan di dunia nyata atau virtual.

D. Alur Kerja Sederhana Ketiga Paradigma

Alur kerja ketiga paradigma dapat digambarkan sebagai berikut:

Supervised Learning: Data Berlabel dimasukkan untuk Melatih Model. Setelah dilatih, model akan Memprediksi Output dan diakhiri dengan Evaluasi Akurasi.
Unsupervised Learning: Data Tanpa Label dimasukkan untuk Melatih Model. Model akan Menemukan Pola atau Kelompok Tersembunyi yang kemudian Diinterpretasikan oleh analis.
Reinforcement Learning: Agen mengambil Tindakan di Lingkungan. Lingkungan memberikan Umpan Balik (Reward) dan Situasi Baru. Agen terus belajar dan menyesuaikan perilakunya untuk mendapatkan kebijakan yang paling menguntungkan.

2. Fondasi Data & Statistik

A. Perbedaan Data Terstruktur dan Data Tidak Terstruktur

Data Terstruktur adalah data yang terorganisir, biasanya dalam format tabel dengan baris dan kolom yang terdefinisi dengan jelas (seperti spreadsheet atau database relasional). Contoh nyatanya adalah data nilai mahasiswa (kolom Nama, Mata Kuliah, Nilai), catatan transaksi bank (kolom Tanggal, Jumlah, Jenis Transaksi), dan data stok inventaris di gudang.

Sebaliknya, Data Tidak Terstruktur tidak memiliki format yang terdefinisi atau skema yang kaku. Contoh nyatanya adalah email dan dokumen teks, file gambar atau video, dan data umpan balik pelanggan dari media sosial.

B. Tahapan dalam Siklus Hidup Data

Siklus hidup data adalah serangkaian tahapan yang dilalui data, mulai dari penciptaan hingga penggunaan dalam analisis:

Pengumpulan Data: Mengumpulkan data mentah dari sumber-sumber yang relevan.
Pembersihan Data: Memperbaiki kesalahan, menghilangkan data duplikat, dan mengatasi data yang hilang (missing values).
Pemrosesan Data: Mengubah dan menyusun data ke dalam format yang tepat agar siap dianalisis, misalnya mengubah satuan atau menggabungkan dataset.
Analisis Data: Menerapkan teknik statistik dan algoritma Machine Learning untuk mengeksplorasi data dan menemukan wawasan.

C. Pentingnya Kualitas Data: Konsep "Garbage In, Garbage Out"

Kualitas data sangat penting karena model Machine Learning belajar hanya dari data yang diberikan. Konsep "Garbage In, Garbage Out" (GIGO) menyatakan bahwa jika Anda memasukkan data buruk (garbage in) yaitu data yang tidak akurat, tidak lengkap, atau bias maka Anda pasti akan mendapatkan hasil yang buruk (garbage out) dalam bentuk prediksi atau keputusan yang salah. Data berkualitas tinggi adalah prasyarat untuk model yang dapat diandalkan.

D. Makna Ukuran Statistik dan Interpretasinya (Konteks Nilai Ujian Mahasiswa)

Berikut adalah makna dan contoh interpretasi dari ukuran statistik utama dalam konteks nilai ujian mahasiswa:

Mean (Rata-rata): Menunjukkan nilai pusat hitungan. Jika rata-rata nilai ujian adalah 78, ini berarti secara umum, performa kelas berada di angka tersebut.
Median (Nilai Tengah): Nilai yang membagi data menjadi dua bagian yang sama. Jika median adalah 80, ini berarti setengah dari mahasiswa mendapat nilai di atas 80 dan setengahnya di bawah 80. Median berguna jika ada nilai yang ekstrem.
Modus (Mode): Nilai yang paling sering muncul. Jika modus adalah 85, ini berarti nilai 85 adalah yang paling umum atau paling banyak diperoleh oleh mahasiswa.
Varians: Mengukur seberapa jauh setiap nilai menyebar dari rata-rata secara kuadrat. Varians yang tinggi menandakan bahwa nilai mahasiswa sangat bervariasi (ada nilai sangat tinggi dan sangat rendah).
Standar Deviasi (Standard Deviation): Merupakan akar kuadrat dari varians, menyajikan penyebaran data dalam satuan nilai asli. Jika standar deviasi adalah 5, ini berarti sebagian besar nilai mahasiswa tersebar dalam rentang 5 poin di atas dan di bawah rata-rata. Standar deviasi yang kecil menunjukkan konsistensi dalam performa kelas.

Referensi:

Sumber Utama:

Link Flipbook: https://heyzine.com/flip-book/cbbbf75431.html

Atau anda bisa mengakses langsung dari blog probadi penulis: https://adi-muhamad.my.id

Lokasi:

Farhan