Praktikum Modul 8: Overfitting & Underfitting

Pada pembelajaran Modul 8, kita mempelajari konsep underfitting dan overfitting sebagai bagian penting dalam mengevaluasi kinerja model machine learning. Model yang terlalu sederhana cenderung tidak mampu menangkap pola data secara optimal, sedangkan model yang terlalu kompleks berisiko hanya menyesuaikan diri dengan data latih tanpa mampu melakukan generalisasi. Oleh karena itu, modul ini menekankan pentingnya menemukan keseimbangan antara kompleksitas model dan kemampuan prediksi agar hasil yang diperoleh lebih stabil dan akurat pada data baru.

Untuk memahami konsep tersebut secara praktis, digunakan beberapa model regresi dengan tingkat kompleksitas yang berbeda, yaitu Linear Regression, Polynomial Regression, serta Regularized Regression (Ridge dan Lasso). Evaluasi model dilakukan menggunakan learning curve yang membandingkan error pada data latih dan data validasi seiring bertambahnya jumlah data. Melalui visualisasi ini, dapat diidentifikasi kondisi underfitting pada model linear, overfitting pada polynomial regression, serta peran regularisasi dalam menyeimbangkan kinerja model. Dengan demikian, learning curve menjadi alat yang efektif untuk menilai performa model secara menyeluruh dan membantu dalam memilih model yang paling sesuai.

Pembuatan Dataset Dummy

Eksperimen dimulai dengan membuat dataset dummy sederhana yang mensimulasikan hubungan antara biaya iklan dan penjualan. Dataset ini dibuat secara acak namun mengikuti pola linear dengan tambahan noise agar mendekati kondisi data nyata. Seluruh data kemudian disimpan dalam bentuk DataFrame menggunakan pandas, dan lima data pertama ditampilkan untuk memastikan struktur data sudah sesuai sebelum dilakukan pemodelan.

Dataset ini kemudian dibagi menjadi data latih dan data uji menggunakan metode train-test split. Pembagian ini bertujuan untuk menguji sejauh mana model mampu melakukan generalisasi terhadap data yang belum pernah dilihat sebelumnya.

Model 1: Linear Regression (Underfitting)

Model pertama yang digunakan adalah Linear Regression. Model ini dipilih sebagai contoh model yang sederhana karena hanya mampu menangkap hubungan linear antara variabel input dan output.

Hasil pelatihan menunjukkan bahwa error pada data latih dan data uji relatif mirip, namun nilainya cukup tinggi. Hal ini menandakan bahwa model tidak cukup fleksibel untuk menangkap kompleksitas data. Learning curve juga memperlihatkan bahwa baik training error maupun validation error berhenti menurun pada titik tertentu dan tetap tinggi meskipun jumlah data latih bertambah. Pola ini menunjukkan kondisi underfitting, di mana model gagal mempelajari pola dasar data dengan baik.

Model 2: Polynomial Regression (Overfitting)

Model kedua adalah Polynomial Regression dengan derajat yang tinggi. Model ini memiliki fleksibilitas yang sangat besar karena mampu membentuk kurva kompleks yang mengikuti data latih secara ekstrem.

Hasilnya, training error mendekati nol, menandakan bahwa model hampir sempurna dalam mempelajari data latih. Namun, validation error justru sangat besar, terutama ketika jumlah data latih masih sedikit. Learning curve memperlihatkan jarak yang sangat lebar antara training error dan validation error. Ini merupakan indikasi jelas terjadinya overfitting, di mana model terlalu fokus pada data latih dan gagal melakukan generalisasi.

Titik awal overfitting mulai terlihat sejak jumlah data latih masih rendah, ketika validation error melonjak tajam sementara training error tetap sangat kecil.

Model 3: Regularized Regression (Ridge Regression)

Untuk mengatasi kelemahan polynomial regression, digunakan Ridge Regression yang menerapkan teknik regularisasi. Ridge tetap menggunakan fitur polynomial, namun menambahkan penalti terhadap besarnya koefisien model. Tujuannya adalah mencegah model menjadi terlalu kompleks.

Secara visual, learning curve Ridge Regression tampak mirip dengan polynomial regression karena skala error yang besar. Namun, jika dilihat dari perilaku model dan stabilitas error, Ridge menunjukkan performa yang lebih terkendali. Training error tidak serendah polynomial murni, dan validation error cenderung lebih stabil. Regularisasi membantu menekan varians model sehingga risiko overfitting dapat dikurangi.

Analisis Learning Curve

Dari grafik learning curve yang dihasilkan, dapat disimpulkan bahwa:

Linear Regression mengalami underfitting karena baik training error maupun validation error tetap tinggi dan tidak banyak berubah meskipun data bertambah.
Polynomial Regression mulai mengalami overfitting sejak awal pelatihan, ditandai dengan training error yang sangat kecil dan validation error yang jauh lebih besar.
Ridge Regression berada di posisi tengah, di mana model cukup fleksibel untuk mempelajari pola data namun tetap dikendalikan oleh regularisasi.

Kesimpulan

Berdasarkan perbandingan ketiga model, Ridge Regression dapat dianggap sebagai model yang paling seimbang. Linear Regression terlalu sederhana sehingga gagal menangkap pola data, sedangkan Polynomial Regression terlalu kompleks dan rentan terhadap overfitting. Ridge Regression berhasil menyeimbangkan kompleksitas dan kemampuan generalisasi melalui mekanisme regularisasi, sehingga lebih stabil dan lebih aman digunakan pada data baru. Eksperimen ini menunjukkan pentingnya memilih model yang tidak hanya memiliki error kecil pada data latih, tetapi juga mampu bekerja dengan baik pada data uji.

Link Praktikum & Latihan

1. Praktikum

2. Latihan

Referensi

Sumber utama:

Link Flipbook: Flipbook

Atau anda bisa mengakses langsung dari blog pribadi penulis: Adi Muhamad Muhsidi

Lokasi:

Farhan