225
Oleh: Bernardus Ari Kuncoro
Dalam machine learning, overfitting itu problem yang biasa terjadi.
Apa itu Overfitting?
Singkatnya, overfitting itu terjadi ketika model belajar dari data training dengan hafalan saja, tetapi tidak memiliki pemahaman menyeluruh terhadap proses learning.
Bagaimana cara mendeteksinya?
Cara mendeteksi overfitting adalah dengan membandingkan akurasi pada data training dan data testing.
Jika akurasi sangat tinggi pada data training, sementara akurasi sangat rendah pada data testing, bisa dipastikan model kamu overfitting.
Apa saja solusinya?
Beberapa hal yang bisa dilakukan adalah sebagai berikut:
- Sederhanakan model. Mau nggak mau, proses training mesti diulangi dengan model yang lebih sederhana. Misal Linear Regression, terlebih jika prediktor – result memang linear.
- Regularization against overfitting. Jika performa model yang sederhana sama dengan model yang lebih kompleks, pilih yang model sederhana saja.
- Lakukan Data augmentation untuk data tabular, seperti SMOTE.
- Hyperparameter tuning + Cross validation
- Pakai ensemble models seperti Random Forest, ya meskipun tidak selalu sih. Cuma, seringnya akan terhindar dari overfitting.
Sumber: Joos Korstanje (Medium)
https://towardsdatascience.com/solutions-against-overfitting-for-machine-learning-on-tabular-data-857c080651fd
Kalideres, 24 November 2021