Preprint has been published in a journal as an article
Preprint / Version 1

Implementation of Data Mining in Diabetes Disease Prediction Using Random Forest and XGBoost Methods


Implementasi Data Mining dalam Melakukan Prediksi Penyakit Diabetes Menggunakan Metode Random Forest dan Xgboost

##article.authors##

DOI:

https://doi.org/10.21070/ups.3290

Keywords:

Data Mining, Diabetes Disease Prediction, Random Forest, XGBoost, Kaggle

Abstract

Diabetes has become a global health concern. This research focuses on the implementation of two data mining techniques, namely Random Forest and XGBoost, to project the development of diabetes. Both methods utilize clinical and biochemical datasets related to diabetes. After the preprocessing stage, performance evaluation is conducted using metrics such as accuracy, precision, recall, and F1-score. The initial dataset consists of 768 entries with 9 indicators from the Kaggle platform. After preprocessing, including handling missing values, outliers, and data normalization, there are 688 entries remaining. These models are then trained and tested using Cross Validation to determine the best parameters. The evaluation results indicate a performance with an overall accuracy of 74% for Random Forest and approximately 76% for XGBoost in predicting diabetes.

Downloads

Download data is not yet available.

References

T. Hidayat, S. S. Anelia, R. I. Pratiwi, N. Salsabila, and D. S. Prasvita, “Perbandingan Akurasi Klasifikasi Penyakit Diabetes Menggunakan Algoritma Adaboost- Random Forest Dan Adaboost- Decision Tree Dengan Imputasi Median Dan Knn,” Semin. Nas. Mhs. Ilmu Komput. dan Apl., no. April, pp. 616–623, 2020.

G. Abdurrahman, H. Oktavianto, and M. Sintawati, “Optimasi Algoritma XGBoost Classifier Menggunakan Hyperparameter Gridesearch dan Random Search Pada Klasifikasi Penyakit Diabetes,” INFORMAL Informatics J., vol. 7, no. 3, p. 193, 2022, doi: 10.19184/isj.v7i3.35441.

A. Fauzi and A. H. Yunial, “JEPIN (Jurnal Edukasi dan Penelitian Informatika) Optimasi Algoritma Klasifikasi Naive Bayes, Decision Tree, K-Nearest Neighbor, dan Random Forest menggunakan Algoritma Particle Swarm Optimization pada Diabetes Dataset,” J. Edukasi dan Penelit. Inform., vol. 8, no. 3, pp. 470–481, 2022.

F. ANISHA, Dodi Vionanda, Nonong amalita, and Zilrahmi, “Application of Random Forest for The Classification Diabetes Mellitus Disease in RSUP Dr. M. Jamil Padang,” UNP J. Stat. Data Sci., vol. 1, no. 2, pp. 45–52, 2023, doi: 10.24036/ujsds/vol1-iss2/30.

N. N. Pandika Pinata, I. M. Sukarsa, and N. K. Dwi Rusjayanthi, “Prediksi Kecelakaan Lalu Lintas di Bali dengan XGBoost pada Python,” J. Ilm. Merpati (Menara Penelit. Akad. Teknol. Informasi), vol. 8, no. 3, p. 188, 2020, doi: 10.24843/jim.2020.v08.i03.p04.

Gde Agung Brahmana Suryanegara, Adiwijaya, and Mahendra Dwifebri Purbolaksono, “Peningkatan Hasil Klasifikasi pada Algoritma Random Forest untuk Deteksi Pasien Penderita Diabetes Menggunakan Metode Normalisasi,” J. RESTI (Rekayasa Sist. dan Teknol. Informasi), vol. 5, no. 1, pp. 114–122, 2021, doi: 10.29207/resti.v5i1.2880.

S. D. M. I. Gunawan Ichsan Muhammad, “JEPIN (Jurnal Edukasi dan Penelitian Informatika) Peningkatan Kinerja Akurasi Prediksi Penyakit Diabetes Mellitus Menggunakan Metode Grid Seacrh pada Algoritma Logistic Regression,” J. Edukasi dan Penelit. Inform., vol. 6, no. 3, pp. 280–284, 2020.

B. A. Candra Permana and I. K. Dewi Patwari, “Komparasi Metode Klasifikasi Data Mining Decision Tree dan Naïve Bayes Untuk Prediksi Penyakit Diabetes,” Infotek J. Inform. dan Teknol., vol. 4, no. 1, pp. 63–69, 2021, doi: 10.29408/jit.v4i1.2994.

H. S. W. Hovi, A. Id Hadiana, and F. Rakhmat Umbara, “Prediksi Penyakit Diabetes Menggunakan Algoritma Support Vector Machine (SVM),” Informatics Digit. Expert, vol. 4, no. 1, pp. 40–45, 2022, doi: 10.36423/index.v4i1.895.

M. Syukri Mustafa and I. Wayan Simpen, “Implementation of the K-Nearest Neighbor (KNN) Algorithm to Predict Patients Affected by Diabetes at the Manyampa Health Center, Bulukumba Regency,” Pros. Semin. Ilm. Sist. Indormasi dan Teknol. Inf., vol. VIII, no. 1, pp. 1–10, 2019.

S. Ucha Putri, E. Irawan, F. Rizky, S. Tunas Bangsa, P. A. -Indonesia Jln Sudirman Blok No, and S. Utara, “Implementasi Data Mining Untuk Prediksi Penyakit Diabetes Dengan Algoritma C4.5,” Januari, vol. 2, no. 1, pp. 39–46, 2021.

E. C. P. Witjaksana, R. R. Saedudin, and V. P. Widartha, “Perbandingan Akurasi Algoritma Random Forest dan Algoritma Artificial Neural Network untuk Klasifikasi Penyakit Diabetes,” e-Proceeding Eng., vol. 8, no. 5, pp. 9765–9772, 2021.

M. D. Purbolaksono, M. Irvan Tantowi, A. Imam Hidayat, and A. Adiwijaya, “Perbandingan Support Vector Machine dan Modified Balanced Random Forest dalam Deteksi Pasien Penyakit Diabetes,” J. RESTI (Rekayasa Sist. dan Teknol. Informasi), vol. 5, no. 2, pp. 393–399, 2021, doi: 10.29207/resti.v5i2.3008.

Z. Munawar, N. I. Putri, and D. Z. Musadad, “Meningkatkan Rekomendasi Menggunakan Algoritma Perbedaan Topik,” J. Sist. Inf., vol. 01, no. 02, pp. 17–26, 2020.

A. E. Pramadhani and T. Setiadi, “Penerapan Data Mining untuk Klasifikasi Penyakit ISPA dengan Algoritma Desicion Tree,” J. Sarj. Tek. Inform. e-ISSN 2338-5197, vol. 2, no. 1, pp. 831–839, 2014.

N. Chamidah, W. Jurusan Teknik Informatika, U. Salamah, and K. Kunci Backpropagasi, “Pengaruh Normalisasi Data pada Jaringan Syaraf Tiruan Backpropagasi Gradient Descent Adaptive Gain (BPGDAG) untuk Klasifikasi,” J. Itsmart, vol. 1, no. 1, pp. 28–33, 2012.

W. Apriliah, I. Kurniawan, M. Baydhowi, and T. Haryati, “SISTEMASI: Jurnal Sistem Informasi Prediksi Kemungkinan Diabetes pada Tahap Awal Menggunakan Algoritma Klasifikasi Random Forest,” J. Sist. Inf., vol. 10, no. 1, pp. 163–171, 2021, [Online]. Available: http://sistemasi.ftik.unisi.ac.id.

R. Bonetto and V. Latzko, “Machine learning,” Comput. Commun. Networks From Theory to Pract., pp. 135–167, 2020, doi: 10.1016/B978-0-12-820488-7.00021-9.

N. L. Rachmawati and M. Lentari, “Penerapan Metode Min-Max untuk Minimasi Stockout dan Overstock Persediaan Bahan Baku,” J. INTECH Tek. Ind. Univ. Serang Raya, vol. 8, no. 2, pp. 143–148, 2022, doi: 10.30656/intech.v8i2.4735.

H. Azis, P. Purnawansyah, F. Fattah, and I. P. Putri, “Performa Klasifikasi K-NN dan Cross Validation Pada Data Pasien Pengidap Penyakit Jantung,” Ilk. J. Ilm., vol. 12, no. 2, pp. 81–86, 2020, doi: 10.33096/ilkom.v12i2.507.81-86.

S. Kasus, K. Data, E. Gen, and S. Muscle, “Implementasi Metode Svm , Mlp Dan Xgboost,” 2020.

Posted

2023-09-14