Amaç: Günümüzde makine öğrenmesi yöntemleri hastalık tanısının konulmasında yaygın olarak kullanılmaktadır. Ancak sağlık verisinin büyük hacimli, çok boyutlu ve karmaşık olması nedeniyle dengesiz sınıf problemi ile karşılaşılması durumunda bu yöntemlerin doğrudan kullanımı performans düşüşüne neden olmaktadır. Bu çalışmada diyabet hastalarına ilişkin dengesiz yapıdaki bir veri seti kullanılarak çeşitli yeniden örnekleme yöntemleri dengesizlik probleminin giderilmesinde kullanılmış ve kolektif (ensemble) öğrenme algoritmalarına entegre edilerek diyabet tanısı üzerinden sınıflandırma performansları karşılaştırılmıştır. Gereç Yöntemler: Kullanılan veriler Haziran ' Eylül 2013 tarihleri arasında, İzmir Bozkaya Eğitim ve Araştırma Hastanesi, Endokrinoloji ve Metabolizma Hastalıkları polikliniğine başvuran, 18 yaşından büyük 185 hastadan elde edilmiştir. Diyabet tanısının sınıflandırmasına yönelik sınıf dengesizliği problemini gidermek amacıyla alt örnekleme (under sampling), aşırı örnekleme (over sampling) ve sentetik azınlık aşırı örnekleme (SMOTE) yöntemleri kullanılmıştır. Sınıflandırma performansı üzerindeki etkiler, torbalama (bagging) ve arttırma (boosting) temelli kolektif öğrenme yöntemlerine entegre edilmesiyle karşılaştırılmıştır. Algoritmaların doğru sınıflandırma performanslarının karşılaştırılmasında doğruluk, Kappa istatistiği, duyarlılık ve seçicilik ölçütleri kullanılmıştır. Tüm istatistiksel analizler, açık kaynak kodlu bir yazılım olan R programlama dilinde yapılmıştır. Bulgular: Dengesiz veri setinde ham veri ile yapılan diyabet tanısı sınıflandırma başarısı oldukça düşüktür. Aşırı örnekleme yöntemi ile yapılan sınıflandırmaların, orijinal dengesiz veri seti, alt örnekleme ve sentetik azınlık aşırı örnekleme yöntemi ile yapılan sınıflandırmalardan çok daha başarılı tahmin gücüne sahip olduğu tespit edilmiştir. Sonuç: Sınıf dengesizliği varlığında veri setlerini yeniden örnekleme yöntemlerine tabi tutarak veriyi dengeledikten sonra sınıflandırma algoritmalarının kullanılması önerilmektedir.
Anahtar Kelimeler: Kolektif öğrenme; sınıflandırma; dengesiz veri; hastalık tanısı; diyabet
Objective: Recently, machine learning methods have been widely used in disease diognosis. However, due to the large volume, multidimensional and complexity of the information, an unbalanced data problem arises. In this study, it is aimed to eliminate problem of imbalance by using re-sampling methods in an unbalanced data set related to diabetes patients, to classify diagnosis of diabetes with ensemble learning algorithms and to compare correct classification performances of algorithms. Material and Methods: The data were collected from 185 patients older than 18 years of age who were admitted to Izmir Bozkaya Training and Research Hospital, Endocrinology and Metabolism Diseases outpatient clinic between June and September 2013. Under-sampling, over-sampling and synthetic minority over-sampling methods were used to eliminate unbalanced class problem for diagnosis of diabetes. The effects on classification performance were compared by integrating bagging and boosting methods into ensemble learning methods. Accuracy, Kappa statistics, sensitivity and specificity were used to compare correct classification performance of algorithms. All statistical analyzes were made in the R programming language, an open source software. Results: The success rate of diabetes diagnosis with raw data is very low in the unbalanced data set. It is determined that classifications made with over-sampling method have much more successful estimation power than classifications made with original unbalanced data set, under-sampling and synthetic minority over-sampling method. Conclusion: It is recommended to use classification algorithms after balancing the data by subjecting the data sets to resampling methods in the presence of class imbalance.
Keywords: Ensemble learning; classification; unbalanced data; disease diagnosis; diabetes
- Goldenberg R, Punthakee Z. Definition, classification and diagnosis of diabetes, prediabetes and metabolic syndrome. Can J Diabetes. 2013;37(1):197-212. [Crossref] [PubMed]
- Laiteerapong N, Cifu AS. Screening for prediabetes and type 2 diabetes mellitus. JAMA. 2016;315(7):697-8. [Crossref] [PubMed] [PMC]
- Ogurtsova K, da Rocha Fernandes JD, Huang Y, Linnenkamp U, Guariguata L, Cho NH, et al. IDF Diabetes Atlas: global estimates for the prevalence of diabetes for 2015 and 2040. Diabetes Res Clin Pract. 2017;128:40-50. [Crossref] [PubMed]
- Jutel A. Classification, disease, and diagnosis. Perspect Biol Med. 2011;54(2):189-205. [Crossref] [PubMed]
- Liu Z, Tang D, Cai Y, Wang R, Chen F. A hybrid method based on ensemble WELM for handling multi class imbalance in cancer microarray data. Neurocomputing. 2017;266:641-50. [Crossref]
- Wan S, Duan Y, Zou Q. HPSLPred: an ensemble multi-label classifier for human protein subcellular location prediction with imbalanced source. Proteomics. 2017;17(17-18). [Crossref] [PubMed]
- Zhang J, Cui X, Li J, Wang R. Imbalanced classification of mental workload using a cost-sensitive majority weighted minority oversampling strategy. Cogn Technol Work. 2017;19(4):633-53. [Crossref]
- Wu Z, Lin W, Ji Y. An integrated ensemble learning model for imbalanced fault diagnostics and prognostics. IEEE Access. 2018;6:8394-02. [Crossref]
- Khalilia M, Chakraborty S, Popescu M. Predicting disease risks from highly imbalanced data using random forest. BMC Med Inform Decis Mak. 2011;11(1):51. [Crossref] [PubMed] [PMC]
- Zhou B, Li W, Hu J. A new segmented oversampling method for imbalanced data classification using quasi-linear SVM. IEEJ Trans Electr Electron Eng. 2017;12(6):891-8. [Crossref]
- He H, Garcia EA. Learning from imbalanced data. IEEE Trans Knowl Data Eng. 2009;21(9):1263-84. [Crossref]
- Alexander Yun-Chung Liu B. The Effect of Oversampling and Undersampling on Classifying Imbalanced Text Datasets. The University of Texas at Austin; 2004. http://fliphtml5.com/oefn/qjyp/basic/51-57
- Lin WC, Tsai CF, Hu YH, Jhang JS. Clustering-based undersampling in class-imbalanced data. Inf Sci (Ny). 2017;(409-410):17-26. [Crossref]
- Douzas G, Bacao F. Effective data generation for imbalanced learning using conditional generative adversarial networks. Expert Syst Appl. 2018;91:464-71. [Crossref]
- Seo JH, Kim YH. Machine-learning approach to optimize SMOTE ratio in class imbalance dataset for intrusion detection. Comput Intell Neurosci. 2018;2018:9704672. [Crossref] [PubMed] [PMC]
- Zhou ZH. Ensemble Methods: Foundations and Algorithms. 1st ed. Cambridge: CRC Press; 2012. p.236. [Crossref]
- Çolak MC, Çolak C, Erdil N, Arslan AK. Investigating optimal number of cross validation on the prediction of postoperative atrial fibrillation by voting ensemble strategy. Turkiye Klinikleri J Biostat. 2016;8(1):30-5. [Crossref]
- Yang P, Yang JYH, Zhou B, Zomaya A. A review of ensemble methods in bioinformatics. Curr Bioinform. 2010;5(4):296-308. [Crossref]
- Freund Y, Schapire RE. A desicion-theoretic generalization of on-line learning and an application to boosting. J Comput Syst Sci. 1995;55(1):119-39. [Crossref]
- Breiman L. Bagging predictors. Mach Learn. 1996;24(2):123-40. [Crossref] [Crossref]
- Sewell M. Ensemble Methods. London: UCL; 2007. p.12.
- Temel GO, Ankaralı H, Taşdelen B, Erdoğan S, Özge A. A comparison of boosting tree and gradient treeboost methods for carpal tunnel syndrome. Turkiye Klinikleri J Biostat. 2014;6(2):67-73.
- Breiman L. Random forests. Mach Learn. 2001;45(1):5-32. [Crossref]
- Akar Ö, Güngör O, Akar A. [Determination of land use area with random forest classifier]. Gebze: 3. Uzaktan Algılama ve Coğrafi Bilgi Sistemleri Sempozyumu; 2010. p.11-3.
- Akman M, Genç Y, Ankaralı H. [Random forests methods and an application in health science]. Turkiye Klinikleri J Biostat. 2011;3(1):36-48.
- Akşehirli ÖY, Ankaralı H, Aydın D, Saraçlı Ö. [An alternative approach in medical diagnosis: support vector machines]. Turkiye Klinikleri J Biostat. 2013;5(1):19-28.
- Xu B, Huang JZ, Williams G, Wang Q, Ye Y. Classifying very high-dimensional data with random forests built from small subspaces. Int J Data Warehous Min. 2012;8(2):44-63. [Crossref]
- Zhao H, Williams GJ, Huang JZ. wsrf: an R package for classification with scalable weighted subspace random forests. J Stat Softw. 2017;77(3):1-30. [Crossref]
- Rätsch G, Onoda T, Müller KR. Soft margins for AdaBoost. Mach Learn. 2001;42(3):287-320. [Crossref]
- Friedman J, Hastie T, Tibshirani R. Additive logistic regression: a statistical view of boosting. Ann Stat. 2000;28(2):337-407. [Crossref] [Crossref]
- Cai YD, Feng KY, Lu WC, Chou KC. Using LogitBoost classifier to predict protein structural classes. J Theor Biol. 2006;238(1):172-6. [Crossref] [PubMed]
- Friedman JH. Stochastic gradient boosting. Comput Stat Data Anal. 2002;38(4):367-78. [Crossref]
.: Process List