Objective: Machine learning algorithms are based upon the assumption that data are balanced and so they do not provide good results in imbalanced datasets. This study aimed to explain the methods to be used for fitting a highly accurate model which better classifies the class of interest in imbalanced datasets with the class having a lower number of samples. Material and Methods: The study was planned as a methodological research. There are several weighting methods to calculate the class weight. This study included 4 most frequently used weighting methods. These are inverse of number of samples, inverse of square root of number of samples, effective number of examples and sample based class weight methods. In our study, 4 different class weighting methods were used on random forest and support vector machine, and it was explained how those methods affected class-based performances and the overall performance. Results: In simulated datasets, the best performance was achieved using the using the inverse of square root of number of samples class weighting method both on random forest and support vector machine. In real dataset, the best performance was achieved using the sample based class weight class weighting method on support vector machine. Conclusion: It was seen that all of the class weighting methods used in both machine learning methods were found to increase the performance of the class where recurrence was seen, therefore increasing the overall performance. It has been seen how effective the class weighting method is in dealing with the class imbalance problem.
Keywords: Class weighting; imbalanced class; machine learning
Amaç: Makine öğrenmesi algoritmaları, verilerin dengeli olduğu varsayımı altında ve dengesiz veri setlerinde iyi sonuçlar vermez. Bu çalışma, dengesiz veri setlerinde, daha az örnekleme sahip, ilgilenilen sınıfı daha iyi sınıflandıran bir modelin oluşturulması için kullanılacak yöntemleri açıklamayı amaçlamıştır. Gereç ve Yöntemler: Çalışma metodolojik bir araştırma olarak planlanmıştır. Sınıf ağırlığını hesaplamak için çeşitli ağırlıklandırma yöntemleri vardır. Bu çalışma, en sık kullanılan 4 ağırlıklandırma yöntemini içermektedir. Bunlar örneklem sayısının tersi, örneklem sayısının karekökünün tersi, efektif örneklem sayısı ve örneklem bazlı sınıf ağırlığı yöntemleridir. Çalışmamızda, random forest ve destek vektör makinesi üzerinde 4 farklı sınıf ağırlıklandırma yöntemi kullanılmış ve bu yöntemlerin sınıf bazlı performansları ve genel performansı nasıl etkilediği açıklanmıştır. Bulgular: Simüle edilmiş veri kümelerinde, hem random forest hem de destek vektör makinesi üzerinde örneklem sayısının karekökünün tersi sınıf ağırlıklandırma yöntemi kullanılarak en iyi performans elde edildi. Gerçek veri setinde en iyi performans, destek vektör makinesi üzerinde örneklem bazlı sınıf ağırlığı yöntemi kullanılarak elde edilmiştir. Sonuç: Her iki makine öğrenmesi yönteminde kullanılan sınıf ağırlıklandırma yöntemlerinin tamamının, düşük örnekleme sahip sınıfın performansını artırdığı, dolayısıyla genel performansı artırdığı görülmüştür. Çalışma sonuçları, sınıf dengesizliği problemiyle başa çıkmada sınıf ağırlıklandırma yönteminin ne kadar etkili olduğunu göstermiştir.
Anahtar Kelimeler: Sınıf ağırlıklandırma; dengesiz sınıf; makine öğrenmesi
- Sammut C, Webb GI. Encyclopedia of Machine Learning and Data Mining. 2nd ed. New York: Springer Publishing Company, Incorporated; 2017. [Crossref]
- Solon G, Haider SJ, Wooldridge JM. What are we weighting for?. J Hum Resour. 2015;50(2):301-16. [Crossref]
- He J, Cheng MX. Weighting methods for rare event identification from imbalanced datasets. Front Big Data. 2021;4:715320. [Crossref] [PubMed] [PMC]
- Johnson JM, Khoshgoftaar TM. Survey on deep learning with class imbalance. J Big Data. 2019;6(1):1-54. [Crossref]
- Krawczyk B. Learning from imbalanced data: open challenges and future directions. Progress in Artificial Intelligence. 2016;5(4):221-32. [Crossref]
- Japkowicz N, Shah M. Performance evaluation in machine learning. In: El Naqa I, Li R, Murphy MJ, eds. Machine Learning in Radiation Oncology. 1st ed. Cham: Springer; 2015. p.41-56. [Crossref]
- Anand A, Pugalenthi G, Fogel GB, Suganthan PN. An approach for classification of highly imbalanced data using weighting and undersampling. Amino Acids. 2010;39(5):1385-91. [Crossref] [PubMed]
- Wang J, Zhang L, Cao JJ, Han D. NBWELM: naive Bayesian based weighted extreme learning machine. Int J Mach Learn Cybern. 2018;9(1):21-35. [Crossref]
- Campos Almazán A. Bal images analysis for their automatic quantification [Degree thesis]. Spain: Universitat Politècnica de Catalunya; 2021. [08.11.2022]. [Link]
- Cui Y, Jia M, Lin TY, Song Y, Belongie S. Class-balanced loss based on effective number of samples. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019;9268-77. [Crossref]
- Analytics Vidhya [Internet]. © Copyright 2013-2022 Analytics Vidhya [Cited: October 20, 2022]. How to Improve Class Imbalance using Class Weights in Machine Learning. 2020. Available from: [Link]
- Akosa J. Predictive accuracy: A misleading performance measure for highly imbalanced data. Proceedings of the SAS Global Forum. 2017;12. [Link]
- Hinners TA, Tat K, Thorp R. Machine learning techniques for stellar light curve classification. Astron J. 2018;156(1):7. [Crossref]
- Hashemi M, Karimi H. Weighted machine learning. Stat Optim Inf Comput. 2018:6(4):497-525. [Crossref]
- Zong W, Huang GB, Chen Y. Weighted extreme learning machine for imbalance learning. Neurocomputing. 2013;101(1-3):229-42. [Crossref]
- Bedi S, Samal A, Ray C, Snow D. Comparative evaluation of machine learning models for groundwater quality assessment. Environ Monit Assess. 2020;192(12):776. [Crossref] [PubMed]
.: Process List