Amaç: Bu çalışmanın amacı, sağa ve sola çarpık sağlık verilerine uygulanan çeşitli veri dönüşümlerinin alıcı işletim karakteristiği [receiver operating characteristic (ROC)] eğrisi altında kalan alan [area under the curve (AUC)] üzerindeki etkilerini incelemektir. Özellikle, logaritmik, karekök, Box-Cox, Yeo-Johnson, Quantile, Rank, Robust Scale ve Inverse dönüşümlerin çarpık veri setlerinde AUC değerlerini nasıl etkilediği araştırılmıştır. Gereç ve Yöntemler: Çalışma kapsamında, farklı örneklem büyüklüklerinde sağa ve sola çarpık veri setleri oluşturulmuş ve bu veri setlerine farklı dönüşüm teknikleri uygulanmıştır. Her bir veri seti için AUC değerleri hesaplanmış ve çeşitli dönüşüm tekniklerinin bu değerlere etkisi simülasyon çalışmaları ile incelenmiştir. Python programlama dili kullanılarak 50≤n≤500 aralığında yer alan farklı n değerleri için veri türetilmiştir. Bulgular: Sağa çarpık verilere uygulanan dönüşüm teknikleri arasında, Quantile dönüşümü küçük örneklem boyutlarında yüksek AUC değerleri sağlamıştır. Logaritmik, karekök, Box-Cox ve Yeo-Johnson dönüşümleri ise çarpıklığı azaltarak benzer performans göstermiştir. Inverse dönüşümü küçük örneklemlerde düşük AUC değerleriyle etkisiz kalmıştır. Sola çarpık verilerde, Quantile dönüşümü küçük örneklemlerde etkili olurken, Inverse dönüşümü büyük örneklemlerde en iyi AUC değerini vermiştir. Box-Cox ve Yeo-Johnson dönüşümleri ise sola çarpık verilerde çarpıklığı azaltarak daha dengeli AUC değerleri elde edilmesini sağlamıştır. Sonuç: Bu çalışma, çarpık verilerin AUC değerleri üzerindeki etkilerini değerlendirerek, sağlık verisi analistlerine uygun dönüşüm tekniklerini seçme konusunda pratik rehberlik sunmaktadır. Quantile dönüşümü küçük örneklem boyutlarında sağa ve sola çarpık verilerde genellikle etkili bir yöntem olarak öne çıkarken, Inverse dönüşümü özellikle büyük örneklem boyutlarında sola çarpık verilerde etkili olabilir. Bu bulgular, çarpık veri setlerinde model performansını iyileştirmek için dönüşüm tekniklerinin dikkatli bir şekilde seçilmesi gerektiğini vurgulamaktadır.
Anahtar Kelimeler: Veri dönüşümü; ROC eğrisi; eğri altındaki alan; çarpık veri; sağlık verisi analizi
Objective: The purpose of this study is to investigate the effects of various data transformations applied to right and left skewed health data on the area under the receiver operating characteristic (ROC) curve (AUC). In particular, it was investigated how logarithmic, square root, Box-Cox, Yeo-Johnson, Quantile, Rank, Robust Scale and Inverse transformations affect AUC values in skewed data sets. Material and Methods: Within the scope of the study, right and left skewed data sets were created with different sample sizes and different transformation techniques were applied to these data sets. AUC values were calculated for each data set and the effects of various transformation techniques on these values were investigated with simulation studies. Data were generated for different n values in the range of 50≤n≤500 using the Python programming language. Results: Among the transformation techniques applied to right-skewed data, Quantile transformation provided high AUC values in small sample sizes. Logarithmic, Square Root, Box-Cox and Yeo-Johnson transformations showed similar performance by reducing skewness. Inverse transformation was ineffective with low AUC values in small samples. In left-skewed data, Quantile transformation was effective in small samples, while Inverse transformation gave the best AUC value in large samples. Box-Cox and Yeo-Johnson transformations provided more balanced AUC values by reducing skewness in leftskewed data. Conclusion: This study evaluates the effects of skewed data on AUC values and provides practical guidance to healthcare data analysts on selecting appropriate transformation techniques. Quantile transformation is generally effective for right and left skewed data in small sample sizes, while Inverse transformation can be especially effective for left skewed data in large sample sizes. These findings emphasize that transformation techniques should be carefully selected to improve model performance in skewed datasets.
Keywords: Data transformation; ROC curve; area under the curve; skewed data; health data analysis
- Altman DG, Bland JM. Diagnostic tests 3: receiver operating characteristic plots. BMJ. 1994;309(6948):188. [Crossref] [PubMed] [PMC]
- Zhang Z, Castelló A. Principal components analysis in clinical studies. Ann Transl Med. 2017;5(17):351. [Crossref] [PubMed] [PMC]
- Pearson K. LIII. On lines and planes of closest fit to systems of points in space. Philos Mag J Sci. 1901;2(11):559-72. [Crossref]
- Osborne J. Improving your data transformations: applying the box-cox transformation. Pract Assess Res Eval. 2010;15(1):12. [Crossref]
- Tukey JW. Exploratory Data Analysis. Vol. 2. 1st ed. Springer; 1977.
- Box GE, Cox DR. An analysis of transformations. J R Stat Soc Series B Stat Methodol. 1964;26(2):211-43. [Crossref]
- Hosmer D, Lemeshow S. Applied Logistic Regression. 2nd ed. New York, NY, US: Wiley; 2000. [Crossref] [PubMed]
- Hastie T, Tibshirani R, Friedman J. The Elements of Statistical Learning: Data Mining, Inference, and Prediction. 2nd ed. Springer; 2017.
- Fawcett T. An introduction to ROC analysis. Pattern Recognit Lett. 2006;27(8):861-74. [Crossref]
- Zou KH, O'Malley AJ, Mauri L. Receiver-operating characteristic analysis for evaluating diagnostic tests and predictive models. Circulation. 2007;115(5):654-7. [Crossref] [PubMed]
- Durrleman S, Simon R. Flexible regression models with cubic splines. Stat Med. 1989;8(5):551-61. [Crossref] [PubMed]
- McCullagh P. Generalized Linear Models. 2nd ed. London: Routledge; 2019. [Crossref]
- Pepe MS. The Statistical Evaluation of Medical Tests for Classification and Prediction. 1st ed. Oxford: Oxford University Press; 2003. [Crossref]
- Yeo IK, Johnson RA. A new family of power transformations to improve normality or symmetry. Biometrika. 2000;87(4):954-9. [Crossref]
- Hastie T, Tibshirani R, Friedman J. The Elements of Statistical Learning. 1st ed. Springer; 2001. [Crossref]
- Conover WJ, Iman RL. Rank transformations as a bridge between parametric and nonparametric statistics. Am Stat. 1981;35(3):124-9. [Crossref]
- Huber PJ, Ronchetti EM. Robust Statistics. 1st ed. Hoboken, N.J.: John Wiley & Sons; 1981. [Crossref]
- Bamber D. The area above the ordinal dominance graph and the area below the receiver operating characteristic graph. J Math Psychol. 1975;12(4):387-415. [Crossref]
- Ünal İ. Çarpık dağılımlı verilerde ROC eğrisi altında kalan alan tahmininde transformasyon etkili mi [Is the transformation useful to estimate the area under the ROC curve with skewed data]? Cukurova Med J. 2018;43(1):141-7. [Crossref]
- McCullagh P, Nelder JA. Generalized Linear Models. 1st ed. Boca Raton, Fla: Chapman & Hall/CRC Monographs on Statistics and Applied Probability; 1989. [Crossref]
- Arslan AK, Tunç Z, Çolak C. Veri dönüşümü için açık kaynak erişimli web tabanlı yazılım: veri dönüşüm yazılımı [Open source access web based software for data transformation: data transformation software]. Firat Univ Saglik Bilim Tip Derg. 2019;33(3):175-81. [Link]
.: Process List