Amaç: Bu çalışmanın amacı, alıcı çalışma karakteristiği [receiver operating characteristic (ROC)] eğrisi altında kalan alana [area under the curve (AUC)] ait güven aralıklarının tahmin edilmesinde kullanılan bazı parametrik olmayan yöntemleri güven aralıklarının genişliği bakımından karşılaştırmak, farklı örneklem büyüklüklerinin AUC güven aralıkları üzerindeki etkilerini araştırmaktır. Gereç ve Yöntemler: Farklı örneklem büyüklüklerinin varlığında AUC'nin güven aralığını oluşturmak için yaygın olarak kullanılan 8 farklı parametrik olmayan yöntem kullanılmıştır. Bu yöntemleri karşılaştırmak için bir simülasyon çalışması gerçekleştirilmiş, Phytonrandom kütüphanesi kullanılarak 10 ≤ n ≤ 1.000 aralığında yer alan 35 farklı n değeri için veri türetilmiştir. Bulgular: Güven aralıklarının genişliği dikkate alındığında, çalışmada dikkate alınan yöntemler iyiden kötüye doğru Logit Dönüşüm Tabanlı Mann-Whitney, Mann-Whitney, Agresti-Coull, Wilson, Frekansçı Yaklaşım, Süreklilik Düzeltmeli Wilson, Uyarlanmış Wald ve Süreklilik Düzeltmeli Uyarlanmış Wald yöntemi şeklinde sıralanabilir. Alt/üst sınırlara ait minimum-maksimum değerlerinin 0-1 aralığında kalması bakımından ise bu sıralama Logit Dönüşüm Tabanlı Mann-Whitney, Wilson, Frekansçı Yaklaşım, Süreklilik Düzeltmeli Wilson, Agresti-Coull, Uyarlanmış Wald, Süreklilik Düzeltmeli Uyarlanmış Wald ve Mann-Whitney şeklindedir. Güven aralıklarının AUC değerlerini kapsama eğilimi bakımından n ≥ 175 için yöntemlerin çoğu benzer güven aralıkları sağlar. Bu nedenle tercih edilen bir yaklaşım yoktur. n < 175 durumunda ise AUC güven aralıklarının belirlenmesinde Logit Dönüşüm Tabanlı Mann-Whitney ve dönüşümsüz Mann-Whitney yöntemlerinin kullanılması gerektiği sonucuna ulaşılmıştır. Alt ve üst sınır değerlerinin < 0 ya da > 1 olmasına göre ise Logit Dönüşüm Tabanlı Mann-Whitney, Wilson ve Frekansçı Yaklaşımın diğer yöntemlere göre 0 ≤ alt, üst sınır ≤ 1 aralığında değerler aldığı belirlenmiştir. Sonuç: Karşılaştırılan yöntemler arasında gerek kapsama eğilimi gerekse sınır değerlerin 0-1 aralığında değerler alması kriterleri dikkate alındığında Logit Dönüşüm Tabanlı Mann-Whitney yönteminin en iyi yöntem olduğu söylenebilir.
Anahtar Kelimeler: Tanı testi; ROC analizi; eğri altında kalan alan; duyarlılık; özgüllük
Objective: The aim of this study is to compare some nonparametric methods used to estimate the confidence intervals of the area under the receiver operating characteristic (ROC) curve (AUC) in terms of the width of the confidence intervals, and to investigate the effects of different sample sizes on AUC confidence intervals. Material and Methods: Eight different commonly used nonparametric methods were used to establish the confidence interval of the AUC in the presence of different sample sizes. A simulation study was carried out to compare these methods, and data was derived for 35 different n values in the 10 ≤ n ≤ 1.000 range using the Phyton-random library. Results: Considering the width of confidence intervals, the methods considered in the study can be listed from best to worst as Logit Transformation Based Mann-Whitney, Mann-Whitney, Agresti-Coull, Wilson, Frequency Approach, Wilson with Continuity Correction, Adapted Wald and Adapted Wald method with Continuity Correction. In terms of the min-max values of the lower/upper limits remaining in the range of 0-1, this order is Logit Transformation Based Mann-Whitney, Wilson, Frequency Approach, Continuity Corrected Wilson, Agresti-Coull, Adapted Wald, Continuity Corrected Adapted Wald and Mann-Whitney. For n ≥ 175, most methods provide similar confidence intervals in that confidence intervals tend to encompass AUC values. Therefore, there is no preferred approach. In case of n < 175, it was concluded that Logit Transformation Based Mann-Whitney and non-transformational Mann-Whitney methods should be used to determine AUC confidence intervals. Depending on whether the lower and upper limit values are < 0 or > 1, it has been determined that the Logit Transformation Based Mann-Whitney, Wilson and Frequency Approach has values in the range of 0 ≤ lower and upper limit ≤ 1 compared to other methods. Conclusion: Among the compared methods, it can be said that the Logit Transformation Based Mann-Whitney method is the best method, considering both the coverage tendency and the criteria for the border values to be in the range of 0-1.
Keywords: Diagnostic test; ROC analysis; area under curve; sensitivity; specificity
- Gonçalves L, Subtil A, Rosario Oliveira M, de Zea Bermudez P. ROC curve estimation: an overview. REVSTAT-Statistical Journal. 2014;12(1):1-20. [Crossref]
- Kumar R, Indrayan A. Receiver operating characteristic (ROC) curve for medical researchers. Indian Pediatr. 2011;48(4):277-87. [Crossref] [PubMed]
- Obuchowski NA. ROC analysis. AJR Am J Roentgenol. 2005;184(2):364-72. [Crossref] [PubMed]
- Halligan S, Altman DG, Mallett S. Disadvantages of using the area under the receiver operating characteristic curve to assess imaging tests: a discussion and proposal for an alternative approach. Eur Radiol. 2015;25(4):932-9. [Crossref] [PubMed] [PMC]
- Cho H, Matthews GJ, Harel O. Confidence intervals for the area under the receiver operating characteristic curve in the presence of ignorable missing data. Int Stat Rev. 2019;87(1):152-77. [Crossref] [PubMed] [PMC]
- Pardo MC, Franco-Pereira AM. Nonparametric ROC summary statistics. REVSTAT- Statistical Journal. 2017;15(4):583-600. [Link]
- du Prel JB, Hommel G, Röhrig B, Blettner M. Confidence interval or p-value?: Part 4 of a series on evaluation of scientific publications. Dtsch Arztebl Int. 2009;106(19):335-9. [Crossref] [PubMed] [PMC]
- Bamber D. The area above the ordinal dominance graph and the area below receiver operating characteristic graph. J Math Psychol. 1975;12(4):387-415. [Crossref]
- Kottas M, Kuss O, Zapf A. A modified Wald interval for the area under the ROC curve (AUC) in diagnostic case-control studies. BMC Med Res Methodol. 2014;14:26. [Crossref] [PubMed] [PMC]
- Mbizvo GK, Larner AJ. Receiver operating characteristic plot and area under the curve with binary classifiers: pragmatic analysis of cognitive screening instruments. Neurodegener Dis Manag. 2021;11(5):353-60. [Crossref] [PubMed]
- Muschelli J. ROC and AUC with a binary predictor: a potentially misleading metric. J Classif. 2020;37(3):696-708. [Crossref] [PubMed] [PMC]
- Wilson E. Probable inference, the law of succession, and statistical inference. J Am Stat Assoc. 1927;22:209-12. [Crossref]
- Agresti A, Coull B. Approximate is better than "exact" for interval estimations of binomial proportions. Am Stat. 1998;52(2):119-26. [Crossref]
- Stalbovskaya V, Hamadicharef B, Ifeachor EC. Sample size determination using ROC analysis. Plymouth, United Kingdom: 3rd International Conference on Computational Intelligence in Medicine and Healthcare (CIMED2007); 2007. [Link]
- Feng D, Cortese G, Baumgartner R. A comparison of confidence/credible interval methods for the area under the ROC curve for continuous diagnostic tests with small sample size. Stat Methods Med Res. 2017;26(6):2603-21. [Crossref] [PubMed]
- Gengsheng Qin, Hotilovac L. Comparison of non-parametric confidence intervals for the area under the ROC curve of a continuous-scale diagnostic test. Stat Methods Med Res. 2008;17(2):207-21. [Crossref] [PubMed]
.: Process List