Amaç: Bu çalışmanın amacı, yaygın kullanılan tahmin doğruluk metriklerinin tanıtılması ve farklı örneklem büyüklükleri için performanslarının karşılaştırılmasıdır. Gereç ve Yöntemler: Tahmin doğrulama metrikleri, bilimin çeşitli disiplinlerinde karar verme araçları olarak yaygın şekilde kullanılmaktadır. İki sonuçlu tahminler söz konusu olduğunda tahmin doğrulamaya yönelik ayırt etme kapasitesi metrikler kullanılarak değerlendirilebilir. Bu metriklere eşiğe bağlı metrikler denir. Farklı örneklem büyüklüklerinin tahmin-doğrulama metriklerinin performansı üzerindeki etkisini ortaya koymak amacıyla yaygın olarak kullanılan 9 farklı eşik bazlı metrik dikkate alınarak bir simülasyon çalışması yapılmıştır. Python-random kütüphanesi kullanılarak 10 ≤ n ≤ 1000 aralığında 35 farklı n değeri için veri elde edilmiştir. Performans değerlendirmesinde Kappa katsayısı için literatürde önerilen değerler ve yorumlama düzeyleri dikkate alınmıştır. Bulgular: Farklı örneklem büyüklüklerinin dikkate alındığı bu çalışmadan elde edilen sonuçlardan, örneklem büyüklüğünün artırılması veya azaltılmasının tahmin doğrulama üzerindeki etkisinin neredeyse sabit olduğu tespit edilmiştir. Dikkate alınan tüm örneklem büyüklükleri için tahminlerin yaklaşık %50'sinin neredeyse tüm metrikler için ''doğrulama yok veya önemsiz'' yorumlama seviyesine sahip olduğu görülmüştür. Metrikler adil, orta, önemli ve mükemmel doğrulama düzeyleri bir arada dikkate alınarak liberal olma bakımından sıralandığında sıralama F, Odds Oranı Beceri Puanı, Kritik Başarı İndeksi, Peirce Beceri Puanı, Clayton Beceri Puanı, Tahmin Beceri İndeksi, Heidke Beceri Puanı, Kappa ve Gilbert Beceri Puanı şeklinde elde edilmiştir. Sonuç: Tahmin doğrulama metrikleri, örneklem büyüklüğünden ziyade gözlem değerlerinin 2x2 çapraz tablolardaki gözelere dağılımdan daha çok etkilenmektedir.
Anahtar Kelimeler: Tahmin doğrulaması; iki sonuçlu olaylar; tahmin beceri puanı; doğrulama çalışmaları
Objective: The aim of this study is to introduce commonly used forecast-verification metrics and compare their performance for different sample sizes. Material and Methods: Forecast verification metrics are widely used as decision support tools in various scientific disciplines. If the prediction results are binary, metrics can be used to evaluate the discriminative power for prediction verification. These metrics are called thresholddependent metrics. In order to show the effect of different sample sizes on the performance of forecast-verification metrics, a simulation study was conducted considering nine different commonly used threshold-based metrics. Using the Python-random library, data were obtained for 35 different n values in the range of 10 ≤ n ≤ 1000. For the performance evaluation, the values and interpretation levels recommended in the literature for the Kappa coefficient were taken into account. Results: From the results of this study, where different sample sizes were considered, it was found that the effect of increasing or decreasing the sample size on forecast verification was almost constant. It was observed that for all sample sizes considered, around 50 percent of the estimates had ''none or none to low'' levels of interpretation for almost all metrics. When the metrics were ranked in terms of liberality by considering fair, moderate, substantial and perfect levels of verification together, the order was obtained as F, Odds Ratio Skill Score, Critical Success Index, Peirce Skill Score, Clayton Skill Score, Prediction Skill Index, Heidke Skill Score, Kappa and Gilbert Skill Score. Conclusion: Forecast-verification metrics are more affected by the distribution of observations across cells in 2x2 crosstabs than by sample size.
Keywords: Forecast-verification; binary events; prediction skill score; validation studies
- Wheatcroft E. Interpreting the skill score form of forecast performance metrics. Int J Forecast. 2019;35(2):573-9. [Crossref]
- Roeger C, Stull R, McClung D, Hacker J, Deng X, Modzelewski H. Verification of mesoscale numerical weather forecasts in mountainous terrain for application to avalanche prediction. WAF. 2003;18(6):1140-60. [Crossref]
- Jolliffe IT, Stephenson DB. Epilogue: New directions in forecast verification. In: Jolliffe IT, Stephenson DB, eds. Forecast Verification: A Practitioner's Guide in Atmospheric Science. 2nd ed. West Sussex: John Wiley and Sons; 2012. p.221-30. [Crossref]
- Murphy AH, Winkler RL. A general framework for forecast verification. MWR. 1987;115(7):1330-8. [Crossref]
- Allouche O, Tsoar A, Kadmon R. Assessing the accuracy of species distribution models: prevalence, kappa and the true skill statistic (TSS). J Appl Ecol. 2006;43(6):1223-32. [Crossref]
- Liu C, White M, Newell G. Measuring the accuracy of species distribution models: a review. 18th World IMACS / MODSIM Congress, Cairns, Australia 13-17 July 2009. [Link]
- Sitthiyot T, Holasut K. On the evaluation of skill in binary forecast. TWE. 2022;40(3):33-54. [Link]
- Hogan R, Mason I. Deterministic forecasts of binary events. In: Jolliffe IT, Stephenson DB, eds. Forecast Verification: a Practitioner's Guide in Atmospheric Science. 2nd ed. West Sussex: John Wiley and Sons; 2012. p.31-59. [Crossref]
- Christen P, Hand DJ, Kirielle N. A review of the F-measure: its history, properties, criticism, and alternatives. ACM Comput Surv. 2023;56(3):1-24. [Crossref]
- Mbizvo GK, Simpson CR, Duncan SE, Chin RFM, Larner AJ. Critical success index or F measure to validate the accuracy of administrative healthcare data identifying epilepsy in deceased adults in Scotland. Epilepsy Res. 2024;199:107275. [Crossref] [PubMed]
- Thapliyal R, Singh B. Heavy rainfall forecasting for Dehradun capital city during monsoon season 2020. MAUSAM. 2023;74(1):141-50. [Crossref]
- Guastavino S, Piana M, Benvenuto F. Bad and good errors: value-weighted skill scores in deep ensemble learning. IEEE Trans Neural Netw Learn Syst. 2024;35(2):1993-2002. [Crossref] [PubMed]
- Yoon S, Lee WH. Application of true skill statistics as a practical method for quantitatively assessing CLIMEX performance. Ecol Indic. 2023;146(6):109830. [Crossref]
- McHugh ML. Interrater reliability: the kappa statistic. Biochem Med (Zagreb). 2012;22(3):276-82. [Crossref] [PubMed] [PMC]
- Murphy AH. The Finley affair: a signal event in the history of forecast verification. WAF. 1996;11(1):3-20. [Crossref]
- Roebber PJ. Visualizing multiple measures of forecast quality. WAF. 2009;24(2):601-8. [Crossref]
- Schaefer JT. The critical success index as an indicator of warning skill. WAF. 1990;5(4):570-5. [Crossref]
- Powers DM. What the F-measure doesn't measure: features, flaws, fallacies and fixes. ArXiv. 2015;abs/1503.06410. [Link]
- Jolliffe IT. The Dice coefficient: a neglected verification performance measure for deterministic forecasts of binary events. Meteorol Appl. 2016;23(1):89-90. [Crossref]
.: Process List