Amaç: Bu çalışmanın amacı, 2 sonuçlu nominal derecelendirme ölçekleri için Cohen kappa uyum katsayısı ile kategori ayırt edilebilirlik derecesini birlikte değerlendirmektir. Gereç ve Yöntemler: Çalışmada, Phyton-random kütüphanesi kullanılarak 10≤ n ≤1000 aralığında yer alan 35 farklı n değeri için veri türetilmiştir. Verilerin türetilmesinde önce ile gösterilen gözelerden hangisine değer atanacağı sonra da ilgili gözeye atanacak değer belirlenmiştir. n=10 için 286, n=15 için 815 ve n≥ 20 için 1000'er farklı veri seti çalışmada kullanılmıştır. Bulgular: Literatürde ayırt edilebilirlik derecesinin 0-1 aralığında değer aldığı ifade edilmektedir. Ancak 0 değeri içeren ya da ekstrem durumların söz konusu olduğu tablolarda ayırt edilebilirlik derecesinin tanım aralığının dışında, negatif değer aldığı belirlenmiştir. Bunun yanı sıra literatürde ayırt edilebilirlik derecesinin nasıl yorumlanacağı ile ilgili çok genel bilgiler dışında herhangi bir bilgi yer almamaktadır. Dolayısıyla Cohen kappa katsayısı için literatürde yer alan yorumlama seviyeleri esas alınarak, ayırt edilebilirlik derecesi için yorumlama seviyeleri belirlenmiştir. Cohen kappa katsayısı için simülasyon çalışmasından elde edilen toplam 34.097 sonucun %49,5'inde uyum yok, %22,1'inde önemsiz, %13,0'ında orta derecede, %8,3'ünde ekseriyetle, %5,2'sinde önemli derecede ve %2,0'ında neredeyse mükemmel uyum sonucu ile karşılaşılmıştır. Ayırt edilebilirlik derecesi için ise %50,3'ünde ayırt edilemez, %12,4'ünde önemsiz, %11,8'inde orta derecede, %9,9'unda ekseriyetle, %7,6'sında önemli derecede ve %8,1'inde neredeyse mükemmel ayırt edilebilirlik sonucu ile karşılaşılmıştır. Her bir örneklem büyüklüğü ayrı ayrı dikkate alındığında da elde edilen sonuçlar benzerlik göstermiştir. Sonuç: Kategoriler arasında ayırt edilebilirlik söz konusu değilse değerlendiriciler arasında kesinlikle uyum aranmamalıdır. Kategorilerin önemli ya da mükemmel derecede ayırt edilebilir olması da değerlendiriciler arasındaki uyumun her zaman önemli ya da mükemmel derecede yüksek olacağını göstermez.
Anahtar Kelimeler: Cohen kappa katsayısı; ayırt edilebilirlik; iki sonuçlu veri
Objective: The aim of this study is to evaluate the Cohen kappa coefficient of agreement and the degree of category distinguishability for binary nominal rating scales. Material and Methods: In the study, data were derived for 35 different n values in the range of 10≤ n ≤1000 using the Phyton-random library. In the derivation of the data, firstly, which cell shown with will be assigned value, then the value to be assigned to the relevant cell was determined. 286 for n=10 , 815 for n=15 and 1000 different data sets for n≥ 20 were used in the study. Results: In the literature, it is stated that the degree of distinguishability takes a value in the range of 0-1. However, it was determined that the degree of distinguishability took a negative value outside the definition range in tables containing zero values or in extreme situations. In addition, there is no information in the literature other than very general information on how to interpret the degree of distinguishability. Therefore, interpretation levels for the degree of distinguishability were determined based on the interpretation levels in the literature for the Cohen kappa coefficient. Of the total 34,097 results obtained from the simulation study for the Cohen kappa coefficient; 49.5% were disagreement, 22.1% poor, 13.0% fair, 8.3% moderate, 5.2% substantial, and 2.0% perfect. For the degree of distinguishability; 50.3% were indistinguishable, 12.4% poor, 11.8% fair, 9.9% moderate, 7.6% substantial and 8.1% perfect. When each sample size was considered separately, the results obtained were similar. Conclusion: If there is no distinguishability between the categories, agreement should not be sought between the raters. The fact that the categories are important or perfectly distinguishable does not necessarily indicate that the agreement between the raters will be significant or perfectly high.
Keywords: Cohen kappa coefficient; distinguishability; binary data
- Sertdemir Y, Burgut HR, Alparslan ZN, Ünal İ, Günaştı S. Comparing the methods of measuring multi-rater agreement on an ordinal rating scale: a simulation study with an application to real data. J Appl Stat. 2013;40(7):1506-19. [Crossref]
- Ato M, Lopez JJ, Benavente A. A simulation study of rater agreement measures with 2x2 contingency tables. Psicologica. 2011;32:385-402. [Link]
- Agresti A. Modelling patterns of agreement and disagreement. Stat Methods Med Res. 1992;1(2):201-18. [Crossref] [PubMed]
- Darroch JN, McCloud PI. Category distinguishability and observer agreement. Aust J Stat. 1986;28(3):371-88. [Crossref]
- Shoukri MM. Coefficients of agreement for multiple raters and multiple categories. Measures of Interobserver Agreement. 1st ed. Boca Raton, Florida: Chapman & Hall/CRC, CRC Press LLC; 2004. p.42-3.
- Yılmaz AE, Saraçbaşı T. Agreement and adjusted degree of distinguishability for square contingency tables. Hacettepe J Math Stat. 2019;48(2):592-604. [Crossref]
- Valet F, Guinot C, Mary JY. Log-linear non-uniform association models for agreement between two ratings on an ordinal scale. Stat Med. 2007;26(3):647-62. [Crossref] [PubMed]
- Cohen J. A coefficient of agreement for nominal scales. Educ Psychol Meas. 1960;20(1):37-46. [Crossref]
- Carlini E, Rapallo F. Algebraic modelling of category distinguishability. In: Gibilisco P, Riccomagno E, Rogantin MP, Wynn HP, eds. Part I Contingency Tables: Algebraic and Geometric Methods in Statistics. 1st ed. Cambridge: Cambridge University Press; 2010. p.111-22. [Crossref]
- Saraçbaşı T, Aktaş Altunay S. Kategorik Veri Çözümlemesi. 1. Baskı. Ankara: Hacettepe Üniversitesi Basımevi; 2016.
- Ohyama T. Statistical inference of Gwet's AC1 coefficient for multiple raters and binary outcomes. Commun Stat Theory Methods. 2021;50(15):3564-72. [Crossref]
- Wongpakaran N, Wongpakaran T, Wedding D, Gwet KL. A comparison of Cohen's Kappa and Gwet's AC1 when calculating inter-rater reliability coefficients: a study conducted with personality disorder samples. BMC Med Res Methodol. 2013;13:61. [Crossref] [PubMed] [PMC]
.: Process List