Amaç: Çalışmanın amacı, farklı örneklem büyüklüklerinin tetrakorik korelasyon katsayısının değeri, %95 güven aralığı ve yanlılık değerleri üzerindeki etkilerini belirlemektir. Gereç ve Yöntemler: Tetrakorik korelasyon için Bonett ve Price (2005) tarafından önerilen yaklaşım dikkate alınarak bir simülasyon çalışması yapılmıştır. Python-random kütüphanesi kullanılarak 10≤n≤1.000 aralığında 35 farklı n değeri için veri elde edilmiş, 34.101 farklı 2x2 çapraz tablo değerlendirilmiştir. Farklı örneklem büyüklüklerine göre elde edilen tetrakorik korelasyon değerlerinin istatistiksel anlamlılıklarının değerlendirmesinde ki-kare testi kullanılmış, istatistiksel önemlilik için p<0,05 alınmıştır. Bulgular: Örneklem büyüklüğü arttıkça güven aralıkları ortalama tetrakorik korelasyon değerlerine yaklaşmakta, güven aralıkları daralmakta, istatistiksel olarak önemli ilişki ile karşılaşma yüzdesi artmaktadır. n≥45 için pozitif ve/veya negatif önemli ilişki değerlerinin sayısı önemsiz ilişki değerlerinin sayısından fazla hâle gelmektedir. Yanlılık değerleri ise örneklem büyüklüğünün artması ile birlikte gözlenen değerlerden herhangi birinin değerinin diğerlerine göre aşırı derecede farklılaşmasından etkilenmektedir. Sonuç: Tetrakorik korelasyon katsayısının değeri ve güven aralıkları hem örneklem büyüklüğü hem de gözlenen değerler ile ilişkilidir. Gözlenen değerlerden herhangi birinin değerinin diğerlerine göre aşırı derecede farklılaşması tetrakorik korelasyonun değerini önemli derecede etkilemekte, güven aralığını büyütmektedir. Örneklem büyüklüğü arttıkça, istatistiksel olarak önemli (p<0,05) ilişki ile karşılaşma yüzdesi artmaktadır. Yanlılık ise tek başına örneklem büyüklüğünün artışından değil, örneklem büyüklüğünün artması ile birlikte f11, f12, f21 ve f22 frekanslarından herhangi birinin değerinin diğerlerine göre aşırı derecede farklılaşmasından etkilenmektedir.
Anahtar Kelimeler: Tetrakorik korelasyon; sürekli verilerin dikotomizasyonu; güven aralığı tahmini; iki sonuçlu değişken
Objective: The aim of the study is to determine the effect of different sample sizes on the value of the tetrachoric correlation coefficient, the 95% confidence interval and the bias values. Material and Methods: A simulation study was carried out using the tetrachoric correlation approach proposed by Bonett and Price (2005). Using the Python-random library, data were obtained for 35 different n values in the range 10≤n≤1.000 and 34,101 different 2x2 crosstabs were evaluated. Chi-square test was used to evaluate the statistical significance of the tetrachoric correlation values obtained according to different sample sizes, and p<0.05 was considered statistically significant. Results: As the sample size increases, the confidence intervals move closer to the average tetrachoric correlation values, the confidence intervals narrow, and the percentage encountering a statistically significant relationship increases. For n≥45, the number of positive and/or negative significant association values becomes greater than the number of insignificant association values. The bias values are affected by the excessive differentiation of the value of one of the observed values compared to the others as the sample size increases. Conclusion: The value of the tetrachoric correlation coefficient and its confidence intervals depend on both the sample size and the observed values. Any extreme difference in the value of one of the observations compared to the others significantly affects the value of the tetrachoric correlation and increases the confidence interval. As the sample size increases, the percentage of associations that are statistically significant (p<0.05) increases. Bias is not only affected by the increase in sample size, but also by the extreme difference in the value of one of the frequencies f11, f12, f21 ve f22 compared to the others as the sample size increases.
Keywords: Tetrachoric correlation; dichotomization of continuous scores; confidence interval estimation; binary variables
- Demirtas H. A note on the relationship between the phi coefficient and the tetrachoric correlation under nonnormal underlying distributions. Am Stat. 2016;70(2):143-8. [Crossref]
- Juras J, Pasaric Z. Application of tetrachoric and polychoric correlation coefficients to forecast verification. Geofizika. 2006;23(1):59-82. [Link]
- Vaswani S. Assumptions underlying the use of the tetrachoric correlation coefficient. Sankhya: Indian J Stat. 1950;10(3):269-76. [Link]
- Noyan F, Gölbaşı Şimşek G. Tetrachoric correlation as a measure of default correlation. Procedia-Soc Behav Sci. 2012;62(8):1230-4. [Crossref]
- Long MA, Berry KJ, Mielke PW. Tetrachoric correlation: a permutation alternative. Educ Psychol Meas. 2009;69(3):429-37. [Crossref]
- Ekström J. The phi-coefficient, the tetrachoric correlation coefficient, and the Pearson-Yule debate. UCLA: Department of Statistics, UCLA; 2011. [Link]
- Bonett DG, Price RM. Inferential methods for the tetrachoric correlation coefficient. J Educ Behav Stat. 2005;30(2):213-25. [Crossref]
- Pearson K. Mathematical contributions to the theory of evolution. VII. On the correlation of characters not quantitatively measurable. Philos T R Soc Series A. 1900;195:1-47. [Crossref]
- El-Hashash EF, El-Absy KM. Methods for determining the tetrachoric correlation coefficient for binary variables. Asian J Probab Stat. 2018;2(3):1-12. [Crossref]
- O'Brien SF, Yi QL. How do I interpret a confidence interval? Transfusion. 2016;56(7):1680-3. [Crossref] [PubMed]
- Greer T, Dunlap WP, Beatty GO. A Monte Carlo evaluation of the tetrachoric correlation coefficient. Educ Psychol Meas. 2003;63(6):931-50. [Crossref]
- Brown MB, Benedetti JK. On the mean and variance of the tetrachoric correlation coefficient. Psychometrika. 1977;42(3):347-55. [Crossref]
.: Process List