Objective: In study designs, the statistical power to detect a desired effect size with a specified Type-1 error is computed with the assumption that the p-value distribution under the null hypothesis follows Uniform[0.1]. However, even small departures from this assumption may inflate or deflate the statistical power beyond expectations. In this study, we illustrated the departure of the p-value distribution from Uniform[0,1] for common tests and we proposed an empirical correction to the null p-value distribution. Material and Methods: Using statistical simulation techniques, we illustrated the p-value distributions of numerous commonly used hypothesis tests under the null hypothesis, quantified their departures from Uniform[0,1], and proposed a p-value correction algorithm called 'Uniformitization'. We then graphically illustrated and discussed the level of correction with this Uniformitization approach in the corresponding p-value distribution. Results: Other than Z-test as expected and the Student t-test to most degree, all other tests we used showed non-ignorable departures from Uniform[0.1]. Our Uniformitization approach corrects the p-value distribution and brings them much closer to Uniform[0,1] especially for continuous response. Although still substantial, the correction level is limited with binary and survival response variables due to the discrete nature of these outcome variables. Conclusions: The requirement that the null-distribution of p-values be Uniform[0,1] is an indispensable one to make sure that the obtained statistical power is really where it should be, and our Uniformitization approach provides such corrections in the null distribution of p-values when they deviate from what is theoretically assumed.
Keywords: P-value Distribution; statistical power correction; null hypothesis; type-1 error rate; type-1 error correction
Amaç: Bilimsel çalışma tasarımlarında, istatistiksel güç, hedeflenen bir etki büyüklüğünü tespit etmek için, Birinci Tip hatanın, yokluk hipotezi altında Uniform[0.1] dağıldığı varsayımı altında hesaplanır. Bununla birlikte, bu varsayımdan küçük uzaklaşmalar bile istatistiksel gücü beklentilerin ötesinde şişirebilir veya azaltabilir. Bu çalışmada, sıkça kullanılan testlerin, yokluk hipotezi altında Uniform[0,1] dağılımından uzaklaşmaları belirledik ve yokluk p-değeri dağılımına ampirik bir düzeltme algoritması önerdik. Gereç ve Yöntemler: İstatistiksel simülasyon yöntemlerini kullanarak, araştırmalarda sıkça kullanılan çok sayıda istatistiksel hipotez testinin, yokluk hipotezi altındaki p-değer dağılımlarını gösterdik, Uniform[ 0,1] dağılımından uzaklaşmaları belirledik ve 'Üniformatizasyon' olarak adlandırdığımız bir p-değeri düzeltme algoritması önerdik. Daha sonra, bu 'Üniformatizasyon' yöntemi ile, p-değeri dağılımında elde edilen düzeltmenin seviyesini grafiksel olarak gösterip, tartıştık. Bulgular: Beklendiği gibi, Z-testi ve Student-t-testi dışında, kullandığımız diğer tüm testler, Uniform[0.1] dağılımından göz ardı edilemez uzaklaşmalar gösterdi. Üniformatizasyon yaklaşımımızın, p-değeri dağılımlarında beklenen düzeltmeyi yapıp, onları özellikle sürekli hedef değiskenler için Uniform[0,1]'a yaklaştırdığı gözlendi. Bu düzeltme seviyesinin, hâla önemli olmakla birlikte, ikili ve sağkaliım yanıt değiskenleri için, onların ayrık yapıları nedeniyle, sınırlı kaldığı gözlendi. Sonuç: P-değerlerinin yokluk dağılımının Uniform[0,1] olması şartı, elde edilen istatistiksel gücün gerçekten olması gereken yerde olmasını sağlamak için vazgeçilmezdir ve bizim Üniformatizasyon yaklaşımımız, p-değerlerinde yokluk hipotezi altında teorik olarak beklenen dağılımdan uzaklaşmalar olduğunda, gereken düzeltmeyi sağlamaktadır.
Anahtar Kelimeler: P-değeri dağılımı; istatistiksel güç düzeltmesi; yokluk hipotezi; birinci tip hata oranı; birinci tip hata düzeltmesi
- Pearson KX. On the criterion that a given system of deviations from the probable in the case of a correlated system of variables is such that it can be reasonably supposed to have arisen from random sampling. The London, Edinburgh, and Dublin Philosophical Magazine and Journal of Science. 1900;50(302):157-75. [Crossref]
- Dempster AP, Schatzoff M. Expected significance level as a sensitivity index for test statistics. J Am Stat Assoc. 1965;60(310):420-36. [Crossref]
- Sackrowitz H, Samuel-Cahn E. P values as random variables-expected P values. Am Stat. 1999;53(4):326-31. [Crossref]
- Murdoch DJ, Tsai YL, Adcock J. P-values are random variables. Am Stat. 2008;62(3):242-5. [Crossref]
- Benjamini Y, Hochberg Y. Controlling the false discovery rate: a practical and powerful approach to multiple testing. J R Stat Soc Series B Stat Methodol. 1995;57(1):289-300 [Crossref]
- Fisher RA. Statistical Methods for Research Work. 2nd ed. Edinburg & London: Oliver & Boyd; 1931. p.336.
- George EO, Mudholkar GS. On the convolution of logistic random variables. Metrika. 1983;30(1):1-13. [Crossref]
- Kocak M, Zhang G, Narasimhan G, George EO, Pyne S. Differential meta-analysis for testing the relative importance of two competing null hypotheses over multiple experiments. Statistical Genomics in Journal of Indian Society of Agricultural Statistics. 2010;61(1):1-10.
- Stouffer SA, Suchman EA, DeVinney LC, Star SA, Williams RMJ. The American soldier: adjustment during army life. Am Sociol Rev. 1949;14(4):557-9. [Crossref]
- Kocak M, Mozhui K. An Application of the Bayesian periodicity test to identify diurnal rhythm genes in the brain. IEEE/ACM Trans Comput Biol Bioinform. 2018 Jul 25. Doi: 10.1109/TCBB.2018.2859971. [Epub ahead of print]. [Crossref] [PubMed]
- Robins JM, van der Vaart A, Ventura V. Asymptotic distribution of p values in composite null models. J Am Stat Assoc. 2000;95(452):1143-56. [Crossref]
- Nettleton D, Hwang JG, Caldo RA, Wise RP. Estimating the number of true null hypotheses from a histogram of p values. J Agric Biol Environ Stat. 2006;11(3):337. [Crossref]
.: Process List