Sağdan sansürlü veri, başta klinik deneyler ve sağlık alanı olmak üzere biyoloji, endüstri, ekonomi, genetik ve bu alanlarla ilişkili birçok landa karşımıza çıkmaktadır. Bu veri türünün en önemli karakteristik özelliği, ilgilenilen kişi veya nesne ile ilgili tamamlanmamış gözlemeler içermesidir. Modelleme çalışmalarında, tamamlanmamış gözlemler yanlı ve tutarsız sonuçlara neden olduğundan, bu sorunun çözülmesi için çeşitli yöntemler geliştirilmiştir. Bu çalışmada, literatürde var olan ve sağdan sansürlü verilerin modelleme sürecine dâhil olabilmesi için kullanılan birçok farklı yöntem incelenmiştir. Bu yöntemlerden bazıları; Kaplan-Meier ağırlıkları, Gaussian ve kNN yerine koyma yöntemi, Sentetik veri dönüşümleri olarak sıralanbilir. Genellikle, sağdan sansürlü veri noktaları bilinmediğinden veya kısmi olarak bilindiğinden, bu gözlemlere ait dağılımlar hakkında bazı varsayımlar kabul edilerek klasik istatistiksel analiz ve modelleme yöntemleri kullanılabilmektedir. Buna ek olarak, dağılım varsayımlarına dayanmayan bazı parametrik olmayan yöntemler kullanılarak da bu gözlemler tahmin edilebilmektedir. Bu iki ana başlık dışında, çok tercih edilmese de sansürlü veri noktalarının veri setinden atılmasıda mevcut yöntemlerden biri olarak söylenebilir. Bu çalışmada, önerilmiş en basit yöntemlerden en gelişmiş yöntemlere kadar, sağdan sansürlü verilerin regresyon analizine dâhil edilmesi için önerilen çözüm yöntemleri aşamalar halinde sunulmuştur ve bu yöntemlerin sansürün etkisini ne kadar yansıtabildiği anlatılmaya çalışılmıştır. Bu çalışmanın temel amacı, verilerin regresyon modeline eklenmesinden önce, verinin içerdiği sansür durumu için gerekli düzenlemelerin yapılmasını sağlayan yöntemlerin incelenmesidir. Elbette var olan bütün yöntemlerin incelenmesi mümkün olmadığından, literatürde en sık kullanılan yöntemler seçilmiştir.
Anahtar Kelimeler: Sağdan sansürlü veri; regresyon analizi; sansür çözüm yöntemleri; Kaplan-Meier ağırlıkları; kNN yerine koyma yöntemi
Right-censored data is encountered in many areas related to biology, industry, economics, genetics and related fields, primarily clinical trials and health field. The most important characteristic of this data type is that it contains incomplete observations of the person or object of interest. In modeling studies, as incomplete observations result in biased and inconsistent results, several methods have been developed to solve this problem. In this study, many different methods which are used in the literature to be included in the modeling process of right and censored data are examined. Some of these methods can be ordered as follows: Kaplan-Meier weights, Gaussian and kNN imputation methods and synthetic data transformations. Generally, since the censored data points are unknown or can be partially known, classical statistical analysis and modeling methods can be used by assuming some assumptions about the distributions of these observations. In addition, these observations can be estimated using some nonparametric methods which are not based on distribution assumptions. Apart from these two main headings, it is possible to say that the censored data points are removed from the data set even if they are not preferred. In this study, the proposed solution methods for inclusion of right-censored data into regression analysis are presented in stages, from the simplest methods to the most advanced methods, and it is tried to explain how these methods can reflect the effect of censorship. The main purpose of this study is to examine the methods that allow the necessary arrangements for the censorship of the data before the data is added to the regression model. Of course, it is not possible to examine all the existing methods, the most commonly used methods are selected in the literature.
Keywords: Right-censored data; regression analysis; solution methods for censorship; Kaplan-Meier weights; kNN imputation Method
- Kaplan EL, Meier P. Nonparametric estimation from incomplete observations. J Am Stat Assoc. 1958;53(282):457-81. [Crossref]
- Miller RG. Least squares regression with censored data. Biometrika. 1976;63(3):449-64. [Crossref]
- Stute W. Consistent estimation under random censorship when covariables are present. J Multivar Anal. 1993;45(1):89-103. [Crossref]
- Stute W. The central limit theorem under random censorship. Ann Stat. 1995;23(2):422-39. [Crossref]
- Stute W. Nonlinear censored regression. Statistica Sinica. 1999;9:1089-102.
- Miller R, Halpern J. Regression wtih censored data. Biometrika. 1982;69(3):521-31. [Crossref]
- Cox DR. Regression models and life-tables (with discussion). Journal of Royal Statistics Society B. 1972;34(2):187-220. [Crossref]
- Buckley J, James I. Linear regression with censored data. Biometrika. 1979;66(3):429-36. [Crossref]
- Koul H, Susarla V, Van Ryzin J. Regression analysis wtih randomly right-censored data. Ann Statist. 1981;9(6):1276-85. [Crossref]
- Wang QH, Li G. Empirical likelihood semiparametric regression analysis under random censorship. J Multivar Anal. 2002;83(2):469-86. [Crossref]
- Chen S, Khan S. Semiparametric estimation of a partially linear censored regression model. Econometric Theory. 2001;17(3):567-90. [Crossref]
- Dikta G. The strong law under semiparametric random censorship models. J Stat Plan Inference. 2000;83:1-10. [Crossref]
- Wang QH, Zheng ZG. Asymptotic properties for the semiparametric regression model with randomly censored data. Science in China Series A. 1997;40(9):945-57. [Crossref]
- Leurgans S. Linear models, random censoring and synthetic data. Biometrika. 1987;74(2):301-9. [Crossref]
- Lai TL, Ying Z, Zheng ZK. Asymtotic normality of a class of adaptive statistics with applications to synthetic data methods for censored regression. J Multivar Anal. 1995;52(2):259-79. [Crossref]
- Qin G, Jing B. Asymptotic properties for estimation of partial linear models with censored data. J Stat Plan Inference. 2000;84(1-2):95-110. [Crossref]
- Powell JL. Least absolute deviations estimation for the censored regression model. J Econom. 1984;25(3):303-25. [Crossref]
- Fan J, Gijbels I. Censored regression: local linear appriximations and their applications. J Am Stat Assoc. 1994;89(426):560-70. [Crossref]
- Ritov Y. Estimation in a linear regression model with censored data. Ann Stat. 1990;18(1):303-28. [Crossref]
- Tsiatis AA. Estimating regression parameters using linear rank tests for censored data. Ann Stat. 1990;18(1):354-72. [Crossref]
- Breslow N, Crowley J. A large sample study of the life table and product limit estimates under random censorship. Ann Statist. 1974;2(3):437-53. [Crossref]
- Wei LJ, Ying Z, Lin DY. Linear regression analysis of censored survival data based on rank tests. Biometrika. 1990;77(4):845-51. [Crossref]
- Zhou M. Asymptotic normality of the 'synthetic data' regression estimator for censored survival data. Ann Statist. 1992;20(2):1002-21. [Crossref]
- Park JW, Genton MG, Ghosh SK. Censored time series analysis with autoregressive moving average models. Can J Stat. 2007;35(1):151-68. [Crossref]
- Stute W, Wang JL. The strong law under random censorship. Ann Statist. 1993;21(3):146-56. [Crossref]
- Yılmaz E, Aydın D. A comparison of two methods for estimating censored linear regression models. International Journal of Statistics in Medical and Biological Research. 2017;1, 1-8.
- Aydın D, Yılmaz E. Modified spline regression based on randomly right-censored data: a comparative study. Commun Stat Simul Comput. 2018;47(9):2587-611. [Crossref]
- Aydın D, Yılmaz E. Modified estimators in semiparametric regression models with right-censored data. J Stat Comput Simul. 2018;88(8):1470-98. [Crossref]
- Batista G, Monard M. An analysis of four missing data treatment methods for supervised learning. Applied Artificial Intelligence, 2003;17(5-6):519-33. [Crossref]
- Strike K, El Emam K, Madhavji N. Software cost estimation with incomplete data. IEEE Transactions on Software Engineering. 2001;27:890-908. [Crossref]
- Ahmed SE, Aydın D, Yılmaz E. Nonparametric regression estimates based on imputation techniques for right-censored data. Proceedings of the Thirteenth International Conference on Management Science and Engineering Management. 2019;109-20. [Crossref]
.: Process List