This paper introduces an estimation procedure for the right-censored nonparametric regression model using smoothing spline method. In this process, to overcome the censorship problem we used an imputation method based on k-nearest neighbors (kNN). Among some known censorship solutions, such as Kaplan-Meier weights (Kaplan and Meier, Miller) and Synthetic data transformation (Koul et al.), the most important advantage of the kNN imputation method is that it does not depend on a distribution. After solving the problem of censorship, the most important problem in obtaining the optimal estimation of non1parametric regression function by using smoothing spline will be the selection of the smoothing parameter. In order to achieve this aim, three commonly used criteria such as generalized cross-validation (GCV), Bayesian information criterion (BIC) and risk estimation using classical pilots (RECP) are considered in this study. A Monte-Carlo simulation study and a 'kidney infection recurrence' data are carried out to realize the purposes of this study. Thus, it is determined that which selection criterion is more successful in estimating the non-parametric model with right censored data. Obtained results from both simulation and real-world studies show that BIC has remarkable performance among others. Also, it can be seen that GCV is better than BIC for large sample size. RECP has mediocre performance.
Keywords: Censored data; Nonparametric regression; Smoothing spline; kNN imputation; Smoothing parameter
Bu makalede, düzleştirici splayn yöntemi kullanılarak sağdan sansürlü parametrik olmayan regresyon modeli için bir tahmin prosedürü sunulmaktadır. Bu süreçte, sansür sorununun üstesinden gelmek için, en yakın komşulara (kNN) dayanan bir tamamlama (yerine koyma) yöntemi kullanıldı. Kaplan-Meier ağırlıkları (Kaplan ve Meier, Miller) ve Sentetik veri dönüşümü (Koul ve ark.) gibi bilinen bazı sansür çözümleri arasında, kNN değerleme yönteminin diğerlerine göre en önemli avantajı, bir dağılıma bağlı olmamasıdır. Sansür problemini çözdükten sonra, düzeltme parametresi kullanarak parametrik olmayan regresyon fonksiyonunun en uygun tahminini elde etmedeki en önemli problem, düzeltme parametresi seçimi olacaktır. Bu amaca ulaşmak için, genelleştirilmiş çapraz doğrulama (GCV), Bayes bilgi kriteri (BIC) ve klasik pilotlar kullanılarak risk tahmini (RECP) gibi yaygın olarak kullanılan üç kriter ele alınarak düzeltme parametresi seçilmiştir. Bu çalışmanın amaçlarını gerçekleştirmek için bir Monte-Carlo simülasyon çalışması ve 'böbrek enfeksiyonun tekrar etmesi' verileri ile uygulama çalışması yapılmıştır. Böylelikle parametrik olmayan regresyon modelinin sağdan sansürlü verilerle tahmin edilmesinde hangi seçim kriterinin daha başarılı olduğu tespit edilmiştir. Hem simülasyon hem de gerçek veri çalışmalardan elde edilen sonuçlara göre, BIC yönteminin diğerleri arasında dikkate değer bir performansa sahip olduğu kolaylıkla görülmektedir. Ayrıca, GCV yönteminin büyük örneklem büyüklüğü için BIC'den daha iyi sonuçlar verdiği söylenebilir. RECP yöntemi ise diğer iki yönteme göre vasat bir performans sergilemiştir.
Anahtar Kelimeler: Sansürlü veri; Parametrik olmayan regresyon; Splayn düzeltme; kNN tamamlama; Düzeltme parametresi
- Kaplan EL, Meier P. Nonparametric estimation from incomplete observations. J Am Stat Assoc. 1958;53(282):457-81. [Crossref]
- Miller RG. Least squares regression with censored data. Biometrika. 1976;63(3):449-64. [Crossref]
- Koul H, Susarla V, Van Ryzin J. Regression analysis with randomly right-censored data. Ann Stat. 1981;9(6)1276-88. [Crossref]
- Stute W. Consistent estimation under random censorship when covariables are present. Journal of Multivariate Analysis (JMVA). 1993;45(1):89-103. [Crossref]
- Orbe J, Ferreira E, Núñez-Antón V. Censored partial regression. Biostatistics. 2003;4(1):109-21. [Crossref] [PubMed]
- Leurgans S. Linear models, random censoring and synthetic data. Biometrika. 1987;74(2):301-9. [Crossref]
- Aydin D, Yilmaz E. Modified spline regression based on randomly right-censored data: a comparative study. Communications in Statistics-Simulation and Computation. 2018;47(9):2587-611. [Crossref]
- Schafer JL. Analysis of Incomplete Multivariate Data. 1st ed. London: Chapman & Hall; 1997. p.448.
- Batista G, Monard M. An analysis of four missing data treatment methods for supervised learning. Applied Artificial Intelligence. 2003;17(5-6):519-33. [Crossref]
- Rubin DB, Van der Laan MJ. A general methodology for nonparametric regression with censored data, U.C. Berkeley Division of Biostatistics Working Paper Series. 2005. [Crossref]
- Yenduri S, Iyengar SS. Performance evaluation of imputation methods for incomplete datasets. International Journal of Software Engineering and Knowledge Engineering (IJSEKE). 2007;17(1):127-52. [Crossref]
- Andridge RR, Little RJ. A review of hot deck imputation for survey non-response. Int Stat Rev. 2010;78:40-64. [Crossref] [PubMed] [PMC]
- Li D, Deogun J, Spaulding W, Shuart B. Towards missing data imputation: a study of Fuzzy K-means clustering method. International Conference on Rough Sets and Current Trends in Computing. 2004;573-9. [Crossref]
- Troyanskaya O, Cantor M, Sherlock G, Brown P, Hastie T, Tibshirani R, et al. Missing value estimation methods for DNA microarrays. Bioinformatics. 2001;17(6):520-5. [Crossref] [PubMed]
- Malarvizhi R, Thanamani AS. Framework for missing value imputation. International Journal of Engineering Research and Development (IJERD). 2012;4(7):14-6.
- Chen J, Shao J. Nearest Neighbor imputation for survey data. J Offic Stat. 2000;16(2):113-31.
- Cartwright MH, Shepperd MJ, Song Q. Dealing with missing software project data. Proceedings of the 9th International Software Metrics Symposium. Sydney, Australia. 2003. p.154-65.
- Craven P, Wahba G. Smoothing noisy data with spline functions. Num Math. 1979;31(4):377-403. [Crossref]
- Schwarz G. Estimating the dimension of a model. Ann Statist. 1978;6(2):461-4. [Crossref]
- Lee TCM. Smoothing parameter selection for smoothing splines: a simulation study. Computational Statistics & Data Analysis (CSDA). 2003;42(1-2):13948. [Crossref]
- McGilchrist CA, Aisbett CW. Regression with frailty in survival analysis. Biometrics. 1991;47(2):461-6. [Crossref] [PubMed]
.: Process List