Objective: In this paper, the selection of the models evaluated using by three penalized regression splines; cubic splines, p-splines, and thin-plate splines are compared to linear models where the multicollinearity exists among covariates at different parameters and a response variable including outliers. Material and Methods: Generalized additive models (GAM) are extension of additive models as generalized linear models are to ordinary linear regression models. Different approaches of fitting these kinds of models that is the penalized regression techniques for representing generalized additive models are used in this study. Results: To examine the tolerance of the effect of multicollinearity and outliers and for the selection of these models and linear regression models, AIC and deviance are used. In all the situations, cubic splines regression models produced a smaller mean deviance in the presence of multicollinearity. On the other hand, cubic splayn regression models loses its dominance of producing smaller mean deviance when outliers are included to the data. It is remarkable that with the increase of sample size the number of times the psplines method produced a smaller deviance. Conclusion: Results of the simulations showed that the GAMs fitted using these nonparametric regression techniques are less prone to multicollinearity and outliers compared to their parametric counterparts.
Keywords: Outlier; correlation; deviance; penalized
Amaç: Bu çalışmada, yanıt değişkeninin aykırı değer ve açıklayıcı değişkenler arasında farklı düzeylerde çoklu bağlantının varlığı söz konusu olduğunda, üç farklı regresyon splaynlarının; kübik splayn, p-splayn ve ince tabakalı splayn tabanlı modellerin, doğrusal regresyon modelleri ile karşılaştırılması ve model seçimi üzerinde durulmuştur. Gereç ve Yöntemler: Doğrusal regresyon modellerinin genelleştirilmiş doğrusal modellerin bir uzantısı olması gibi genelleştirilmiş toplamsal modeller de toplamsal modellerin bir uzantısıdır. Genelleştirilmiş toplamsal modelleri oluşturmak için, cezalı regresyon splaynları bu tür modellerin veriye uyumu için kullanılan değişik yaklaşımlardan bazıları olup bu çalışmada kullanılmıştır. Bulgular: Çoklu bağlantı ve aykırı değerin modeller üzerindeki etkilerini incelemek ve model seçimi yapabilmek için AIC ve sapma ölçüleri kullanılmıştır. Bütün durumlarda kübik splayn regresyon modelleri, çoklu bağlantı varlığında, diğerlerine göre daha küçük sapma değerleri elde etmiştir. Öte yandan, kübik splayn regresyon modelleri, veriye aykırı değerler dahil edildiğinde, daha küçük sapmalı model etme başarısını gösterememiştir. P-splayn modellerinin örnek hacmi artırıldığında, daha küçük sapma değerleri veren modeller elde etmesi dikkat çekicidir. Sonuç: Benzetim çalışması sonuçları, parametrik olmayan regresyon tekniklerinin, doğrusal regresyon modellerine göre aykırı değer ve çoklu bağlantıdan daha az etkilendiğini göstermiştir.
Anahtar Kelimeler: Aykırı değer; korelasyon; sapma; cezali
- Belsley DA. A guide to using the collinearity diagnostics. Computer Science in Economics and Management. 2011;4(1):33-50.
- Alimadad A, Salibian-Barrera M. An outlier-robust fit for generalized additive models with applications to disease outbreak detection. J Am Stat Assoc. 2011;106(494):719-31. [Crossref]
- Wong RKW, Yao F, Lee TCM. Robust estimation for generalized additive models. J Comput Graph Stat. 2013;23(1):270-89. [Crossref]
- Hastie TJ, Tibshirani RJ. Generalized Additive Models (Chapman & Hall/CRC Monographs on Statistics and Applied Probability). 1st ed. Routledge: Chapman and Hall/CRC; 1990. p.352.
- Faraway JJ. Extending the Linear Model with R: Generalized Linear, Mixed Effects and Nonparametric Regression Models. 1st ed. Ann Arbor: Taylor and Francis Group, LLC; 2006. p.312.
- Wood SN. Mixed GAM Computation Vehicle with Automatic Smoothness Estimation, R package version 1.8-31. 2018. https://CRAN.R-project.org/package=mgcv
- Nelder JA, Wedderburn RWM. Generalized linear models. J R Stat Soc Series A, 3. 1972;135(3):370-84. [Crossref]
- Montgomery DC, Peck EA, Vining GG. Introduction to Linear Regression Analysis. 5th ed. Hoboken, New Jersey: Wiley; 2012. p.672.
- Wood SN. Generalized Additive Models; An Introduction with R. 2nd ed. Routledge: Chapman and Hall/CRC; 2006. p.154-5.
- McCullagh P, Nelder JA. Generalized Additive Models. 2nd ed. Routledge: Chapman and Hall/CRC; 1989. p.532. [Crossref] [PMC]
- Eberly D. Ridges in Image and Data Analysis. 1st ed. Netherland: Kluwer Academic Publishers; 1996. p.215. [Crossref]
- Keele L. Semiparametric Regression for the Social Sciences. 1st ed. Chichester, England; Hoboken, NJ: Wiley; 2008. p.230. [Crossref]
- Ruppert D, Wand MP, Caroll RJ. Semiparametric Regression. 1st ed. Cambridge: Cambridge University Press; 2003. p.386. [Crossref]
- Green PJ, Silverman BW. Nonparametric Regression and Generalized Linear Models: A Roughness Penalty Approach. 1st ed. U.S.A.: Chapman and Hall/CRC; 1994. p.184. [Crossref]
- Eilers PHC, Marx DB. Flexible smoothing with B-splines and penalties. Stat Sci. 1996;11(2):89-121. [Crossref]
- Wood SN. Thin plate regression splines. J R Stat Soc: Series B (Statistical Methodology). 2003;65(1):95-114. [Crossref]
- Agresti A. Foundations of Linear and Generalized Linear Models. 1st ed. Hoboken, New Jersey: John Wiley & Sons Inc.; 2015. p.480.
- Myers RH, Montgomery DC, Vining GG, Robinson T. Generalized Linear Models: with Applications in Engineering and the Sciences. 2nd ed. Hoboken, N.J.: Wiley; 2010. p.496. [Crossref]
- Venables WN, Ripley BD. Modern Applied Statistics with S. 4th ed. New York: Springer; 2002. p.498. [Crossref]
- McDonald GC, Galarneau DI. A Monte Carlo evaluation of some ridge-type estimators. J Am Stat Assoc. 1975;70(350):407-16. [Crossref]
- Månsson K, Shukur G, Sjölander P. A New Ridge Regression Causality Test in the Presence of Multicollinearity. HUI Working Papers 37, HUI Research; 2010.
- R Development Core Team, R: A Language And Environment For Statistical Computing Vienna, Austria, R Foundation for Statistical Computing. http://www.R-project.org, 2013.
.: Process List