Objective: This study adapts propensity score methodology for estimating causal effects in observational studies, particularly addressing the challenges of missing semi-continuous covariate data in environmental epidemiology. Material and Methods: Data were drawn from the Detroit Longitudinal Cohort Study, which examines prenatal alcohol exposure's impact on child cognitive development. The dataset includes maternal self-reports of alcohol and drug use during pregnancy, alongside biological assay results. A significant portion of the covariates, such as maternal substance use, exhibit a semi-continuous distribution with excess zero values and a long tail. Missing data in these covariates pose a risk to valid causal inference. To address this, we used the R package MICE for multiple imputation, incorporating maternal characteristics, socioeconomic indicators, and child neurodevelopmental outcomes. Additionally, a two-part modeling approach accounted for the distinct zero-inflated nature of the covariates. Misclassification correction techniques reconciled discrepancies between biological assays and maternal self-reports, particularly for illicit drug use, by adjusting sensitivity and specificity during the imputation process. Propensity scores for gestational alcohol exposure were estimated using the imputed datasets to ensure balanced covariates across exposure groups. Results: Our method performed well, particularly in scenarios with high percentages of zeros and missing observations in the semi-continuous covariates. Conclusion: This approach provides robust estimates of propensity scores, enhancing causal inference in studies involving maternal behaviors and childhood cognition.
Keywords: Multiple imputation for semi-continuous covariates; propensity score with partially observed covariates; Detroit Longitudinal Cohort Study; two-part structure; misclassification
Amaç: Bu çalışma, gözlemsel çalışmalarda nedensel etkilerin tahmin edilmesinde eğilim skor metodolojisini uyarlamaktadır, özellikle çevresel epidemiyolojide kısmi-sürekli kovaryat verilerinin eksikliği ile ilgili zorluklara odaklanmaktadır. Gereç ve Yöntemler: Veriler, gebelikte alkol maruziyetinin çocuk bilişsel gelişimi üzerindeki etkisini inceleyen Detroit Boylamsal Kohort Çalışmasından alınmıştır. Veri seti, gebelik sırasında anne tarafından bildirilen alkol ve ilaç kullanımı ile biyolojik test sonuçlarını içermektedir. Kovaryatların önemli bir kısmı, anne madde kullanımı gibi fazla sıfır değeri ve uzun kuyruklu dağılımlar sergileyen kısmi-sürekli bir dağılıma sahiptir. Bu kovaryatlarda eksik veriler, geçerli nedensel çıkarım için risk oluşturur. Bu durumu ele almak için anne özellikleri, sosyoekonomik göstergeler ve çocuk nörogelişimsel sonuçları içeren çoklu imputasyon için R paketi MICE kullanılmıştır. Ayrıca, kovaryatların sıfır şişirilmiş doğasını hesaba katmak için iki parçalı modelleme yaklaşımı uygulanmıştır. Yanıltıcı sınıflandırma düzeltme teknikleri, biyolojik testler ile anne raporları arasındaki uyumsuzlukları, özellikle yasa dışı ilaç kullanımı için, imputasyon sürecinde duyarlılık ve özgüllük ayarlamaları yaparak uyumlu hâle getirmiştir. Gestasyonel alkol maruziyeti için eğilim skoru, impute edilmiş veri setleri kullanılarak tahmin edilmiştir ve bu sayede maruziyet grupları arasında dengeli kovaryatlar sağlanmıştır. Bulgular: Yöntemimiz, özellikle kısmi-sürekli kovaryatlarda yüksek sıfır oranları ve eksik gözlemler bulunan senaryolarda iyi performans göstermiştir. Sonuç: Bu yaklaşım, maternal davranışlar ve çocuk bilişi ile ilgili çalışmalarda nedensel çıkarımı geliştiren sağlam eğilim skoru tahminleri sunmaktadır.
Anahtar Kelimeler: Kısmi-sürekli kovaryatlar için çoklu imputasyon; kısmi gözlemlenen kovaryatlar ile eğilim skoru; Detroit Boylamsal Kohort Çalışması; iki parçalı yapı; yanıltıcı sınıflandırma
- Imai K, van Dyk DA. Causal Inference with General Treatment Regimes. J Am Stat Assoc. 2004;99(467):854-66. [Crossref]
- Akkaya Hocagil T, Cook RJ, Jacobson SW, Jacobson JL, Ryan LM. Propensity Score Analysis for a Semi-Continuous Exposure Variable: A Study of Gestational Alcohol Exposure and Childhood Cognition. J R Stat Soc Ser A Stat Soc. 2021;184(4):1390-413. [Crossref] [PubMed] [PMC]
- Rubin DB, Thomas N. Matching Using Estimated Propensity Scores: Relating Theory to Practice. Biometrics. 1996;52(1):249. [Crossref]
- Rubin DB. Inference and Missing Data. Biometrika. 1976;63(3):581. [Crossref]
- Little RJA, Rubin DB. Statistical Analysis with Missing Data. Wiley; 2002. [Crossref]
- Carpenter JR, Kenward MG. Multiple Imputation and its Application. Wiley; 2013. [Crossref]
- Leyrat C, Seaman SR, White IR, Douglas I, Smeeth L, Kim J, et al. Propensity score analysis with partially observed covariates: How should multiple imputation be used? Stat Methods Med Res. 2019;28(1):3-19. [Crossref] [PubMed] [PMC]
- Mitra R, Reiter JP. A comparison of two methods of estimating propensity scores after multiple imputation. Stat Methods Med Res. 2016;25(1):188-204. [Crossref] [PubMed]
- Coffman DL, Zhou J, Cai X. Comparison of methods for handling covariate missingness in propensity score estimation with a binary exposure. BMC Med Res Methodol. 2020;20(1):168. [Crossref] [PubMed] [PMC]
- Vink G, Frank LE, Pannekoek J, van Buuren S. Predictive mean matching imputation of semicontinuous variables. Stat Neerl. 2014;68(1):61-90. [Crossref]
- Van Buuren S. Multiple imputation of multilevel data. The Handbook of Advanced Multilevel Analysis; 2011. p.173-96.
- White IR, Wood AM. Tutorial in Biostatistics Multiple imputation using chained equations: Issues and guidance for practice. 2011; (July 2010). [Crossref] [PubMed]
- Lee KJ, Carlin JB. Multiple imputation for missing data: Fully conditional specification versus multivariate normal imputation. Am J Epidemiol. 2010;171(5):624-32. [Crossref] [PubMed]
- Burton A, Billingham LJ, Bryan S. Cost-effectiveness in clinical trials: using multiple imputation to deal with incomplete cost data. Clinical Trials. 2007;4(2):154-61. [Crossref] [PubMed]
- Su YS, Gelman A, Hill J, Yajima M. Multiple Imputation with Diagnostics (mi) in R : Opening Windows into the Black Box. J Stat Softw. 2011;45(2). [Crossref]
- Rubin DB. Multiple Imputation for Nonresponse in Surveys. Wiley; 1987. [Crossref]
- Buuren S van, Groothuis-Oudshoorn K. mice: Multivariate Imputation by Chained Equations in R. J Stat Softw. 2011;45(3). [Crossref]
- Nguyen CD, Moreno‐Betancur M, Rodwell L, Romaniuk H, Carlin JB, Lee KJ. Multiple imputation of semi‐continuous exposure variables that are categorized for analysis. Stat Med. 2021;40(27):6093-106. [Crossref] [PubMed]
- Jacobson SW, Chiodo LM, Sokol RJ, Jacobson JL. Validity of Maternal Report of Prenatal Alcohol, Cocaine, and Smoking in Relation to Neurobehavioral Outcome. Pediatrics. 2002;109(5):815-25. [Crossref] [PubMed]
- Hollingshead L, Childs RA. Reporting the Percentage of Students above a Cut Score: The Effect of Group Size. Educational Measurement: Issues and Practice. 2011;30(1):36-43. [Crossref]
- Harel O, Mitchell EM, Perkins NJ, Cole SR, Tchetgen Tchetgen EJ, Sun B, et al. Multiple Imputation for Incomplete Data in Epidemiologic Studies. Am J Epidemiol. 2018;187(3):576-84. [Crossref] [PubMed] [PMC]
- King C, Englander H, Priest KC, Korthuis PT, McPherson S. Addressing Missing Data in Substance Use Research: A Review and Data Justice-based Approach. J Addict Med. 2020;14(6):454-6. [Crossref] [PubMed] [PMC]
.: Process List