Objective: Investigating the effects of missing data and the methods to overcome problems in statistical models caused by missingness is a significant research topic due to the complex nature of the data, which includes missing observations. The different statistical approaches used in the case of the missing data are complete case analysis and missing data imputation. It is necessary to evaluate missing data mechanisms and patterns to handle missing data issues. However, understanding the missing data mechanism is not easy in relatively large data sets. Recently, deep learning algorithms have been widely used for classification, regression, or clustering tasks in large data sets due to computational advances. The objective of this study is to present the effect of missing data mechanisms on the performance of the deep learning algorithm for binary classification problems. Material and Method: To achieve the aim of this study, an extensive simulation study was conducted using Virtual Machine on Microsoft Azure by considering the missing proportion, the correlation structure, and the mechanism of the missing in the large data set. For different missing data mechanisms, the performance of deep learning with list-wise deletion and imputation compared to the original data set was investigated. Results: It is observed that while the proportion and the mechanism of the missing affect slightly the performance of the deep learning, the correlation level of data affects relatively. Conclusion: Although slight differences were obtained from the area under the curve values, deep learning algorithms can overcome the problem caused by missingness in large data sets.
Keywords: Missing data; missing data imputation; missing data mechanism; deep learning
Amaç: Eksik gözlemin etkisi ve istatistiksel modellemede eksik gözlem kaynaklı problemlerin çözümü, eksik gözlem içeren verilerin karmaşık yapısı nedeniyle önemli bir araştırma konusudur. Eksik gözlem söz konusu olduğunda kullanılan istatistiksel yöntemler tam gözlemlerin kullanılması ve eksik veri atamasıdır. Eksik veriden kaynaklı problemleri çözebilmek için eksik veri mekanizmalarını ve örüntülerini araştırmak gerekmektedir. Ancak büyük veri kümelerinde eksik veri mekanizmasını ve örüntüsünü anlamak kolay değildir. Son zamanlarda derin öğrenme algoritmaları, teknolojik ilerlemeler nedeniyle büyük veri kümelerinde sınıflandırma, regresyon veya kümeleme görevleri için yaygın olarak kullanılmaktadır. Bu çalışmanın amacı, ikili sınıflandırma problemleri için eksik veri mekanizmalarının derin öğrenme algoritmasının performansı üzerindeki etkisini ortaya koymaktır. Gereç ve Yöntemler: Bu çalışmanın amacına ulaşmak için büyük veri setindeki eksik gözlem oranı, korelasyon yapısı ve eksik veri mekanizması dikkate alınarak Microsoft Azure üzerinde Sanal Makine kullanılarak kapsamlı bir simülasyon çalışması yapılmıştır. Farklı kayıp veri mekanizmaları için tam gözlem ve eksik veri ataması yapılan veri kümelerinin orijinal veri kümeleriyle karşılaştırılması yapılmıştır. Bulgular: Kayıpların oranı ve mekanizması derin öğrenmenin performansını biraz etkilerken, verilerin korelasyon düzeyinin göreceli olarak etkilediği görülmektedir. Sonuç: Eğri altında kalan alan değerlerinde küçük farklılıklar elde edilmiş olsa da derin öğrenme algoritmaları büyük veri setlerinde eksik veriden kaynaklanan problemin üstesinden gelebilmektedir.
Anahtar Kelimeler: Eksik veri; eksik veri atama; eksik veri mekanizması; derin öğrenme
