Objective: Public health authorities monitor epidemiological syndromes to provide early alerts of anomalies. A variety of approaches are applied for effective surveillance systems for influenza like illness (ILI). The present study systematically scores the accuracy of algorithms used for automated and prospective infectious-disease-outbreak detection. Another objective is to improve the performance of machine-learning (ML) approaches through statistical learning. Material and Methods: In order to reflect various situations, the volume and the size of the outbreak is chosen different for each simulation. We simulate 20 yearly sets of "daily ILI visit" to emergency department (ED), which includes seasonal outbreaks as well as unusual outbreaks of varying duration and magnitude. We search which biosurveillance algorithms work best across hidden "unusual outbreaks". Results: In terms of timeliness, both settings of kNN (res-raw), RF (resraw), and LR-raw have the best performance. All ML algorithms have sensitivity results greater than 0.90, where SVM-res (0.97), EWMA (0.96), CUSUM-moderate (0.95) are the best algorithms in terms of specificity. ML algorithms all give better performance with an integrated fitted regression model. The methods which have high sensitivity and specificity together is SVM-res (0.90 and 0.97), and LR-res (0.92 and 0.83). Conclusion: The results verified that ML algorithms integrated with statistical methods can be applied to daily ED data and can be used as a real-time surveillance method for prospective monitoring of ILI cases in the emergency setting. This study can contribute to the early detection of hidden unusual outbreaks for epidemiological studies.
Keywords: Public health surveillance; outbreak detection; CUSUM; EWMA; machine learning algorithms
Amaç: Halk sağlığı yetkilileri, sıradışı gözlemler oluşması durumunda, epidemiyolojik sürveyans ile erken uyarı elde etmeyi hedefler. İnfluenza benzeri hastalıklara (influenza-like illness, ILI) ait etkin sürveyans sistemleri için çeşitli yaklaşımlar bulunmaktadır. Bu çalışmada amaç, bulaşıcı hastalık ve salgınların otomatik ve ileriye dönük tespitinde kullanılan algoritmaların gücünü sistematik bir şekilde incelemektir. Bir diğer amaç ise, istatistiksel öğrenme yoluyla makine öğrenimi (machine-learning, ML) yaklaşımlarının performansını iyileştirmektir. Gereç ve Yöntemler: Yirmi adet bir yıl uzunluğunda "ILI''ye bağlı günlük acil servis ziyaretleri" türetilmiştir. Türetilen veriler, mevsimsel salgınların yanı sıra, değişik hacimde ve boyutta olağandışı salgınları da içermektedir. Gizli "olağandışı salgınların" tespitinde hangi biyo-gözetim algoritmalarının en iyi sonucu verdiği araştırılmıştır. Bulgular: Zamanlılık açısından, Knn (res-raw), RF (res-raw) ve LR-raw uygulamaları en iyi performansa sahiptir. Tüm ML algoritmaları 0,90'dan büyük duyarlılığa sahiptir. SVM-res (0.97), EWMA (0.96), CUSUM-moderate (0.95) özgüllük açısından en iyi algoritmalardır. ML algoritmalarının tümü, regresyon modeliyle entegre şekilde kullanıldığında daha iyi performans vermektedir. Duyarlılığı ve özgüllüğü aynı anda yüksek olan yöntemler SVM-res (0.90 ve 0.97) ve LR-res (0.92 ve 0.83)'tir. Sonuç: ML algoritmaları, istatistiksel yöntemlerle entegre edilerek günlük hasta verilerine uygulandığında yüksek performans göstermektedir. Gerçek zamanlı sürveyans sistemi geliştirirken kullanılacak olan algoritmalar, araştırmada hangi performans ölçüsünün önemli olduğuna göre seçilebilir. Çalışma, epidemiyolojik çalışmalarda, gizli olağandışı salgınların erken tespitine katkıda bulunacak niteliktedir.
Anahtar Kelimeler: Halk sağlığı sürveyansı; salgın tespiti; CUSUM; EWMA; makine öğrenmesi yöntemler
- Noufaily A, Morbey RA, Colón-González FJ, Elliot AJ, Smith GE, Lake IR, et al. Comparison of statistical algorithms for daily syndromic surveillance aberration detection. Bioinformatics. 2019;35(17):3110-8. [Crossref] [PubMed] [PMC]
- Buckeridge DL. Outbreak detection through automated surveillance: a review of the determinants of detection. J Biomed Inform. 2007;40(4):370-9. [Crossref] [PubMed]
- Burkom HS, Murphy SP, Shmueli G. Automated time series forecasting for biosurveillance. Stat Med. 2007;26(22):4202-18. [Crossref] [PubMed]
- Fricker RD Jr, Hegler BL, Dunfee DA. Comparing syndromic surveillance detection methods: EARS' versus a CUSUM-based methodology. Stat Med. 2008;27(17):3407-29. [Crossref] [PubMed]
- Mofijur M, Fattah IMR, Alam MA, Islam ABMS, Ong HC, Rahman SMA, et al. Impact of COVID-19 on the social, economic, environmental and energy domains: lessons learnt from a global pandemic. Sustain Prod Consum. 2021;26:343-59. [Crossref] [PubMed] [PMC]
- van-Dijk A, Aramini J, Edge G, Moore KM. Real-time surveillance for respiratory disease outbreaks, Ontario, Canada. Emerg Infect Dis. 2009;15(5):799-801. [Crossref] [PubMed] [PMC]
- Zacher B, Ullrich A, Ghozzi S. Supervised learning for automated infectious-disease-outbreak detection. Online J Public Health Inform. 2019;11(1). [Crossref]
- Jafarpour N, Izadi M, Precup D, Buckeridge DL. Quantifying the determinants of outbreak detection performance through simulation and machine learning. J Biomed Inform. 2015;53:180-7. [Crossref] [PubMed]
- Cabatuan M, Manguerra M. Machine learning for disease surveillance or outbreak monitoring: a review. 2020 IEEE 12th International Conference on Humanoid, Nanotechnology, Information Technology, Communication and Control, Environment, and Management (HNICEM), Dec 3-7, 2020. IEEE; 2020. p.1-6. [Crossref]
- Meyer D, Dimitriadou E, Hornik K, Leisch F, Weingessel A. e1071: Misc functions of the Department of Statistics (e1071), TU Wien. R Packag version. 2014;1(3). [Link]
- Kuhn M. Building predictive models in R using the caret package. J Stat Softw. 2008;28(5):1-26. [Crossref]
- Liaw A, Wiener M. Classification and regression by randomForest. R news. 2002;2(3):18-22. [Link]
- Hyndman RJ, Khandakar Y. Automatic time series forecasting: the forecast package for R. J Stat Softw. 2008;27(3):1-22. [Crossref]
- Noufaily A, Enki DG, Farrington P, Garthwaite P, Andrews N, Charlett A. An improved algorithm for outbreak detection in multiple surveillance systems. Stat Med. 2013;32(7):1206-22. [Crossref] [PubMed]
- Kanra G, Tezcan S, Yilmaz G; Turkish National Respiratory Syncytial Virus (RSV) Team. Respiratory syncytial virus epidemiology in Turkey. Turk J Pediatr. 2005;47(4):303-8. [PubMed]
- Sparks RS, Keighley T, Muscatello D. Optimal exponentially weighted moving average (EWMA) plans for detecting seasonal epidemics when faced with non-homogeneous negative binomial counts. J Appl Stat. 2011;38(10):2165-81. [Crossref]
- Hagen KS, Fricker RD, Hanni KD, Barnes S, Michie K. Assessing the Early Aberration Reporting System's ability to locally detect the 2009 influenza pandemic. Stat Polit Policy. 2011;2(1). [Crossref]
- De Oca VM, Jeske DR, Zhang Q, Rendon C, Marvasti M. A cusum change-point detection algorithm for non-stationary sequences with application to data network surveillance. J Syst Softw. 2010;83(7):1288-97. [Crossref]
- Singh A, Thakur N, Sharma A. A review of supervised machine learning algorithms. 2016 3rd International Conference on Computing for Sustainable Global Development (INDIACom) March 16-18, 2016. Ieee; 2016. p.1310-5.
- Shmueli G, Burkom H. Statistical challenges facing early outbreak detection in biosurveillance. Technometrics. 2010;52(1):39-51. [Crossref]
.: İşlem Listesi