Amaç: Miyeloproliferatif hastalıkların tanısının konulabilmesi için Dünya Sağlık Örgütünün belirlediği hastalık tanı şeması doğrultusunda, klinisyen tarafından genetik mutasyonların varlığı incelenmektedir. Bu çalışmada; kliniğe başvuru yapmış hastaların kemik iliği ve tam kan sayımı bulgularından yola çıkılarak oluşturulabilecek model ile uygun tanı testinin tahmin edilebilmesi hedeflenmiştir. Bu doğrultuda, kliniğe başvuran hastaların zaman ve maddi açıdan tasarruf etmesi amaçlanmaktadır. Gereç ve Yöntemler: Başkent Üniversitesi Ankara Hastanesi Tıbbi Genetik Ana Bilim Dalı Genetik Hastalıklar Değerlendirme Merkezine yönlendirilmiş hastaların bulguları ele alınarak, makine öğrenmesi algoritmaları kullanılarak tahminleme yapılmıştır. Çalışma verilerine ait tanımlayıcı istatistikler medyan olarak verilmiş olup, Kruskal-Wallis test istatistiği kullanılarak istatistiksel olarak anlamlı farklılıklar araştırılmıştır. Tahminlemede Naive Bayes, K-En Yakın Komşuluk, Doğrusal Diskriminant Analizi, Destek Vektör Makineleri, Entropi Tabanlı Sınıflandırma ve Karar Ağacı gibi sınıflandırma algoritmaları kullanılmıştır. Algoritmalar ile doğruluk, özgüllük, duyarlılık gibi belirleyici değerler elde edilmiştir. Yapılan tahminlemeler elde edilen doğruluk oranlarına göre incelenmiş ve en iyi model seçilmeye çalışılmıştır. Bulgular: İncelenen tam kan sayım değerleri ile mutasyon varlığı arasında istatistiksel olarak anlamlı farklılıklar tespit edilmiştir. Ele alınan Naive Bayes, K-En Yakın Komşuluk, Doğrusal Diskriminant Analizi, Destek Vektör Makineleri, Entropi Tabanlı Sınıflandırma ve Karar Ağacı Algoritmaları ile oluşturulan modellemelerde doğruluk oranları %60 olarak saptanmıştır. Sonuç: Kullanılan makine öğrenmesi algoritmalarından elde edilen doğruluk oranı orta seviyede olmasına rağmen benzer çalışmaların literatürde yer almamış olması sebebiyle çalışma sonuçlarının alana önemli katkısının olacağı sonucuna varılmıştır.
Anahtar Kelimeler: Miyeloproliferatif hastalık; makine öğrenmesi; karar ağacı; K-en yakın komşuluk; doğrusal diskriminant analizi
Objective: In order to diagnose myeloproliferative diseases, the presence of genetic mutations is examined by the clinician in line with the disease diagnosis scheme determined by the World Health Organization. In this study, it is aimed to predict the appropriate diagnostic screening test with the model created based on bone marrow and complete blood count findings of patients who applied to the clinic. Accordingly, it is aimed to save time and financial for patients who apply to the clinic. Material and Methods: Prediction was made using the machine learning algorithms by considering the findings of patients referred to the Başkent University Ankara Hospital, Department of Medical Genetics Genetic Diseases Diagnosis Center. Descriptive statistics of the study data were given as median, and statistically significant differences were investigated using the Kruskal-Wallis test statistic. Classification algorithms such as Naive Bayes, K-Nearest Neighbor, Linear Discriminant Analysis, Support Vector Machines, Entropy Based Classification and Decision Tree were used in the estimation. With the algorithms, determinative values such as accuracy, specificity and sensitivity were obtained. The estimations made were examined according to the accuracy rates obtained and the best model was tried to be selected. Results: Statistically significant differences were found between the examined complete blood count values and the presence of mutation. The accuracy rates were found to be around 60% in the models created with Naive Bayes, K-Nearest Neighbor, Linear Discriminant Analysis, Support Vector Machines, Entropy Based Classification and Decision Tree Algorithms. Conclusion: Although the accuracy rate obtained from the machine learning algorithms used is at a moderate level, it was concluded that the results of the study would make a significant contribution to the field, since similar studies have not been included in the literature.
Keywords: Myeloproliferative disease; machine learning; decision tree; K-nearest neighbor; linear discriminant analysis
- Bahsi T, Yiğenoğlu TN. Myeloproliferatif neoplazilerde CALR, JAK2 ve MPL gen mutasyonlarının sıklığının ve birlikteliğinin değerlendirilmesi; Tek merkez deneyimi [CALR, JAK2 and MPL genes mutations in myeloproliferative neoplasms, Single center experience]. Acta Oncol Tur. 2019;52(3):388-92. [Crossref]
- Rumi E, Cazzola M. Diagnosis, risk stratification, and response evaluation in classical myeloproliferative neoplasms. Blood. 2017;129(6):680-92. [Crossref] [PubMed] [PMC]
- Türkiye Hematoloji Derneği [İnternet]. Türk Hematoloji Derneği İktisadi İşletmesi © 2008. [Erişim tarihi: 04 Kasım 2021]. Miyeloproliferatif hastalıklarda tanı ve tedavi kılavuzu. Erişim linki: [Link]
- Saeidi K. Myeloproliferative neoplasms: current molecular biology and genetics. Crit Rev Oncol Hematol. 2016;98:375-89. [Crossref] [PubMed]
- Michiels JJ, Tevet M, Trifa A, Niculescu-Mizil E, Lupu A, Vladareanu AM, et al. 2016 WHO Clinical Molecular and Pathological Criteria for Classification and Staging of Myeloproliferative Neoplasms (MPN) Caused by MPN Driver Mutations in the JAK2, MPL and CALR Genes in the Context of New 2016 WHO Classification: prognostic and Therapeutic Implications. Maedica (Bucur). 2016;11(1):5-25. [PubMed] [PMC]
- Filiz E, Karaboğa HA, Akoğul S. BIST-50 Endeksi değişim değerlerinin sınıflandırılmasında makine öğrenmesi yöntemleri ve yapay sinir ağları kullanımı [BIST-50 Index change values classification using machine learning methods and artificial neural networks]. Çukurova University Institute of Social Sciences. 2017;26(1):231-41. [Link]
- Çağlayan Akar E. Ekonometride yeni bir ufuk: Büyük veri ve makine öğrenmesi [A new horizon in econometrics: Big data and machine learning]. Social Sciences Research Journal. 2018;7(2):41-53. [Link]
- Aksu G, Doğan N. Veri madenciliğinde kullanılan öğrenme yöntemlerinin farklı koşullar altında karşılaştırılması [Comparison of learning methods used in data mining under different conditions]. Ankara University Journal of Faculty of Educational Sciences. 2018;51(3):71-100. [Crossref]
- Currie G, Hawk KE, Rohren E, Vial A, Klein R. Machine learning and deep learning in medical imaging: intelligent imaging. J Med Imaging Radiat Sci. 2019;50(4):477-87. [Crossref] [PubMed]
- Murphy KP. Machine Learning: a Probabilistic Perspective. 1st ed. Massachusetts: MIT Press; 2012.
- Frank SM, Qi A, Ravasio D, Sasaki Y, Rosen EL, Watanabe T. Supervised learning occurs in visual perceptual learning of complex natural images. Curr Biol. 2020;30(15):2995-3000.e3. [Crossref] [PubMed] [PMC]
- Vembandasamy K, Sasipriya R, Deepa E. Heart diseases detection using naive bayes algorithm. IJISET. 2015;2(9):441-4. [Link]
- Zhang Z. Naïve Bayes classification in R. Ann Transl Med. 2016;4(12):241. [Crossref] [PubMed] [PMC]
- Güldal H, Çakıcı Y. Ders yönetim sistemi yazılımı kullanıcı etkileşimlerinin sınıflandırma algoritmaları ile analizi [Analysis of course management system software users' ınteractions using classification algorithms]. Journal of Graduate School of Social Sciences. 2017;21(4):1355-67. [Link]
- Konieczny J, Stojek J. Use of the K-Nearest neighbour classifier in wear condition classification of a positive displacement pump. Sensors (Basel). 2021;21(18):6247. [Crossref] [PubMed] [PMC]
- Türk Ö. Determination of emotional status from EEG time series by using EMD based local binary pattern method. European Journal of Technique. 2020;10(2):313-21. [Crossref]
- Karakoyun M, Hacıbeyoğlu M. Biyomedikal veri kümeleri ile makine öğrenmesi sınıflandırma algoritmalarının istatistiksel olarak karşılaştırılması [Statistical comparison of machine learning classification algorithms using biomedical data sets]. Dokuz Eylül Üniversitesi Mühendislik Fakültesi Fen ve Mühendislik Dergisi. 2014;16(48):30-42. [Link]
- Hu LY, Huang MW, Ke SW, Tsai CF. The distance function effect on k-nearest neighbor classification for medical datasets. Springerplus. 2016;5(1):1304. [Crossref] [PubMed] [PMC]
- Fisher R. The Use of Multiple measurements in taxonomic problems. In Annals of Eugenics. 1936;7(2):179-88. [Crossref]
- Ye Q, Fu L, Zhang Z, Zhao H, Naiem M. Lp- and Ls-norm distance based robust linear discriminant analysis. Neural Netw. 2018;105:393-404. [Crossref] [PubMed]
- Hsu C, Chen MC, Chen LS. Intelligent ICA-SVM fault detector for non-Gaussian multivariate process monitoring. Expert Systems with Applications. 2010;37(4):3264-73. [Crossref]
- Yu H, Kim S. SVM Tutorial - Classification, Regression and Ranking, Rozenberg G, Back T, Kok JN, editor. Handbook of Natural Computing. 1st ed. Berlin: Springer; 2012. p.479-506. [Crossref]
- Chern CC, Chen YJ, Hsiao B. Decision tree-based classifier in providing telehealth service. BMC Med Inform Decis Mak. 2019;19(1):104. [Crossref] [PubMed] [PMC]
- Başbağ M, Çaçan E, Sayar M, Fırat M. Çayır-mera ve doğal alanlardan toplanan koca fiğ (Vicia narbonensis L.,) türüne ait ot kalite değerlerinin belirlenmesi ve C5.0 türüne ait algoritmasına göre lokasyon sınıflandırmasının yapılması. Çelik Ş, editör. Veri Madenciliği Yöntemleri: Tarım Alanında Uygulamaları. 1. Baskı. Rating Academy Ar-Ge Yazılım Yayıncılık Eğitim Danışmanlık ve Organizasyon Tic. Ltd. Şti.; 2020. p.115-23.
- Wu MT. Confusion matrix and minimum cross-entropy metrics based motion recognition system in the classroom. Sci Rep. 2022;12(1):3095. [Crossref] [PubMed] [PMC]
- Alan A, Karabatak M. Veri seti-sınıflandırma ilişkisinde performansa etki eden faktörlerin değerlendirilmesi [Evaluation of the factors affecting performance onthe data set-classification relationship]. Fırat University Journal of Engineering Science. 2020;32(2):531-40. [Crossref]
- Cesur S, Kınıklı S, Hatipoğlu ÇA, Arslan K, Karakök T, Demircan ŞA. Vankomisine dirençli enterokokların saptanmasında iki farklı kromojenik besiyerinin karşılaştırılması [Comparison of two different chromogenic agar for isolation of vancomycin-resistant enterococci]. Turkish Journal of Clinics and Laboratory. 2019;10(3):319-23. [Crossref]
- Erdaş ÇB, Sümer E. A Machine learning-based approach to detect survival of heart failure patients. 2020 Medical Technologies Congress (TIPTEKNO); 2020 Nov 19-20; Online:IEEE; 2020. [Crossref]
- Dilki G, Deniz Başar Ö. İşletmelerin iflas tahmininde k-en yakın komşu algoritması üzerinden uzaklık ölçütlerinin karşılaştırılması [Comparison study of distance measures using k- nearest neighbor algorithm on bankruptcy prediction]. İstanbul Commerce University Journal of Science. 2020;19(38):224-33. [Link]
- Uysal A, Altıner Ş, Çelik S, Uysal S, Çebi AH. Genetic analysis of BCR-ABL negative chronic myeloproliferative diseases at initial diagnosis and their clinical effects. Cukurova Medical Journal. 2020;45(3):933-6. [Crossref]
- Zulkeflee RH, Zulkafli Z, Johan MF, Husin A, Islam MA, Hassan R. Clinical and laboratory features of JAK2 V617F, CALR, and MPL mutations in malaysian patients with classical myeloproliferative neoplasm (MPN). Int J Environ Res Public Health. 2021 ;18(14):7582. [Crossref] [PubMed] [PMC]
- Li MY, Chao HY, Sun AN, Qiu HY, Jin ZM, Tang XW, et al. [Clinical significance of JAK2、CALR and MPL gene mutations in 1 648 Philadelphia chromosome negative myeloproliferative neoplasms patients from a single center]. Zhonghua Xue Ye Xue Za Zhi. 2017;38(4):295-300. [PubMed] [PMC]
- Lang T, Nie Y, Wang Z, Huang Q, An L, Wang Y, et al. Correlation analysis between JAK2, MPL, and CALR mutations in patients with myeloproliferative neoplasms of Chinese Uygur and Han nationality and their clinical characteristics. J Int Med Res. 2018;46(11):4650-9. [Crossref] [PubMed] [PMC]
- Akgun Cagliyan G, Keskir A. JAK2V617F and platelet functions. Clin Lymphoma Myeloma Leuk. 2015;15(2):56-7. [Crossref]
.: İşlem Listesi