Amaç: Bu çalışmanın amacı, klasik istatistiksel yaklaşımlar yerine RNA sekanslama verilerini analiz etmek için popüler makine öğrenimi ve derin öğrenme yöntemlerini kullanarak farklı bir perspektif sunmaktır. Ayrıca makine öğrenimi ve derin öğrenme konularında bilgi sağlamaktır. Gereç ve Yöntemler: Makine öğrenimi ve derin öğrenme yöntemlerini kullanarak, astım ve böbrek transplantasyonuna ait iki farklı ham veri seti (GSE85567 ve GSE129166) ''National Center for Biotechnology Information'' veri tabanından indirilmiş ve gerekli kalite kontrol ve hizalama prosedürlerinden geçirilmiştir. Hasta-kontrol ayrımını elde etmek için rastgele orman [random forest (RF)], destek vektör makineleri [support vector machines (SVM)] ve derin sinir ağları [deep neural networks (DNN)] modelleri uygulanmıştır. Tüm veri setleri aşırı uyumu önlemek amacıyla %67,5 eğitim, %10 test ve %22,5 doğrulama verisi olarak bölünmüş ve modellerin eğitim aşamalarında 10-katlı çapraz geçerlilik kullanılmıştır. Makine öğrenimi ve derin öğrenme için Python programlama dili ve veri işleme için Unix işletim (AT&T Bell Laboratuvarları, ABD) sistemi kullanılmıştır. Bulgular: GSE129166 veri setinde RF modelinin validasyon setinde elde ettiği doğruluk oranı 0,89 olarak hesaplanmıştır. Bu modelin hassasiyeti 0,88 ve duyarlılığı 0,92 olarak belirlenmiştir. SVM modeli validasyon setinde elde ettiği doğruluk oranı 0,88 olarak ölçülmüş, test setinde ise 0,87 olarak belirlenmiştir. GSE85567 veri seti için RF modelinin validasyon setinde doğruluk oranı 0,73 olarak ölçülmüştür. SVM için validasyon setinde doğruluk oranı 0,70 olarak ölçülmüş, DNN için ise 0,75 olarak ölçülmüştür. Sonuç: GSE85567 veri seti üzerinde yapılan çalışma, RF ve SVM modellerinin yüksek doğruluk ve performans sergilediğini göstermektedir. DNN modeli ise daha dengeli bir hassasiyet ve duyarlılık oranına sahip olup, önemli bir alternatif olarak gözlemlenmiştir. Üç modelin RNA-sekanslama verileri için hasta-kontrol sınıflaması için uygun olduğu sonucuna varılmıştır.
Anahtar Kelimeler: RNA sekanslama verileri; makine öğrenimi; derin öğrenme
Objective: The aim of this study is to provide a different perspective on the analysis of RNA sequencing data by employing popular machine learning and deep learning methods, rather than classical statistical approaches. Additionally, it aims to provide insights into machine learning and deep learning concepts. Material and Methods: Utilizing machine learning and deep learning techniques, two distinct raw datasets pertaining to asthma and kidney transplantation (GSE85567 and GSE129166) were retrieved from the National Center for Biotechnology Information database and subsequently subjected to requisite quality control and alignment procedures. Random forest (RF), support vector machines (SVM), and deep neural networks (DNN) models were implemented to achieve patient-control differentiation. To prevent overfitting, all data sets were divided into 67.5% training, 10% testing, and 22.5% validation data, and 10-fold cross-validation was employed during the training stages of the models. Python programming language was used for both machine learning and deep learning, and Unix operating (AT&T Bell Laboratories, USA) system was utilized for data processing. Results: In the GSE129166 data set, the RF model obtained an accuracy rate of 0.89 in the validation set. The precision and recall of this model were determined as 0.88 and 0.92, respectively. The SVM model measured an accuracy rate of 0.88 in the validation set, and 0.87 in the test set. For the GSE85567 data set, the accuracy rate of the RF model in the validation set was measured as 0.73. For SVM, the accuracy rate in the validation set was measured as 0.70, while for DNN, it was measured as 0.75. Conclusion: The study conducted on the GSE85567 data set demonstrates that RF and SVM models exhibit high accuracy and performance. The DNN model, on the other hand, has a more balanced precision and recall rate, and is observed to be a significant alternative. Additionally, it is observed that the DNN model shows effective performance on the GSE129166 data set. Particularly, a high accuracy rate and a balanced precision-recall balance were observed in the validation set. It is concluded that all three models are suitable for patient-control classification in RNA-seq data.
Keywords: RNA-sequencing; machine learning; deep learning
- Deshpande D, Chhugani K, Chang Y, Karlsberg A, Loeffler C, Zhang J, et al. RNA-seq data science: From raw data to effective interpretation. Front Genet. 2023;14:997383. [Crossref] [PubMed] [PMC]
- Bao S, Li K, Yan C, Zhang Z, Qu J, Zhou M. Deep learning-based advances and applications for single-cell RNA-sequencing data analysis. Brief Bioinform. 2022;23(1):bbab473. [Crossref] [PubMed]
- Sandeep SR, Ahamad S, Saxena D, Srivastava K, Jaiswal S, Bora A. To understand the relationship between machine learning and artificial intelligence in large and diversified business organisations. Materials Today: Proceedings. 2022;56(4):2082-6. [Crossref]
- Öztornacı RO, Coşgun E, Taşdelen B. Genom-boyu ilişki çalışmalarında, makine öğrenimi ve derin öğrenme yöntemlerinin farklı örnek genişliklerinde performanslarının değerlendirilmesi [Evaluation of machine learning methods and deep learning method performance in different sample size in genome association studies]. Turkiye Klinikleri Journal of Biostatistics. 2020;12(2):204-10. [Crossref]
- González García C, Núñez Valdéz ER, García Díaz V, Pelayo García-Bustelo BC, Cueva Lovelle JM. A review of artificial intelligence in the internet of things. International Journal of Interactive Multimedia and Artificial Intelligence. 2019;5(4):1. [Crossref]
- Alpaydin E. Introduction To Machine Learning. 4th ed. Cambridge: MIT Press; 2020.
- Kiranmai B, Damodaram A. A review on evaluation measures for data mining tasks", International Journal of Engineering and Computer Science. 2014;3(7):7217-20. [Link]
- Breiman L. Random forests. Machine Learning. 2001;45:5-32. [Crossref]
- Zhao B, Zhou H, Li X, Han D. Water saturation estimation using support vector machine. Society of Exploration Geophysicists. 2006;1693-7. [Crossref]
- Korkmaz S. Küçük ilaç moleküllerinin derin sinir ağları kullanılarak sınıflandırılması [Small drug molecule classification using deep neural networks]. Turkiye Klinikleri J Biostat. 2019;11(2):93-101. [Crossref]
- Goodfellow I, Bengio Y, Courville A, Bengio Y. Deep Learning. Vol. 1. Cambridge: MIT Press; 2016.
- Köse T, Özgür S, Coşgun E, Keskinoğlu A, Keskinoğlu P. Effect of missing data imputation on deep learning prediction performance for vesicoureteral reflux and recurrent urinary tract infection clinical study. Biomed Res Int. 2020;2020:1895076. [Crossref] [PubMed] [PMC]
- Seide F, Agarwal A. CNTK: Microsoft's Open-Source Deep-Learning Toolkit. Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 2016. p.2135. [Crossref]
- Schmidhuber J. Deep learning in neural networks: an overview. Neural Networks. 2015;61:85-117. [Crossref] [PubMed]
- Abadi M, Barham P, Chen J, Chen Z, Davis A, Dean J, et al. Tensorflow: A System for Large-Scale Machine Learning. 12th (USENIX) Symposium on Operating Systems Design and Implementation (OSDI' 16). November 2-6, 2016; Savannah, GA, USA: Usenix; 2016. p.265-83. [Link]
- Brownlee J. Deep Learning With Python: Develop Deep Learning Models on Theano and Tensorflow Using Keras. 1st ed. Machine Learning Mastery; 2016.
- Gulli A, Pal S. Deep Learning With Keras. 1st ed. Birmingham: Packt Publishing Ltd; 2017.
- Vidal R, Bruna J, Giryes R, Soatto S. Mathematics of deep learning. Arxiv. 2017;1712.04741. [Link]
- Şeker A, Diri B, Balık HH. Derin öğrenme yöntemleri ve uygulamaları hakkında bir inceleme [A review about deep learning methods and applications]. Gazi Mühendislik Bilimleri Dergisi. 2017;3(3):47-64 [Link]
- Doğan F, Türkoğlu İ. (2018). Derin öğrenme algoritmalarının yaprak sınıflandırma başarımlarının karşılaştırılması [The comparison of leaf classification performance of deep learning algorithms]. Sakarya University Journal of Computer and Information Sciences. 2018;1(1):10-21. [Link]
- Kurt F. Evrişimli sinir ağlarında hiper parametrelerin etkisinin incelenmesi [Yüksek lisans tezi]. Ankara: Hacettepe Üniversitesi; 2018. Erişim tarihi: 29.02.2024 [Link]
- Min S, Lee B, Yoon S. Deep learning in bioinformatics. Brief Bioinform. 2017;18(5):851-69. [PubMed]
- Küçük D, Arıcı N. Doğal dil işlemede derin öğrenme uygulamaları üzerine bir literatür çalışması [A literature study on deep learning applications in natural language processing]. Uluslararası Yönetim Bilişim Sistemleri ve Bilgisayar Bilimleri Dergisi. 2018;2(2):76-86. [Link]
- Güreşen E. Dynamic market value forecasting using artificial neural networks [PhD thesis]. İstanbul: İstanbul Technical University; 2008. Erişim tarihi: 29.02.2024 [Link]
- Van Hulle MM. Self-organizing maps. In: Rozenberg G, Bäck T, Kok JN, eds. Handbook of Natural Computing. 1st ed. Berlin, Heidelberg: Springer; 2012. p.585-622. [Crossref]
- Özçalıcı M. Özdüzenleyici haritalar yöntemi ile bankacılık sektörü piyasa bölümlendirilmesi [Market segmentation with self-organizing maps in banking indus-try]. BDDK Bankacılık ve Finansal Piyasalar Dergisi. 2017;11(2):9-30. [Link]
- Pekmezci M. Kısıtlanmış Boltzmann makinesi ile zaman serilerinin tahmini [Yüksek lisans tezi]. İstanbul: Maltepe Üniversitesi; 2012. Erişim tarihi: 29.02.2024 [Link]
- Aminanto E, Kim K. Deep learning in intrusion detection system: an overview. 2016 International Research Conference on Engineering and Technology (2016 IRCET). Higher Education Forum. 2016. [Link]
- Binbusayyis A, Vaiyapuri T. Unsupervised deep learning approach for network intrusion detection combining convolutional autoencoder and one-class SVM. Applied Intelligence. 2021;51(10):7094-108. [Crossref]
- McDermaid A, Monier B, Zhao J, Liu B, Ma Q. Interpretation of differential gene expression results of RNA-seq data: review and integration. Brief Bioinform. 2019;20(6):2044-54. [Crossref] [PubMed] [PMC]
- Nicodemus-Johnson J, Myers RA, Sakabe NJ, Sobreira DR, Hogarth DK, Naureckas ET, et al. DNA methylation in lung cells is associated with asthma endotypes and genetic risk. JCI Insight. 2016;1(20):e90151. [Crossref] [PubMed] [PMC]
- Van Loon E, Gazut S, Yazdani S, Lerut E, de Loor H, Coemans M, et al. Development and validation of a peripheral blood mRNA assay for the assessment of antibody-mediated kidney allograft rejection: A multicentre, prospective study. EBioMedicine. 2019;46:463-72. [Crossref] [PubMed] [PMC]
- Goksuluk D, Zararsiz G, Korkmaz S, Eldem V, Zararsiz GE, Ozcetin E, et al. MLSeq: Machine learning interface for RNA-sequencing data. Comput Methods Programs Biomed. 2019;175:223-31. [Crossref] [PubMed]
- Zararsız G, Goksuluk D, Korkmaz S, Eldem V, Zararsiz GE, Duru IP, et al. A comprehensive simulation study on classification of RNA-Seq data. PLoS One. 2017;12(8):e0182507. [Crossref] [PubMed] [PMC]
- Kasikci M, Coşgun E, Karabulut E. Classification performance comparison of deep learning and classical data mining methods on RNA-seq data set. International Journal of Data Mining and Bioinformatics. 2021;26(3-4):188-201. [Crossref]
.: İşlem Listesi