Objective: Radiogenomics investigates the use of radiomics and genomics features in clinical decision-making. The purpose of this study is to classify a clinical outcome by using radiomics and genomics features. The performances of different classification methods are compared and the effect of feature selection on classification performance is investigated. Material and Methods: Non-small cell lung cancer dataset from The Cancer Imaging Archive was used. The type of histology was selected as binary clinical outcome for classification. This dataset contains computed tomography images and RNA-sequence gene expressions. To standardize features, z scaling was applied to radiomics features and logarithmic transformation was applied to genomics features. Data was divided into 70% train set and 30% test set. Classification was carried out by modeling only radiomics features, only genomics features, and radiomics and genomics features together. Elastic net, random forest, support vector machines, and XGBoost algorithms were used for classification. Different feature selection approaches were explored to see the effect of feature selection on classification. Performance measures were calculated by using the test set. Results: The use of radiomics and genomics features improved the classification performance of random forest and XGBoost when feature selection was either not applied or when AUC was used for the feature selection method and elastic net when Recursive Feature Elimination was used for feature selection. Conclusion: Feature selection-based classification approach has a limited impact on model performance. Also, integration of two different data sources does not result in higher performance for every classification method.
Keywords: Digital imaging and communications in medicine; gene expression data; classification; feature selection
Amaç: Radyogenomiks, klinik karar vermede görüntü ve genetik özelliklerin kullanımını araştıran bir alandır. Bu çalışmanın amacı, görüntü ve genetik özellikleri kullanarak klinik bir değişkeni sınıflamaktır. Farklı sınıflama yöntemlerinin performansları karşılaştırılmış ve özellik seçiminin sınıflama performansına etkisi incelenmiştir. Gereç ve Yöntemler: Kanser Görüntüleme Arşivi veri tabanından elde edilen küçük hücreli olmayan akciğer kanseri veri seti kullanılmıştır. Sınıflamada kullanılan sonuç değişkeni iki durumlu olan histolojinin türü değişkenidir. Bu veri seti bilgisayarlı tomografi görüntülerini ve RNA dizileme yönteminden elde edien gen ifadelerini içerir. Özellikleri standartlaştırmak için görüntü özelliklerine z dönüşümü, genetik özelliklere logaritmik dönüşüm uygulanmıştır. Veri seti %70 eğitim seti ve %30 test seti olmak üzere ikiye bölünmüştür. Sınıflama analizleri yalnızca görüntü özellikleri, yalnızca genetik özellikler ve görüntü ile genetik özellikler birlikte kullanılarak gerçekleştirilir. Sınıflama için ''elastic net, rastgele orman, destek vektör makineleri ve XGBoost'' algoritmaları kullanılmıştır. Değişken seçiminin sınıflama performansları üzerindeki etkisinin incelenmesi için farklı değişken seçimi yaklaşımları uygulanmıştır. Performans ölçüleri test seti kullanılarak hesaplanmıştır. Bulgular: Görüntü ve genetik özelliklerin birlikte kullanımı, değişken seçimi uygulanmadığında veya değişken seçimi yöntem olarak AUC kullanıldığında rastgele orman ve XGBoost algoritmalarının, özellik seçimi için özyinelemeli özellik seçimi kullanıldığında ise elastic net algoritmasının sınıflama performansını iyileştirmiştir. Sonuç: Değişken seçimine dayalı sınıflama yaklaşımlarının model performansı üzerinde etkisi sınırlı olmuştur. Ayrıca iki farklı veri kaynağının entegrasyonu her sınıflandırma yöntemi için daha yüksek performansla sonuçlanmamıştır.
Anahtar Kelimeler: Tıpta dijital görüntüleme ve iletişim; gen ifade verisi; sınıflama; değişken seçimi
- Kamrani AK, Nasr EA. Rapid Prototyping: Theory and Practice. Vol. 6. 1st ed. New York: Springer Science & Business Media; 2006. [Crossref]
- Giraud P, Giraud P, Gasnier A, El Ayachy R, Kreps S, Foy JP, et al. Radiomics and machine learning for radiotherapy in head and neck cancers. Front Oncol. 2019;9:174. [Crossref] [PubMed] [PMC]
- Guo W, Li H, Zhu Y, Lan L, Yang S, Drukker K, et al; Tcga Breast Phenotype Research Group. Prediction of clinical phenotypes in invasive breast carcinomas from the integration of radiomics and genomics data. J Med Imaging (Bellingham). 2015;2(4):041007. [Crossref] [PubMed] [PMC]
- Trivizakis E, Papadakis GZ, Souglakos I, Papanikolaou N, Koumakis L, Spandidos DA, et al. Artificial intelligence radiogenomics for advancing precision and effectiveness in oncologic care (Review). Int J Oncol. 2020;57(1):43-53. [Crossref] [PubMed] [PMC]
- Nero C, Ciccarone F, Boldrini L, Lenkowicz J, Paris I, Capoluongo ED, et al. Germline BRCA 1-2 status prediction through ovarian ultrasound images radiogenomics: a hypothesis generating study (PROBE study). Sci Rep. 2020;10(1):16511. [Crossref] [PubMed] [PMC]
- Di Giannatale A, Di Paolo PL, Curione D, Lenkowicz J, Napolitano A, Secinaro A, et al. Radiogenomics prediction for MYCN amplification in neuroblastoma: a hypothesis generating study. Pediatr Blood Cancer. 2021;68(9):e29110. [Crossref] [PubMed]
- Lasocki A, Buckland ME, Drummond KJ, Wei H, Xie J, Christie M, et al. Conventional MRI features can predict the molecular subtype of adult grade 2-3 intracranial diffuse gliomas. Neuroradiology. 2022;64(12):2295-305. [Crossref] [PubMed] [PMC]
- Prencipe B, Delprete C, Garolla E, Corallo F, Gravina M, Natalicchio MI, et al. An explainable radiogenomic framework to predict mutational status of KRAS and EGFR in lung adenocarcinoma patients. Bioengineering (Basel). 2023;10(7):747. [Crossref] [PubMed] [PMC]
- National Cancer Institute [Internet]. The Cancer Genome Atlas Program (TCGA). Access date: [1 August 2023]. Access link: [Link]
- National Cancer Institute [Internet]. © 2024 The Cancer Imaging Archive (TCIA) The Cancer Imaging Archive (TCIA). Access date: [1 August 2023]. Access link: [Link]
- Gallivanone F, Cava C, Corsi F, Bertoli G, Castiglioni I. In Silico Approach for the definition of radiomirnomic signatures for breast cancer differential diagnosis. Int J Mol Sci. 2019;20(23):5825. [Crossref] [PubMed] [PMC]
- Shboul ZA, Iftekharuddin KM. Efficacy of radiomics and genomics in predicting TP53 mutations in diffuse lower grade glioma. In: Krol A, Gimi BS, eds. Medical Imaging 2020: Biomedical Applications in Molecular, Structural, and Functional Imaging. Vol.11317. Houston, Texas, U.S.A: SPIE; 2020. p.238-44. [Crossref]
- Trivizakis E, Souglakos J, Karantanas A, Marias K. Deep radiotranscriptomics of non-small cell lung carcinoma for assessing molecular and histology subtypes with a data-driven analysis. Diagnostics (Basel). 2021;11(12):2383. [Crossref] [PubMed] [PMC]
- Bakr S, Gevaert O, Echegaray S, Ayers K, Zhou M, Shafiq M, et al. Data for NSCLC Radiogenomics (Version 4) [Data set]. The Cancer Imaging Archive. 2017. [Link]
- Murphy R, Payan N, Osman S, Prise K, Hounsell A, O'Sullivan J, et al. PO-1769 Prostate cancer radiogenomics machine learning classification for predicting disease progression. Radiotherapy and Oncology. 2022;170:S1572-S1574 [Crossref]
- Microsoft, genomicsnotebook [Internet]. RadioGenomics analysis pipeline. 2021. Access date: [15 August 2023]. Access link: [Link]
- Gregorutti B, Michel B, Saint-Pierre P. Correlation and variable importance in random forests. Statistics and Computing. 2017;27:659-78. [Link] https://link.springer.com/article/10.1007/s11222-016-9646-1 [Crossref]
- Kuhn M. caret: Classification and Regression Training. R package version 6.0-91. 2022. [Link]
- Kuhn M, Wing J, Weston S, Williams A, Keefer C, Engelhardt A, et al. Package 'caret'. Package Manual. 2023. [Link]
- Tuszynski J. caTools: Tools: Moving Window Statistics, GIF, Base64, ROC AUC, etc. R package version 1.18.2. 2021. [Link]
- Dag O, Karabulut E, Alpar R. GMDH2: Binary Classification via GMDH-Type Neural Network Algorithms - R Package and Web-Based Tool. International Journal of Computational Intelligence Systems. 2019;12(2):649-60. [Crossref]
- da Silva Neto SR, Tabosa Oliveira T, Teixeira IV, Aguiar de Oliveira SB, Souza Sampaio V, Lynn T, et al. Machine learning and deep learning techniques to support clinical diagnosis of arboviral diseases: a systematic review. PLoS Negl Trop Dis. 2022;16(1):e0010061. [Crossref] [PubMed] [PMC]
.: Process List