Objective: Breast cancer is the type of cancer that causes the most death in women in the United States after lung cancer. The objective of this study was to predict breast biopsy results using age, BI-RADS, Mass Shape, Mass Margin, Mass Density by Multilayer Perceptron and Random Forest algorithms. Material and Methods: The dataset contains a BI-RADS assessment, the patient's age and three BI-RADS attributes together with the ground truth for 516 benign and 445 malignant masses. WEKA software was used for data mining. The data mining methods of the Multilayer Perceptron and Random Forest were used to predict the severity of cancer. Results: Accuracy, F-measure and Root Mean Squared Error values of the Multilayer Perceptron model were found 0.837, 0.833 and 0.352, respectively while accuracy, F-measure and Root Mean Squared Error values of the Random Forest model were found 0.816, 0.814 and 0.396, respectively. The Multilayer Perceptron method provided a better prediction of breast cancer diagnosis than the Random Forest method and a software was developed based on the best model created by the Multilayer Perceptron method. Conclusion: Consequently, a model that was built with the MLP method can be used as an alternative in the diagnosis of patients and be an assistant tool for physicians.
Keywords: Breast cancer; data mining; multilayer perceptron; prediction; random forest
Amaç: Meme kanseri, ABD'de akciğer kanserinden sonra kadınlarda en fazla ölüme neden olan kanser türüdür. Bu çalışmanın amacı yaş, BI-RADS, Kitle Şekli, Kitle Marjı ve Kitle Yoğunluğu değişkenleri yardımıyla Çok Katmanlı Algılayıcı ve Random Forest algoritmaları kullanılarak meme biyopsi sonuçlarını tahmin etmektir. Gereç ve Yöntemler: Veri seti 516 iyi huylu ve 445 kötü huylu kitleye yönelik kesin referansla beraber, BI-RADS değerlendirmesi, hastanın yaşı ve üç BI-RADS özelliği değişkenlerinden oluşmaktadır. Veri madenciliği için WEKA yazılımı kullanılmıştır. MLP ve Random Forest veri madenciliği yöntemleri kanser sonuçlarını tahmin etmek için kullanılmıştır. Bulgular: Çok Katmanlı Algılayıcı modelinin doğruluk, F-ölçütü ve ortalama hata kareleri kare kökü değerleri sırasıyla 0.837, 0.833 ve 0.352 bulunurken, Random Forest modelinin doğruluk, F-ölçütü ve ortalama hata kareleri kare kökü değerleri sırasıyla 0.816, 0.814 ve 0.396 olarak bulunmuştur. Çok Katmanlı Algılayıcı yöntemi, meme kanseri teşhisi için Random Forest yönteminden daha iyi bir tahmin sağlamıştır, bu yüzden Çok Katmanlı Algılayıcı yöntemi kullanılarak oluşturulan en iyi modele dayalı bir yazılım geliştirilmiştir. Sonuç: Sonuç olarak, Çok Katmanlı Algılayıcı yöntemiyle yapılan bir model hastaların teşhisinde alternatif olarak kullanılabilir ve hekimler için yardımcı bir araç olabilir.
Anahtar Kelimeler: Meme kanseri; veri madenciliği; çok katmanlı algılayıcı; tahmin; random forest
- Jemal A, Murray T, Ward E, Samuels A, Tiwari RC, Ghafoor A, et al. Cancer statistics. CA Cancer J Clin. 2005;55(1):10-30. PMID: 15661684 [Crossref] [PubMed]
- Pirhan Y, Sucu BB. [Complication of heparin used during hemodialysis in breast patient with cancer: case report]. Türk Nefroloji, Diyaliz ve Transplantasyon Hemşireleri Derneği Nefroloji Hemşireliği Dergisi. 2018;1(13):32-5.
- Humphrey LL, Helfand M, Chan BK, Woolf SH. Breast cancer screening: a summary of the evidence for the U.S. Preventive Services Task Force. Ann Intern Med. 2002;137(5 Part 1):347-60. PMID: 12204020 [Crossref] [PubMed]
- Tabar L, Yen MF, Vitak B, Chan HH, Smith RA, Duffy SW. Mammography service screening and mortality in breast cancer patients: 20-years follow-up before and after introduction of screening. Lancet. 2003;361(9367):1405-10. PMID: 12727392 [Crossref]
- Illustrated Breast Imaging Reporting and Data System (BI-RADS TM). Reston, VA: Am Coll Radiol. 1998.
- Liberman L, Menell JH. Breast imaging reporting and data system (BI-RADS). Radiol Clin North Am. 2002;40(3):409-30. PMID: 12117184 [Crossref]
- Balleyguier C, Ayadi S, Van Nguyen K, Vanel D, Dromain C, Sigal R. BIRADS classification in mammography. Eur J Radiol. 2007;61(2):192-4. PMID: 17164080 [Crossref] [PubMed]
- Todde V, Giuliani A. Big Data. A briefing. Annali Dell'Istituto Superiore Di Sanita. 2018;54(3):174-5.
- Nagabhushana S. Data Warehousing OLAP and Data Mining. 1st ed. New Delhi, India: New Age International; 2006. p.251-2.
- Han J, Kamber M, Pei J. Data Mining Concepts and Techniques. 3rd ed. Waltham, MA, USA: Morgan Kaufmann/Elsevier; 2011. p.2-5.
- Elter M, Schulz-Wendtland R, Wittenberg T. The prediction of breast cancer biopsy outcomes using two CAD approaches that both emphasize an intelligible decision process. Med Phys. 2007;34(11):4164-72. PMID: 18072480 [Crossref] [PubMed]
- Eibe F, Mark AH, Ian HW. The WEKA Workbench. Online Appendix for Data Mining: Practical Machine Learning Tools and Techniques. 4th ed. Morgan Kaufmann; 2016.
- Hand D, Mannila H, Smyth P. Principles of Data Mining (Adaptive Computation and Machine Learning). 1st ed. Cambridge, MA, USA: The MIT Press; 2001. p.151-6.
- Akinsola AF, Sokunbi MA, Okikiola FM, Onadokun IO. Data mining for breast cancer classification. International Journal of Engineering and Computer Science (IJCSE). 2017;6(8):22250-8.
- Asri H, Mousannif H, Moatassime HA, Noel T. Using machine learning algorithms for breast cancer risk prediction and diagnosis. Procedia Comput Sci. 2016;83:1064-9. [Crossref]
- Mandal SK. Performance analysis of data mining algorithms for breast cancer cell detection using naïve bayes, logistic regression and decision tree. International Journal of Engineering and Computer Science (IJCSE). 2017;6(2):20388-91.
- Shrivastava SS, Sant A, Aharwal RP. An overview on data mining approach on breast cancer data. International Journal of Advanced Computer Research (IJACR). 2013;3(4):256-62.
.: Process List