Objective: In order to apply association rule mining to data sets with continuous variables, it is necessary to convert the variables into categorical structure. Therefore, we aim to compare the results obtained by categorizing continuous variables using different methods and analyzing them with association rule mining. Material and Methods: In this study, ChiMerge, clustering, Minimum Description Length Principle, equal interval, equal frequency methods were used to transform continuous variables into categorical structure by discretizing them. Various datasets were generated in the R with sample sizes of 100, 200, 500 and one binary dependent variable was created in each dataset. Additionally, 2, 3, 4, 5, 6, 7 continuous variables with a standard normal distribution were generated and various methods for transforming variables into categorical format were applied. A support of 10%, a confidence level of 80% were used. The number of rules varies based on the number of variables and the number of categories. Results: The study's results compared the descriptive statistics of the number of rules and the lift values. It can be said that high lift values are observed in scenarios with high levels of correlation and a higher number of variables and increasing the sample size can reduce the lift values of rules. Conclusion: In terms of the number of rules, the ChiMerge is the most affected by increasing the sample size. Furthermore, the ChiMerge yields stricter and higher lift values compared to other methods. While using association analysis, data type and multi-level associations should be considered.
Keywords: Association rule mining; lift ratio; continuous variable
Amaç: Birliktelik kuralı madenciliğinin uygulanabilmesi için verilerin kategorik yapıda bulunması gerekmektedir. Bu amaçla, sürekli yapıdaki değişkenlerin farklı yöntemlerle kategorize edilerek, birliktelik kuralı madenciliği ile analiz edilerek elde edilen sonuçların karşılaştırılması hedeflenmiştir. Gereç ve Yöntemler: Sürekli değişkenlerin bulunduğu veri setlerine birliktelik kuralı madenciliği uygulayabilmek için değişkenleri kategorik yapıya dönüştürmek gereklidir. Bu çalışmada, sürekli değişkenleri denetimli ve denetimsiz biçimlerde ayrıklaştırarak kategorik yapıya dönüştürmek için Ki-birleştirme, kümeleme, Minimum Açıklama Uzunluğu Prensibi, eşit aralık, eşit frekans yöntemleri kullanılmıştır. Bu amaçla R programında çeşitli senaryolarda veri setleri üretilmiştir. Örneklem 100, 200, 500 olarak alınmış ve her veri setinde bir adet binary yapıda bağımlı değişken oluşturulmuştur. Bağımlı değişkene ek, birbiri ile %60, %70 ve %80 düzeylerinde ilişkili 2, 3, 4, 5, 6 ve 7 adet olmak üzere standart normal dağılıma sahip sürekli değişkenler üretilmiş ve değişkenlere kategorik yapıya dönüştürme yöntemleri uygulanarak birliktelik analizi sonuçları kaydedilmiştir. Destek değeri %10 ve güven değeri %80 alınmıştır. Kural sayısı, tüm kurgularda %10 destek ve %80 güven değerleri sabit olmak şartı ile değişken sayısına ve değişkenlerin kaç kategoriden oluştuğuna göre değişim göstermektedir. Bulgular: Çalışma sonuçlarında yöntemlerin ürettiği kural sayısı ve kurallara ait kaldıraç değerlerinin tanımlayıcı istatistikleri karşılaştırılmıştır. Yüksek kaldıraç değerlerinin, korelasyon düzeyinin ve değişken sayısının fazla olduğu senaryolarda görüldüğü ve örneklemi artırmanın birliktelik kurallarına ait kaldıraç değerlerini düşürdüğü gözlenmiştir. Sonuç: Kural sayısı bakımından, örnek genişliği artışından en çok etkilenen yöntem Ki-birleştirme yöntemidir. Ayrıca Ki-birleştirme yönteminde diğer yöntemlere göre daha katı ve daha yüksek kaldıraç değerleri elde edilmiştir. Birliktelik analizi uygulanırken verideki çok düzeyli birliktelikler göz önünde bulundurulmalıdır.
Anahtar Kelimeler: Birliktelik kuralı madenciliği; kaldıraç oranı; sürekli değişken
- Flank A. Multirelational Association Rule Mining. 2004. [Link]
- Jain D, Gautam S. Implementation of apriori algorithm in health care sector: a survey. International Journal of Computer Science and Communication Engineering. 2013;2(4):22-8. [Link]
- Köse A. Sağlık göstergelerinin birliktelik kuralları ile analizi [Analysis of health indicators by association rules]. Eskişehir Türk Dünyası Uygulama ve Araştırma Merkezi Bilişim Dergisi. 2022;3(2):31-7. [Crossref]
- Abdullah U, Ahmad J, Ahmed A. Analysis of effectiveness of apriori algorithm in medical billing data mining. 4th International Conference on Emerging Technologies. IEEE. 2008. p.327-31. [Crossref] [PubMed]
- Han JK, Kamber M, Pei J. Data Mining: Concepts and Techniques. 3rd ed. USA: Elsevier Inc; 2001.
- Agrawal R, Srikant R. Fast algorithms for mining association rules. Proc. 20th int. conf. very large data bases, VLDB. 1994;1215:487-99. [Link]
- Awadalla MH, El-Far SG. Aggregate function based enhanced apriori algorithm for mining association rules. International Journal of Computer Science Issues. 2012;9(3):277-87. [Link]
- Yalçın A, Karabatak M. Nicel birliktelik kuralları için çoklu minimum destek değeri [Multiple minimum support value for quantitative association rules]. Fırat Üniversitesi Mühendislik Bilimleri Dergisi. 2017;29(2):57-65. [Link]
- Maimon O, Rokach L. Data mining and Knowledge Discovery Handbook. Vol. 2. 1st ed. New York: Springer; 2005. [Crossref]
- Rastogi R, Shim K. Mining optimized association rules with categorical and numeric attributes. IEEE Transactions on Knowledge and Data Engineering. 2002;14(1):29-50. [Crossref]
- Yıldız F. Tarımsal veri madenciliğinde apriori birliktelik kuralının uygulanması [Doktora tezi]. Adana: Çukurova Üniversitesi; 2018.
- Peker N. Geliştirilmiş ki-birleştirme algoritması ile ayrıklaştırılan verinin veri madenciliği yöntemleri ile sınıflandırılması [Doktora tezi]. Sakarya: Sakarya Üniversitesi; 2021. [Link]
- Li W, Han J, Pei J. CMAR: Accurate and efficient classification based on multiple class-association rules. Proceedings 2001 IEEE international conference on data mining. 2001. p.369-76. [Link]
- Yin X, Han J. CPAR: Classification based on predictive association rules. Proceedings of the 2003 SIAM international conference on data mining. Society for Industrial and Applied Mathematics. 2003. p.331-5. [Crossref]
- Hahsler M, Grün B, Hornik K. arules - a computational environment for mining association rules and frequent item sets. Journal of Statistical Software. 2015;14(15):1-25. [Crossref]
- DeBruine L. faux: Simulation for Factorial Designs (1.2.0). Zenodo. 2023. [Link]
- Hahsler M, Johnson I, Kliegr T, Kucha J. Associative Classification in R: arc, arulesCBA, and rCBA. R Journal. 2019;11(2):254-67. [Crossref]
- Moreno MN, Segrera S, López VF, Polo MJ. A method for mining quantitative association rules. Proc. of the 6th WSEAS International Conference on Simulation, Modelling and Optimization. 2006. p.173-8. [Link]
- Mitov I, Ivanova K, Markov K, Velychko V, Stanchev P, Vanhoof K. Comparison of discretization methods for preprocessing data for pyramidal growing network classification method. New trends in intelligent technologies. Sofia. 2009;31-9. [Link]
- Dash R, Paramguru RL, Dash R. Comparative analysis of supervised and unsupervised discretization techniques. International Journal of Advances in Science and Technology. 2011;2(3):29-37. [Link]
.: Process List