İki Sonuçlu Nitel Veriler İçin Farklılık/Uzaklık Katsayılarının Değerlendirilmesi: Bir Benzetim Çalışması

İsmet DOĞAN^a, Nurhan DOĞAN^a
^aAfyonkarahisar Sağlık Bilimleri Üniversitesi Tıp Fakültesi, Biyoistatistik ve Tıbbi Bilişim ABD, Afyonkarahisar, Türkiye

Turkiye Klinikleri J Biostat. 2022;14(2):63-9

doi: 10.5336/biostatic.2022-88302

Makale Dili: TR

Tam Metin

ÖZET
Amaç: Bu çalışmanın amacı, 2 sonuçlu veriler ile ilgili türetilmiş veri setleri kullanarak farklı değerleri için belirlenen 23 farklı uzaklık katsayısını tanıtmak, özelliklerini ortaya koyarak değerlendirmektir. Gereç ve Yöntemler: Bu çalışmada, 2 sonuçlu veriler için ileri sürülen uzaklık katsayıları ele alınmıştır. Çalışmada Phyton-random kütüphanesi 10≤n≤1000 kullanılarak aralığında yer alan 35 farklı n değeri için veri türetilmiştir. Verilerin türetilmesinde önce a,b,c ve d ile gösterilen gözelerden hangisine değer atanacağı sonra da ilgili gözeye atanacak değer belirlenmiştir. n=10 için 286, n=15 için 815 ve n≥20 için biner farklı veri seti çalışmada kullanılmıştır. Bulgular: İki sonuçlu veriler için tüm farklılık/uzaklık katsayılarının değer aralığının 0 (benzerlik yok) ile 1 (tam benzerlik) olması beklenmesine rağmen tüm katsayılar için bu aralık geçerli değildir. Dikkate alınan 23 farklı katsayı içerisinden 12 tanesi bu aralıkta değer almaktadır. Hiyerarşik kümeleme analizine göre farklılık/uzaklık katsayılarının çoğu birbirine benzemektedir. Sonuç: Genel olarak hemen tüm katsayılara ait değerler, örnekler daha benzer hâle geldikçe sabit bir minimumdan sabit bir maksimuma doğru artmaktadır. Ancak Sokal-Michener, Hamming ve varyans katsayıları, tüm değerleri için farklılık/uzaklık ile doğrusal olarak sorunsuz bir şekilde artmaktadır. Değer aralığının 0-1 olması ve farklılık/uzaklık artışı ile paralellik göstermesinden dolayı Sokal-Michener tarafından önerilen katsayı tüm katsayılar içerisinde öne çıkmaktadır. Cosine, Hamming, Euclid I ve Euclid II katsayıları n sayısından etkilenmekte diğer katsayılar etkilenmemektedir. Dolayısıyla farklılık/uzaklık katsayılarının önemli bir kısmının örnek büyüklüğünden bağımsız oldukları belirlenmiştir.

Anahtar Kelimeler: Farklılık/uzaklık katsayısı; hiyerarşik kümeleme; iki sonuçlu veri

ABSTRACT
Objective: The aim of this study is to introduce 23 different binary dissimilarity/distance coefficients determined for different n,a,b,c and d values by using derived data sets and to evaluate them by revealing their properties. Material and Methods: In this study, the dissimilarity/distance coefficients put forward for binary data are considered. In the study, data were derived for 35 different values in the range of 10≤n≤1000 using the Phyton-random library. In the derivation of the data, firstly, which cell shown with will be assigned value, then the value to be assigned to the relevant cell was determined. 286 for n=10 , 815 for n=15 and 1000 different data sets for n≥20 were used in the study. Results: Although the value range of all dissimilarity/distance coefficients for binary data is expected to be 0 to 1, this range is not valid for all coefficients. Out of 23 different coefficients, 12 take values in this range. According to the hierarchical clustering analysis, most of the dissimilarity/distance coefficients are similar. Conclusion: In general, the values of almost all coefficients increase from a fixed minimum to a fixed maximum as the samples become more dissimilar. However, the Sokal-Michener, Hamming and variance coefficients increase linearly with dissimilarity/distance smoothly for all values. The coefficient suggested by Sokal-Michener stands out among all the coefficients because the value range is 0-1 and is parallel to the dissimilarity/distance increase. Cosine, Hamming, Euclid I and Euclid II coefficients are affected by the number of n and other coefficients are not. Therefore, it has been determined that a significant part of the dissimilarity/distance coefficients are independent of the sample size.

Keywords: Dissimilarity/distance coefficient; hierarchical clustering; binary data

REFERANSLAR:

Cha SH. Comprehensive survey on distance/similarity measures between probability density functions. Int J Math Models Methods Appl Sci. 2007;4(1):300-7. [Link]
Le SQ, Ho TB. An association-based dissimilarity measure for categorical data. Pattern Recognit Lett. 2005;26(16):2549-57. [Crossref]
Willett P, Barnard JM, Downs GM. Chemical similarity searching. J Chem Inf Comput Sci. 1998;38(6):983-96. [Crossref]
Ballabio D, Todeschini R, Consonni V. Distances and other dissimilarity measures in chemometrics. In: Meyers RA, ed. Encyclopedia of Analytical Chemistry. 1st ed. New York: John Wiley & Sons; 2015. p.1-34. [Crossref]
Choi SS, Cha SH, Tappert CC. A survey of binary similarity and distance measures. J Syst Cybern Inf. 2010;8(1):43-8. [Link]
Wijaya SH, Afendi FM, Batubara I, Darusman LK, Altaf-Ul-Amin M, Kanaya S. Finding an appropriate equation to measure similarity between binary vectors: case studies on Indonesian and Japanese herbal medicines. BMC Bioinformatics. 2016;17(1):520. [Crossref] [PubMed] [PMC]
Bray JR, Curtis JT. An ordination of upland forest communities of Southern Wisconsin. Ecol Monogr. 1957;27(4):325-49. [Crossref]
Lance GN, Williams WT. A general theory of classificatory sorting strategies II. clustering systems. Comput J. 1967;10(3):271-7. [Crossref]
Orlóci L. An agglomerative method for classification of plant communities. J Ecol. 1967;55(1):193-206. [Crossref]
Zhang B, Srihari SN. Binary vector dissimilarities for handwriting identification. In Proceedings SPIE 5010, Document Recognition and Retrieval X, Jan 20-24, Santa Clara, California, USA: 2003. p.155-66. [Crossref]
Bajusz D, Rácz A, Héberger K. Why is Tanimoto index an appropriate choice for fingerprint-based similarity calculations? J Cheminform. 2015;7:20. [Crossref] [PubMed] [PMC]
Hamming RW. Error detecting and error correcting codes. The Bell System Technical Journal. 1950;29(2):147-60. [Crossref]
Hellinger E. Neue Begründung der Theorie quadratischer Formen von unendlichvielen veränderlichen. Journal für die reine und angewandte Mathematik (in German). 1909;136:210-71. [Crossref]
Monev V. Introduction to similarity searching in chemistry. MATCH-Commun Math Co. 2004;51(51):7-38. [Link]
Chao A, Chazdon RL, Colwell RK, Shen TJ. A new statistical approach for assessing similarity of species composition with incidence and abundance data. Ecol Lett. 2005;8(2):148-59. [Crossref]
Hao M, Corral-Rivas JJ, González-Elizondo MS, Ganeshaiah KN, Nava-Miranda MG, Zhang C, et al. Assessing biological dissimilarities between five forest communities. For Ecosyst. 2019;6(30). [Crossref]

.: Güncel

.: İşlem Listesi

Türkçe İngilizce

Hakkımızda İletişim Görüş ve Öneri

Veri Politikamız Kullanım Şartları

Ortadoğu Reklam Tanıtım Yayıncılık Turizm Eğitim İnşaat Sanayi ve Ticaret A.Ş.

.: Adres

Türkocağı Caddesi No:30 06520 Balgat / ANKARA
Telefon: +90 312 286 56 56
E-posta: info@turkiyeklinikleri.com

.: Yazı İşleri Servisi

Telefon: +90 312 286 56 56/ 154 - 153
E-posta: yaziisleri@turkiyeklinikleri.com

.: İngilizce Dil Redaksiyonu

Telefon: +90 312 286 56 56/ 145
E-posta: tkyayindestek@turkiyeklinikleri.com

.: Reklam Servisi

Telefon: +90 312 286 56 56/ 142
E-posta: reklam@turkiyeklinikleri.com

.: Abone ve Halkla İlişkiler Servisi

Telefon: +90 312 286 56 56/ 197
E-posta: abone@turkiyeklinikleri.com

.: Müşteri Hizmetleri

Telefon: +90 312 286 56 56/ 197
E-posta: satisdestek@turkiyeklinikleri.com