Amaç: Ücretsiz erişim sağlanabilen ChatGPT-3.5, Copilot ve Gemini yapay zekâ sohbet botlarının oküler inflamasyon ve üveit alanındaki çoktan seçmeli sorulardaki başarısının soruların dil farklılığına bağlı olarak değişimlerini değerlendirmektir. Gereç ve Yöntemler: Oküler inflamasyon ve üveit ile ilgili 36 soru çalışmaya alındı. Her soru sertifikasyonlu çevirmen tarafından Türkçeye çevrildikten sonra hem İngilizce hem Türkçe versiyonları yapay zekâ programlarına uygulandı. Sorular cevap anahtarı ile karşılaştırılarak doğru ve yanlış olarak gruplandırıldı. Doğru cevaplama düzeyleri istatistiksel olarak karşılaştırıldı. Bulgular: İngilizce sorulan sorulara ChatGPT-3.5, Copilot ve Gemini sırası ile %63,9, %63,9 ve %50 oranında doğru cevap verdi. Türkçe sorulara ChatGPT-3.5, Copilot ve Gemini sırası ile %52,8, %52,8 ve %66,7 oranında doğru cevap verdi. ChatGPT-3.5, Copilot ve Gemini İngilizce ve Türkçe sorulan soruların sırası ile %22,2'sine, %30,6'sına ve %25'ine farklı cevaplar üretti. ChatGPT-3.5'in farklı cevaplar ürettiği soruların %75'i; Copilot'un farklı cevaplar ürettiği soruların %63,6'sı; Gemini'nin farklı cevaplar ürettiği soruların %22,2'si İngilizce sorulduğunda doğru cevaplanmışken Türkçe sorulduğunda yanlış cevaplandı. Yapay zekâ programları İngilizce ve Türkçe soruları cevaplamada farklı doğru cevap oranına sahip olsa da başarıları arasında istatistiksel olarak anlamlı düzeyde bir fark gözlenmedi (p>0,05). Sonuç: Yapay zekâ programları her ne kadar üvea alanında umut vadetse de bilgi düzeyleri ve dil çeviri, algılama ve cevap verebilme kabiliyetlerinin geliştirilmeye ihtiyacı vardır.
Anahtar Kelimeler: ChatGPT-3.5; Copilot; Gemini; İngilizce ve Türkçe; oküler inflamasyon ve üveit
Objective: To evaluate the changes in the success of free-accessible ChatGPT-3.5, Copilot, and Gemini artificial intelligence chatbots in multiple choice questions in the field of ocular inflammation and uveitis depending on the language difference of the questions. Material and Methods: Thirty-six questions regarding ocular inflammation and uveitis were included in the study. After each question was translated into Turkish by a native speaker, both English and Turkish versions were applied to artificial intelligence programs. The questions were grouped as correct and incorrect by comparing them with the answer key. Correct answer levels were compared statistically. Results: ChatGPT-3.5, Copilot and Gemini correctly answered the questions asked in English at a rate of 63.9%, 63.9%, and 50%, respectively. ChatGPT-3.5, Copilot and Gemini answered the Turkish questions correctly at 52.8%, 52.8%, and 66.7%, respectively. ChatGPT-3.5, Copilot and Gemini produced different answers to 22.2%, 30.6%, and 25% of questions asked in English and Turkish, respectively. Seventy-five percent of the questions for which ChatGPT-3.5 produced different answers; 63.6% of the questions for which Copilot produced different answers; and 22.2% of the questions for which Gemini produced different answers were answered correctly when asked in English but incorrectly when asked in Turkish. Although the artificial intelligence programs had different correct answer rates in answering English and Turkish questions, there was no statistically significant difference between their success (p>0.05). Conclusion: Although artificial intelligence programs are promising in uveitis, their knowledge levels and language translation, perception, and response capabilities need to be improved.
Keywords: ChatGPT-3.5; Copilot; Gemini; English and Turkish; ocular inflammation and uveitis
