ChatGPT’yi sıkıcı bir iki e-posta yazmak için kullanmakta sakınca görmeyebilirsiniz, ancak ChatGPT doktorluk konusunda ona güvenir miydiniz? Yeni araştırmalar muhtemelen güvenmemeniz gerektiğini gösteriyor.
ChatGPT doktorluk mesleğini yapamıyor
Plos One dergisinde yayınlanan yeni bir çalışmada ayrıntılı olarak açıklandığı üzere, 150 tıbbi vaka sunulduktan sonra, ChatGPT doktorluk yeteneklerinden yoksun olduğunu gösterdi. Yapay zekalı chatbot yalnızca zamanın yarısından daha azında doğru tanı koydu.
Araştırmacılar, bulguların ChatGPT’nin mevcut haliyle “bir teşhis aracı olarak doğru olmadığını” gösterdiğini ve bunun da Google gibi şirketlerin hastanelerde kullanılan ChatGPT doktorluk chatbotlarıyla ilgili denemelerini sorgulanır hale getireceğini yazdı. Yapay zeka modelleri özellikle tıbbi amaçlar için piyasaya sürüldüğünden, yazarlar halkın teknolojinin yeteneklerini abartacağından endişe ediyor.
Çalışmanın eş yazarı ve Western Üniversitesi yardımcı doçenti Amrit Kirpalani Live Science’a verdiği demeçte, “İnsanlar korkmuş, kafası karışmış ya da bakıma erişememişse, kendileri için ‘kişiye özel’ tıbbi tavsiyeler sunuyormuş gibi görünen bir araca güvenebilirler” dedi.
Kirpalani: “Tıp camiası olarak (ve daha geniş bilim camiası içinde) genel nüfusu bu araçların sınırlılıkları konusunda eğitme konusunda proaktif olmamız gerektiğini düşünüyorum. Henüz doktorunuzun yerini almamalılar” dedi.
Araştırmacılar deneylerinde ChatGPT’nin büyük dil modeli GPT 3.5’i, tıp uzmanları için çevrimiçi bir kaynak olan Medscape’ten halihazırda doğru bir şekilde teşhis edilmiş çeşitli tıbbi vakalarla beslediler. ChatGPT doktorluk uygulamasında başarısız oldu. Ayrıca, ChatGPT’nin eğitim verilerine dahil edilmediklerinden emin olmak için yalnızca Ağustos 2021’den sonraki vakaları seçtiler. İşleri adil hale getirmek için ChatGPT ayrıca hasta geçmişine, fizik muayenelerden elde edilen bulgulara ve laboratuvar ve görüntüleme sonuçlarına da baktı.
Her vakada bot, yalnızca biri doğru olmak üzere dört farklı çoktan seçmeli cevap arasından seçim yapmak zorundaydı. Ayrıca teşhisin arkasındaki mantığı açıklaması ve bazı durumlarda alıntılar sunması gerekiyordu.
ChatGPT bir tıp öğrencisi olsaydı, tam bir F alırdı: zamanın sadece yüzde 49’unda doğru teşhisi koydu ve zamanın sadece yüzde 52’sinde “tam ve ilgili” cevaplar verdi. Ancak genel doğruluk oranı çok daha iyiydi. Bu kriter, ChatGPT’nin tüm çoktan seçmeli seçenekler arasında yanlış seçenekleri atma becerisini değerlendirdi. Yüzde 74 puan aldı. Yani ChatGPT doktorluk yapmadaki başarısızlığına rağmen, neyin yanlış olduğunu fark etmede şaşırtıcı derecede iyiydi.