Akademisyenler, ChatGPT yanıtlarının kalitesindeki düşüşe dikkat çekiyor. Stanford ve UC Berkeley’den bir araştırma ekibi, gerçekten bir bozulma olup olmadığını belirlemeye karar verdi ve değişimi ölçmek için bazı ölçütler tanımladı. Üç seçkin akademisyen, Matei Zaharia, Lingjiao Chen ve James Zou tarafından yakın zamanda yayınlanan araştırma makalesinin bulgularını UC Berkeley’den Bilgisayar Bilimi Profesörü Zaharia Twitter’da paylaştı. Mesajında, “Şaşırtıcı bir şekilde, GPT-4’ün ‘bu sayı asal mı?’ sorusu karşısındaki başarı oranı Mart’tan Haziran’a kadar %97,6’dan %2,4’e düştü” yazdı.
ChatGPT-4’nin doğruluk oranı düşüyor
GPT-4, yaklaşık iki hafta önce genel kullanıma sunuldu. OpenAI tarafından en gelişmiş ve yetenekli modeli olarak desteklendi. Bir dizi yeni yenilikçi AI ürününe güç sağlayabileceği iddia edilerek ödeme yapan API geliştiricilerine hızlı bir şekilde sunuldu.
Araştırma ekibi, ChatGPT’nin altında yatan büyük dil modelleri GPT-4 ve GPT-3.5’in aşağıdaki niteliksel yönlerini ölçmek için görevler tasarladı. Görevler, çeşitli yapay zeka becerilerini ölçen ve performansı değerlendirmek için nispeten basit olan dört kategoriye ayrılıyor.
- Matematik problemlerini çözme
- Hassas soruları yanıtlamak
- kod oluşturma
- Görsel muhakeme
Open AI LLM’lerin performansına genel bir bakış aşağıdaki tabloda yer alıyor.
Nispeten kısa olan bu süre zarfında önemli farklılıklar görülüyor. Bu LLM’lerin nasıl güncellendiği ve performanslarının bazı yönlerini iyileştirmeye yönelik değişikliklerin diğerlerini olumsuz etkileyip etkilemeyeceği belirsizliğini koruyor.
Bazıları, bu LLM’lerin ‘aynı sürümlerinde’ gözlemlenen değişken kaliteden rahatsız olmayabilir. Ancak araştırmacılar, “ChatGPT’nin popülaritesi nedeniyle, hem GPT-4 hem de GPT-3.5, bireysel kullanıcılar ve bir dizi işletme tarafından geniş çapta benimsenmiştir” diyor.
Araştırmacılar, daha uzun bir çalışmada GPT sürümlerini değerlendirmeye devam etme niyetlerini dile getirildi. Belki de Open AI, ödeme yapan müşterileri için kendi düzenli kalite kontrollerini izlemeli ve yayınlamalı.