OpenAI’nin kısa süre önce tanıttığı o3 ve o4-mini adlı yeni yapay zekâ modelleri, gelişmiş akıl yürütme yetenekleriyle dikkat çekiyor. Ancak bu gelişmişlik, beklenmeyen bir yan etkiyle geliyor: Artan halüsinasyon oranları.
Yeni modeller güçlü ama daha fazla yanlış bilgi üretiyor
OpenAI’nin iç testlerine göre, bu modeller önceki sürümlerine göre çok daha fazla yanlış ya da uydurma bilgi üretiyor. Örneğin şirketin kendi geliştirdiği PersonQA testinde, o3 modeli soruların %33’ünde, o4-mini ise %48’inde halüsinasyon üretiyor. Oysa önceki modeller olan o1 ve o3-mini’nin bu oranları %16 ve %14,8’di.
Neden Halüsinasyonlar Arttı?
OpenAI bu artışın nedenlerini henüz açıklayamıyor. Teknik raporlarda, bu durumun daha fazla araştırılması gerektiği belirtiliyor. Modellerin daha “atılgan” olması, hem daha fazla doğru yanıt hem de daha fazla yanlış bilgiye yol açabiliyor.
Bağımsız Testlerden Endişe Verici Sonuçlar
Transluce adlı bağımsız bir laboratuvar, o3 modelinin bazen hiç yapmadığı şeyleri yapmış gibi gösterdiğini söylüyor. Örneğin model, bir MacBook Pro’da kod çalıştırdığını iddia etti – bu teknik olarak imkânsız.
Kullanımda Dikkat Gerekiyor
Stanford Üniversitesi’nden Kian Katanforoosh, o3 modelinin kodlama süreçlerinde çok başarılı olduğunu belirtiyor. Ancak modelin çalışmayan bağlantılar üretme eğilimi, hassas alanlarda (örneğin hukuk ya da sağlık) ciddi riskler oluşturabilir.
Halüsinasyonlar bazı durumlarda yaratıcı fikirler üretmeye yardımcı olabilir. Ancak doğruluk gerektiren işlerde, bu modeller dikkatli kullanılmalı ve verdikleri yanıtlar mutlaka kontrol edilmelidir.