Yapay zeka modellerinin performansını değerlendirmek için farklı kıyaslama yöntemleri kullanılsa da, son dönemde dikkat çeken yeni bir yaklaşım öne çıkıyor: Super Mario Bros. oynatarak test etmek. Kaliforniya Üniversitesi’ne bağlı Hao AI Lab adlı araştırma kuruluşu, en popüler yapay zeka modellerini bu klasik oyunla sınayarak ilginç sonuçlara ulaştı. Yapılan testlerde Anthropic’in Claude 3.7 modeli en başarılı yapay zeka olurken, onu Claude 3.5 takip etti. Google’ın Gemini 1.5 Pro ve OpenAI’ın GPT-4o modelleri ise beklenenden düşük performans göstererek şaşırttı.
Yapay zekaları kıyaslamak için Super Mario kullanılıyor
Bu deneyde kullanılan Super Mario Bros. oyunu, 1985’te piyasaya sürülen orijinal versiyonun birebir aynısı değildi. Yapay zekalar, GamingAgent adlı özel bir framework ile entegre edilen emülatör üzerinden Mario’yu kontrol etti. Sistem, “engel veya düşmanlardan kaçınmak için zıpla” gibi temel komutlar ve ekran görüntüleri sunarak modellerin aksiyon almasını sağladı. Yapay zekalar, Python kodları üreterek Mario’nun hareketlerini yönlendirdi. Araştırmacılara göre bu test, modellerin karmaşık manevraları planlama ve oyun içindeki stratejileri oluşturma yeteneğini ölçmek açısından oldukça önemliydi.
Beklenmedik bir şekilde, adım adım mantık yürütmeye dayalı çalışan “düşünen” modellerin sezgisel hareket edenlere göre daha başarısız olduğu görüldü. Özellikle OpenAI’ın güçlü performans sergileyen o1 modeli, bu testte başarısız oldu. Bunun başlıca nedeni, gerçek zamanlı oyunlarda karar verme sürecinin hızının kritik bir faktör olması. o1 gibi modeller, hamle yapmadan önce belirli bir süre boyunca analiz yapmaya ihtiyaç duyuyor. Ancak Super Mario Bros. gibi reflekslere dayalı bir oyunda, saniyelik bir gecikme bile karakterin kaybetmesine neden olabiliyor.
Oyunlar, onlarca yıldır yapay zekaların test edilmesi için kullanılan bir alan olsa da, bazı uzmanlar bu tür testlerin modellerin genel zekasını ölçmek açısından ne kadar doğru bir yöntem olduğu konusunda soru işaretleri taşıyor. Çünkü oyunlar genellikle belirli kurallara dayalı, soyut ortamlar sunuyor ve teorik olarak sonsuz miktarda veriyle eğitilebiliyor. Bu nedenle, bir yapay zekanın Super Mario Bros.’ta gösterdiği performansın, gerçek dünyadaki problem çözme yeteneğini ne kadar yansıttığı halen tartışmalı bir konu.