Yapay zekaları kıyaslamak için Super Mario kullanıldı!

- Advertisement -

Yapay zeka modellerinin performansını değerlendirmek için farklı kıyaslama yöntemleri kullanılsa da, son dönemde dikkat çeken yeni bir yaklaşım öne çıkıyor: Super Mario Bros. oynatarak test etmek. Kaliforniya Üniversitesi’ne bağlı Hao AI Lab adlı araştırma kuruluşu, en popüler yapay zeka modellerini bu klasik oyunla sınayarak ilginç sonuçlara ulaştı. Yapılan testlerde Anthropic’in Claude 3.7 modeli en başarılı yapay zeka olurken, onu Claude 3.5 takip etti. Google’ın Gemini 1.5 Pro ve OpenAI’ın GPT-4o modelleri ise beklenenden düşük performans göstererek şaşırttı.

Yapay zekaları kıyaslamak için Super Mario kullanılıyor

Bu deneyde kullanılan Super Mario Bros. oyunu, 1985’te piyasaya sürülen orijinal versiyonun birebir aynısı değildi. Yapay zekalar, GamingAgent adlı özel bir framework ile entegre edilen emülatör üzerinden Mario’yu kontrol etti. Sistem, “engel veya düşmanlardan kaçınmak için zıpla” gibi temel komutlar ve ekran görüntüleri sunarak modellerin aksiyon almasını sağladı. Yapay zekalar, Python kodları üreterek Mario’nun hareketlerini yönlendirdi. Araştırmacılara göre bu test, modellerin karmaşık manevraları planlama ve oyun içindeki stratejileri oluşturma yeteneğini ölçmek açısından oldukça önemliydi.

Claude-3.7 was tested on Pokémon Red, but what about more real-time games like Super Mario 🍄🌟?

We threw AI gaming agents into LIVE Super Mario games and found Claude-3.7 outperformed other models with simple heuristics. 🤯

Claude-3.5 is also strong, but less capable of… pic.twitter.com/bqZVblwqX3
— Hao AI Lab (@haoailab) February 28, 2025

Beklenmedik bir şekilde, adım adım mantık yürütmeye dayalı çalışan “düşünen” modellerin sezgisel hareket edenlere göre daha başarısız olduğu görüldü. Özellikle OpenAI’ın güçlü performans sergileyen o1 modeli, bu testte başarısız oldu. Bunun başlıca nedeni, gerçek zamanlı oyunlarda karar verme sürecinin hızının kritik bir faktör olması. o1 gibi modeller, hamle yapmadan önce belirli bir süre boyunca analiz yapmaya ihtiyaç duyuyor. Ancak Super Mario Bros. gibi reflekslere dayalı bir oyunda, saniyelik bir gecikme bile karakterin kaybetmesine neden olabiliyor.

Dünyanın ilk paslanmaz çelik SD kartı geliştirildi!

Lexar, yeni ARMOR serisi ile dünyanın ilk paslanmaz çelik SD kartlarını tanıttı. Lexar ARMOR GOLD...

Oyunlar, onlarca yıldır yapay zekaların test edilmesi için kullanılan bir alan olsa da, bazı uzmanlar bu tür testlerin modellerin genel zekasını ölçmek açısından ne kadar doğru bir yöntem olduğu konusunda soru işaretleri taşıyor. Çünkü oyunlar genellikle belirli kurallara dayalı, soyut ortamlar sunuyor ve teorik olarak sonsuz miktarda veriyle eğitilebiliyor. Bu nedenle, bir yapay zekanın Super Mario Bros.’ta gösterdiği performansın, gerçek dünyadaki problem çözme yeteneğini ne kadar yansıttığı halen tartışmalı bir konu.

Katlanabilen e-kitap okuyucu bir ilk oldu!

Netflix yapay zeka ile keşfi iyileştiriyor

Çin çip üretiminde daha güçlü olacak

Drone kargo teslimatı Avustralya’ya genişliyor

Çin otonom sürüş için sert tedbirler alıyor

Netflix yapay zeka ile keşfi iyileştiriyor

Volkswagen dahili yapay zeka teknolojisini tanıttı

ChatGPT görüntülerle düşünme özelliği kazandı

Sentetik beyin girişimi 6 milyon dolar topladı

Copilot Studio görevleri nasıl otomatikleştiriyor?

22 yaşındaki kripto dahisi 65 milyon dolarlık vurgunla kayıplara karıştı!

Çin, ABD’yi siber saldırı ile suçluyor!

Apple kullanıcı verilerini cihaz üzerinde analiz edecek

Yaya geçidi düğmeleri siber saldırı ile değiştirildi

OpenAI kimlik doğrulama isteyecek

Lonca Girişimcilik Merkezi’nin onuncu dönem programı tamamlandı

Sentetik beyin girişimi 6 milyon dolar topladı

Girişimcilere Özel Pazarlama Koçluğu

Türkiye’nin şarj istasyonu kapsamı genişleyecek

Oyun fonları girişimciler için yeni fırsatlar sunuyor

Fintech sektörüne videolu kimlik doğrulama geliyor

Fintek şirketi Sipay 78 milyon dolar yatırım aldı!

Akbank, AkTech teknoloji şirketini kurdu!

Flow48, Seri A turunda 69 milyon dolar yatırım aldı!

Buy Now Pay Later sistemleri ve e-ticaret

WhatsApp teknoloji tarihinin en kârlı satın alması mı?

Kalp yetmezliği tedavisinde yeni bir dönem!

KOSGEB Girişimlerini Seçiyor!

İstanbul’un merkezinde bir girişimcilik merkezi!

Future of Mobility’25 düzenlendi! Elektrifikasyon ve otonom teknolojiler sahnede

Yapay zekaları kıyaslamak için Super Mario kullanıldı!

Yapay zekaları kıyaslamak için Super Mario kullanılıyor

Dünyanın ilk paslanmaz çelik SD kartı geliştirildi!

SON VİDEO

WhatsApp teknoloji tarihinin en kârlı satın alması mı?

CEVAP VER İptal

SDN NETWORK