Yapay zeka ölçütleri ve bunların yapay zeka laboratuvarları tarafından nasıl raporlandığı konusundaki tartışmalar kamuoyunun gündemine taşınıyor. Bir OpenAI çalışanı Elon Musk’ın yapay zeka şirketi xAI’yi son AI modeli Grok 3 için yanıltıcı kıyaslama sonuçları yayınlamakla suçladı. xAI’nin kurucu ortaklarından biri olan Igor Babushkin, şirketin haklı olduğunu ileri sürdü.
xAI Grok 3 testleri
xAI’nin blogunda yayınlanan bir gönderide şirket, Grok 3’ün yakın zamanda yapılan bir davetli matematik sınavından alınan zorlu matematik sorularından oluşan AIME 2025’teki performansını gösteren bir grafik yayınladı. Bazı uzmanlar AIME’nin bir yapay zeka ölçütü olarak geçerliliğini sorguladı. Yine de AIME 2025 ve testin eski sürümleri genellikle bir modelin matematik yeteneğini araştırmak için kullanılıyor.
xAI’nin grafiği, Grok 3’ün iki çeşidini, Grok 3 Reasoning Beta ve Grok 3 mini Reasoning’i gösterdi ve AIME 2025’te OpenAI’nin en iyi performans gösteren mevcut modeli o3-mini-high’ı geride bıraktı. Ancak X’teki OpenAI çalışanları, xAI’nin grafiğinin o3-mini-high’ın AIME 2025 puanının “cons@64” olarak dahil edilmediğini hemen belirttiler.
cons@64 nedir diye sorabilirsiniz? Aslında, “consensus@64″ün kısaltması ve temel olarak bir modele 64’ün bir kıyaslamadaki her bir problemi yanıtlamaya çalışmasını sağlar ve en sık üretilen yanıtları nihai yanıtlar olarak alır. Tahmin edebileceğiniz gibi, cons@64 modellerin kıyaslama puanlarını oldukça artırma eğilimindedir ve bunu bir grafikten çıkarmak, gerçekte durum böyle olmasa da bir modelin diğerini geride bıraktığı izlenimini verebilir.
Grok 3 Reasoning Beta ve Grok 3 mini Reasoning’in AIME 2025’teki puanları “@1” yani modellerin kıyaslamada aldığı ilk puan, o3-mini-high’ın puanının altına düşüyor. Grok 3 Reasoning Beta ayrıca OpenAI’nin “orta” bilgi işlem için ayarlanmış o1 modelinin biraz gerisinde kalıyor. Yine de xAI, Grok 3’ü “dünyanın en akıllı AI’sı” olarak tanıtıyor.