xAI Grok 3 hakkında yalan mı söyledi?

- Advertisement -

Yapay zeka ölçütleri ve bunların yapay zeka laboratuvarları tarafından nasıl raporlandığı konusundaki tartışmalar kamuoyunun gündemine taşınıyor. Bir OpenAI çalışanı Elon Musk’ın yapay zeka şirketi xAI’yi son AI modeli Grok 3 için yanıltıcı kıyaslama sonuçları yayınlamakla suçladı. xAI’nin kurucu ortaklarından biri olan Igor Babushkin, şirketin haklı olduğunu ileri sürdü.

xAI Grok 3 testleri

xAI’nin blogunda yayınlanan bir gönderide şirket, Grok 3’ün yakın zamanda yapılan bir davetli matematik sınavından alınan zorlu matematik sorularından oluşan AIME 2025’teki performansını gösteren bir grafik yayınladı. Bazı uzmanlar AIME’nin bir yapay zeka ölçütü olarak geçerliliğini sorguladı. Yine de AIME 2025 ve testin eski sürümleri genellikle bir modelin matematik yeteneğini araştırmak için kullanılıyor.

Atık bazlı güneş pili yeni umut olacak!

Biyokütle türevi bir polimer kullanılarak yapılan hibrit organik-inorganik perovskit güneş hücresi (HPSC), yüzde 21,39'luk bir...

xAI’nin grafiği, Grok 3’ün iki çeşidini, Grok 3 Reasoning Beta ve Grok 3 mini Reasoning’i gösterdi ve AIME 2025’te OpenAI’nin en iyi performans gösteren mevcut modeli o3-mini-high’ı geride bıraktı. Ancak X’teki OpenAI çalışanları, xAI’nin grafiğinin o3-mini-high’ın AIME 2025 puanının “cons@64” olarak dahil edilmediğini hemen belirttiler.

cons@64 nedir diye sorabilirsiniz? Aslında, “consensus@64″ün kısaltması ve temel olarak bir modele 64’ün bir kıyaslamadaki her bir problemi yanıtlamaya çalışmasını sağlar ve en sık üretilen yanıtları nihai yanıtlar olarak alır. Tahmin edebileceğiniz gibi, cons@64 modellerin kıyaslama puanlarını oldukça artırma eğilimindedir ve bunu bir grafikten çıkarmak, gerçekte durum böyle olmasa da bir modelin diğerini geride bıraktığı izlenimini verebilir.

Grok 3 Reasoning Beta ve Grok 3 mini Reasoning’in AIME 2025’teki puanları “@1” yani modellerin kıyaslamada aldığı ilk puan, o3-mini-high’ın puanının altına düşüyor. Grok 3 Reasoning Beta ayrıca OpenAI’nin “orta” bilgi işlem için ayarlanmış o1 modelinin biraz gerisinde kalıyor. Yine de xAI, Grok 3’ü “dünyanın en akıllı AI’sı” olarak tanıtıyor.

En zayıf parolalar halen kullanılmaya devam ediliyor

Apple, komisyon kuralları konusunda duvara çarptı!

Elektrikli araç pili geri dönüşümü için engel ne?

WhatsApp 3 milyar kullanıcı barajını geride bıraktı!

Spotify Apple ödeme sistemiyle rekabet için güncelleme yayınladı

Google AI Mode artık aramada görünür olacak!

Deepfake yapımcıları tespit yöntemlerinden kaçabiliyor

Google, üçüncü parti sohbet botlarında reklam entegre ediyor!

Duolingo yapay zeka destekli 148 yeni ders açtı!

Wikipedia editörlerini yapay zeka ile mi değiştirecek?

En zayıf parolalar halen kullanılmaya devam ediliyor

Apple, 100 ülkede casus yazılım uyarısı yaptı!

AirPlay güvenlik açıkları cihazları etkiliyor

İHS Teknoloji’den yeni nesil siber güvenlik çözümü

Siber Güvenlikte Yapay Zekaya Aşırı Güvenmenin Gizli Riskleri

Türk Telekom Ventures PİLOT girişimleri Silikon Vadisi’nde!

Türk girişimciden ABD’de 1,2 Milyar Dolarlık Yeni Dev Tesis

Bezos destekli girişim elektrikli aracını duyurdu

Girişimlere yurtdışına açılma desteği geliyor!

Lonca Girişimcilik Merkezi’nin onuncu dönem programı tamamlandı

PayPal, tüm ekonomik belirsizliklere rağmen beklentileri aşmayı başardı!

Sipay’in yeni markası Hesap, bankacılığı daha erişilebilir hale getirecek!

Fintech devi Revolut, 2024’te 1 milyar dolar net geliri geride bıraktı!

RHYM, enstrüman dünyasının fintech’i olmayı hedefliyor!

Fintech entegrasyonları ve yapay zeka çözümleri

Teknoloji tarihinin en büyük hatası!

WhatsApp teknoloji tarihinin en kârlı satın alması mı?

Kalp yetmezliği tedavisinde yeni bir dönem!

KOSGEB Girişimlerini Seçiyor!

İstanbul’un merkezinde bir girişimcilik merkezi!

xAI Grok 3 hakkında yalan mı söyledi?

xAI Grok 3 testleri

Atık bazlı güneş pili yeni umut olacak!

SON VİDEO

Teknoloji tarihinin en büyük hatası!

CEVAP VER İptal

SDN NETWORK