OpenAI’nin o3 AI modeli için birinci ve üçüncü taraf kıyaslama sonuçları arasındaki tutarsızlık, şirketin şeffaflığı ve model test uygulamaları hakkında soruları gündeme getiriyor. OpenAI Aralık ayında o3’ü tanıttığında, şirket modelin FrontierMath’teki soruların dörtte birinden biraz fazlasını, yani zorlu bir matematik problemlerini yanıtlayabileceğini iddia etti. Bu puan rekabeti alt üst etti. Bir sonraki en iyi model FrontierMath problemlerinin yalnızca yaklaşık %2’sini doğru yanıtlamayı başardı.
OpenAI o3 modeli açıklanandan daha düşük seviyedeydi
OpenAI’da baş araştırma görevlisi olan Mark Chen: “Bugün, piyasadaki tüm teklifler FrontierMath’te %2’den az. Dahili olarak, agresif test zamanı hesaplama ayarlarında o3 ile %25’in üzerine çıkabildiğimizi görüyoruz” dedi. Görünen o ki, bu rakam büyük ihtimalle OpenAI’ın geçen hafta kamuoyuna duyurduğu modelden daha fazla hesaplama gücüne sahip bir o3 versiyonu tarafından elde edilmiş bir üst sınırdı.
FrontierMath’in arkasındaki araştırma enstitüsü olan Epoch AI, cuma günü o3’ün bağımsız kıyaslama testlerinin sonuçlarını yayınladı. Epoch, OpenAI o3 modelinin, OpenAI’nin iddia edilen en yüksek puanının oldukça altında, yaklaşık %10 puan aldığını buldu.
Bu, OpenAI’nin yalan söylediği anlamına gelmiyor. Şirketin Aralık ayında yayınladığı kıyaslama sonuçları, Epoch’un gözlemlediği puanla eşleşen bir alt sınır puanı gösteriyor. Epoch ayrıca test kurulumunun OpenAI’ninkinden muhtemelen farklı olduğunu ve değerlendirmeleri için FrontierMath’in güncellenmiş bir sürümünü kullandığını belirtti.
Epoch, “Sonuçlarımız ile OpenAI’nin sonuçları arasındaki fark, OpenAI’nin daha güçlü bir dahili yapı iskelesi ile değerlendirme yapmasından, daha fazla test zamanı hesaplama kullanmasından veya bu sonuçların FrontierMath’in farklı bir alt kümesinde çalıştırılmış olmasından (frontiermath-2024-11-26’daki 180 problem ile frontiermath-2025-02-28-private’deki 290 problem) kaynaklanıyor olabilir” diye yazdı. Ancak bu farklılık, OpenAI o3 modeli ile daha fazla test zamanı hesaplama yapılabilen versiyonları kıyaslamalarına dayandığına işaret eder.
ARC Prize: “Yayınlanan tüm o3 hesaplama katmanları, karşılaştırmalı yaptığımız versiyondan daha küçüktür” dedi. Genel olarak konuşursak, daha büyük hesaplama katmanlarının daha iyi kıyaslama puanları elde etmesi beklenebilir.