OpenAI, düzenlediği 12 günlük etkinliğin sonunda yapay zeka dünyasında büyük bir yankı uyandırarak yeni modeli o3’ü duyurdu. o1’in devamı niteliğinde olan bu model, o3-mini isimli daha kompakt bir versiyonuyla birlikte tanıtıldı. Şirket, o3’ün mevcut yapay zeka sistemlerine göre çok daha gelişmiş bir insan benzeri düşünme yeteneğine sahip olduğunun altını çiziyor. Karmaşık matematiksel işlemler, ileri düzey bilimsel analizler ve kodlama gibi alanlarda sergilediği yüksek performansla dikkat çeken o3, yapay zekanın geleceğine yeni bir perspektif kazandırıyor. Modelin mantıksal çıkarım yeteneklerini test eden benchmark sonuçlarında da belirgin bir üstünlük sağladığı ifade ediliyor.
OpenAI o3 resmen görücüye çıktı
OpenAI’nin tercihlerini şekillendiren ilginç bir detay da model ismiyle ilgili. Şirket, İngiliz telekomünikasyon firması O2 ile yaşanabilecek ticari marka sorunları nedeniyle o2 ismini atlayarak o3’ü seçtiğini açıkladı. Henüz genel kullanıma açılmamış olan o3 ve o3-mini, şimdilik yalnızca güvenlik araştırmacılarının erişebileceği önizleme sürümünde sunuluyor. OpenAI CEO’su Sam Altman, o3-mini’nin Ocak 2025’te, tam sürüm olan o3’ün ise kısa bir süre sonra piyasaya çıkacağını belirtti. İlk etapta bu modellerin, ChatGPT Plus ve Pro kullanıcılarına öncelikli olarak sunulacağı da açıklandı.
o3’ün dikkat çekici özelliklerinden biri, bir problemi adım adım analiz ederek çözüm sürecini şekillendirme yeteneği. Bu özellik, modele belirli bir düşünce süresi tanınarak optimize edilebiliyor. Ayrıca, verilen bir komut doğrultusunda çözüme ulaşmadan önce modelin mantığını açıklaması, yanlış bilgi riskini azaltmak adına önemli bir avantaj sağlıyor. Ancak bu gelişmiş süreç, yanıt sürelerini uzatıyor; o3, çözüm odaklı yaklaşımları nedeniyle geleneksel modellere göre daha fazla zamana ihtiyaç duyuyor.
Yapay genel zeka (AGI) tartışmalarını yeniden alevlendiren o3, ARC-AGI gibi testlerde olağanüstü sonuçlar elde ederek bu alandaki yerini sağlamlaştırıyor. O1 modeli yüzde 25 ile 32 arasında bir başarı gösterirken, o3 bu oranı yüzde 87,5’e çıkararak insan seviyesindeki performansa daha da yaklaşıyor. Bunun yanı sıra matematik gibi uzmanlık gerektiren alanlarda rakiplerini açık ara geride bırakan model, AIME 2024 ve GPQA Diamond gibi değerlendirme platformlarında rekor kıran başarı oranlarına ulaşıyor. Hatta EpochAI’nın Frontier Math testinde çözüme ulaştığı problemlerin oranı, diğer sistemlerin yüzde 2’yi bile aşamadığı bir noktada yüzde 25,2 oldu.
OpenAI ayrıca, kullanıcıların yasa dışı faaliyetlerde bulunmasını engellemek amacıyla bir güvenlik prosedürü geliştirdiğini açıkladı. “Düşünceli hizalama” olarak adlandırılan bu teknik, modele bir soruya yanıt vermeden önce güvenlik odaklı bir dizi adımı takip ettiriyor. Bu sistemin, hem o3’ün işlevselliğini hem de etik kurallara uygunluğunu daha da ileriye taşıyacağı ifade ediliyor.