Techinside Google News
Techinside Google News

ChatGPT-4 Turbo rekabette üstünlük kuruyor

Chatbot Arena’da 45 farklı yapay zeka modeli ile derecelendirme yapıldı. Bu derecelendirmede ChatGPT-4 Turbo büyük üstünlük kurdu.
- Advertisement -

Chatbot Arena, 45 yapay zeka modeli için kitle kaynak derecelendirmesi yapıyor. 130.000’den fazla kör derecelendirme, ChatGPT-4 Turbo’nun rekabette üstünlük sağladığını gösteriyor.

Yapay zeka ortamı düzinelerce farklı büyük dil modelini (LLM) kapsayacak şekilde genişledikçe, herhangi bir soruya hangi modelin “en iyi” yanıtları sağlıyor. Dolayısıyla buna dair tartışmalar da çoğaldı artıyor. Çeşitli modelleri karşılaştırmanın daha titiz bir yolunu arayanlar için Büyük Model Sistemler Organizasyonu’ndaki (LMSys) kişiler, kitle kaynaklı bir kör test web sitesine dayalı olarak LLM’ler için Elo tarzı sıralamalar oluşturmaya yönelik bir platform olan Chatbot Arena’yı kurdu.

ChatGPT-4 Turbo rekabette öne çıkıyor

Chatbot Arena kullanıcıları, rastgele seçilen iki modelden gelen yanıtları yan yana görmek için akıllarına gelen herhangi bir istemi sitenin formuna girebiliyor. Her modelin kimliği başlangıçta gizlidir ve model, yanıtın kendisinde kimliğini ortaya çıkarırsa sonuçlar geçersiz kılınıyor. Kullanıcı daha sonra “berabere” veya “her ikisi de kötü” gibi ek seçeneklerle birlikte “daha iyi” sonuç olarak değerlendirdiği modeli seçiyor. Kullanıcı ancak ikili bir sıralama sağladıktan sonra hangi modelleri değerlendirdiğini görebiliyor. Ancak sitenin ayrı bir “yan yana” bölümü kullanıcıların karşılaştırma için iki belirli modeli seçmesine olanak tanıyor.

LMSys, Mayıs ayındaki halka açık lansmanından bu yana, 45 farklı modelde (Aralık başı itibarıyla) 130.000’den fazla kör çift derecelendirme topladığını açıkladı. OpenAI’den Andrej Karpathy’nin yakın zamanda LMSys’in sunucuları için “süper stres testi” olarak tanımladığı duruma yol açan olumlu incelemesinin ardından bu sayıların hızla artacağı görülüyor.

Chatbot Arena’nın binlerce ikili derecelendirmesi , hangi modelin diğerine karşı doğrudan rekabette kazanma olasılığının en yüksek olduğunu tahmin eden Elo tarzı bir derecelendirme oluşturmak için rastgele örnekleme kullanan bir Bradley-Terry modeli aracılığıyla hesaplanıyor. İlgilenen taraflar ayrıca kendileri için on binlerce insan istemi/yanıt derecelendirmesinin ham verilerini inceleyebiliyor. Ayrıca modeller arasındaki doğrudan ikili kazanma oranları ve bu Elo tahminleri için güven aralığı aralıkları gibi daha ayrıntılı istatistikleri inceleyebiliyor.

Siz bu konu hakkında ne düşünüyorsunuz? Görüşlerinizi yorumlarda paylaşın!

SON VİDEO

TÜMÜ

CEVAP VER

Lütfen yorumunuzu giriniz!
Lütfen isminizi buraya giriniz

İlginizi çekebilir