Karşılaştırmalı performans sonuçları genellikle her yeni AI modelinin lansmanına eşlik ediyor ve modellerin çeşitli görevlerde ne kadar iyi performans gösterebileceğini gösteriyor. Ancak, bu görevler bireysel endüstrilere yönelik değildir, ilkokul matematiği (GSM8K) veya lisansüstü düzeyde akıl yürütme (GPQA) gibi daha geneldir.
Sektöre özgü yapay zeka çözümleri
Bu boşluğu doldurmak için OpenAI, belirli endüstriler ve gerçek dünya kullanım durumları için AI modeli geliştirmeyi ilerletmeyi amaçlayan OpenAI Pioneers Programını başlattı. Program, şirketlerin daha fazla alana özgü değerlendirmeler ve ince ayarlı modeller geliştirmek için OpenAI araştırmacılarıyla iş birliği yapacağı iki yönlü bir çabadır.
OpenAI, blog yazısında “hukuk, finans, sigorta, sağlık, muhasebe ve diğer birçok sektör, model kıyaslaması için birleşik bir gerçeklik kaynağından yoksun” ifadesini kullandı. Sonuç olarak, OpenAI artık bu değerlendirmeleri geliştirmek için her sektörden birden fazla şirketle birlikte çalışacak. Bu değerlendirmeler yalnızca modeller geliştirmeyi değil, aynı zamanda halk ile bu sistemler arasında daha iyi bir güven oluşturmayı da amaçlıyor.
Araştırma, bu kıyaslama boşluğunu kurumsal kullanım durumları için AI’da büyük bir boşluk olarak vurguladı. Örneğin, Salesforce AI Research başkanı Silvio Savarese, öncülüğünü yaptığı ve işletmelerin alan-özel ihtiyaçlarına göre uyarlanmış daha gelişmiş AI çözümlerini ifade eden bir kavram olan Enterprise General Intelligence (EGI) hakkında bir blog yazısı yayınladı. EGI’ye ulaşmak için gereken en önemli adımlardan birinin alan-özel işlevleri değerlendirmeyi amaçlayan kıyaslamalar olduğunu paylaştı.