Meta, dil performansında önde gelen OpenAI GPT-4 modeline meydan okuyabilecek, Llama 2 olarak adlandırılan yeni dil modeli (LLM’ler) setini Microsoft Azure üzerinden yayınladı. Meta, şirketlerin kendi özel modellerini ücretsiz olarak üzerine oluşturabilmeleri için yeni modelleri açık kaynak olarak sunuyor.
Meta, Llama 2 modellerini Microsoft Azure bulutundan kolayca erişilebilir hale getirmek için Microsoft ile ortaklık kurduğunu söylüyor.
Önceden eğitilmiş ve ince ayarlanmış Llama 2 modellerinin boyutu 7 milyar ila 70 milyar parametre arasında değişiyor. Llama 2 araştırma makalesi özetinde, “Modellerimiz, test ettiğimiz çoğu kıyaslamada açık kaynaklı sohbet modellerinden daha iyi performans gösteriyor, yardımseverlik ve güvenlik için insan değerlendirmelerimize dayanarak, kapalı kaynaklı modeller için uygun bir alternatif olabilir.” ifadesi yer alıyor.
Meta, Fast Company’ye Llama 2 modellerinin orijinal Llama 1 modellerinden %40 daha fazla jeton (kelime veya kelime parçaları) üzerinde eğitildiğini ve 4.000 jetona kadar çok daha uzun istemleri okuyup hatırlayabildiğini söyledi.
Meta, çalışmalarını desteklemek ve en iyi AI yeteneklerini işe almak için büyük ve güçlü bir AI araştırma organizasyonuna ve bol miktarda paraya sahip. Şirket yıllardır kendi büyük dil modelleri üzerinde çalışıyor, ancak OpenAI’nin yaptığı gibi diğer şirketlerden bunlara erişim için ücret almak yerine modellerinin çoğunu açık kaynak kullanmayı seçti.
Mevcut AI silahlanma yarışının ortasında, çoğu AI geliştiricisinin yöntemleri hakkında giderek daha gizli hale geldiği zaman, Meta, modellerin çeşitli sürümleri için parametre ağırlıklarını ve başlangıç kodunu içeren Llama 2’nin geliştirilmesi hakkında araştırma makalesi yayınladı. Bununla birlikte, araştırma makalesi, geliştiricilerin Llama 2’yi eğitmek için kullandıkları tam eğitim ve insan koçluğu yöntemlerini tekrarlamaları için yeterli ayrıntı içermiyor.
Llama 2, performansı ve esnekliği nedeniyle açık kaynak topluluğundan şimdiden yüksek notlar alıyor.
Bununla birlikte, bazıları Llama’nın OpenAI‘in modellerine henüz tüm alanlarda (örneğin kodlamada) meydan okuyamayabileceğine dikkat çekti. Nvidia Kıdemli AI Bilimcisi Jim Fan, ”HumanEval’de, StarCoder veya kodlama için özel olarak tasarlanmış diğer birçok model kadar iyi değil.” diyor. “Bununla birlikte, Llama-2‘nin önemli ölçüde gelişeceğinden çok az şüphem var.”
Meta’nın Microsoft ile giderek daha yakın ilişkisi, kısmen Microsoft’a ait olan ve AI modellerini çalıştırmak için gereken devasa bilgi işlem gücü için büyük ölçüde Microsoft’un Azure sunucularına dayanan OpenAI için de etkileri olabilir.
Geliştiriciler artık Azure AI model kataloğundan Llama 2’yi seçebilecek ve üzerine inşa etmeye başlayabilecek; ortaya çıkan özel modeller Microsoft bulutunda barındırılacak.
Meta, Azure bulutunda bulunan içerik filtreleme ve diğer güvenlik araçlarını kullanabileceklerini söylüyor ve Llama 2’nin “Windows’ta yerel olarak çalışacak şekilde optimize edilmiş” olduğunu da sözlerine ekledi. Ancak Llama 2, Azure’a özel değil; Amazon Web Services, Hugging Face ve diğerleri aracılığıyla da kullanılabiliyor.
Meta, geçen hafta metin istemlerinden yüksek kalitede görüntüler üreten ve mevcut görüntüler için altyazılar yazan CM3leon adlı yeni bir metinden görüntüye modeli duyurduğunda OpenAI ve Google’a ciddi bir şekilde meydan okuma hırsının sinyalini verdi.