Nvidia ve Avrupa’nın yapay zeka öncüsü Mistral AI, iş bilgisayarlarında çalışması hedeflenen yeni yapay zeka modeli Mistral-NeMo‘yu tanıttı. 12 milyar parametre ve 128 bin token‘lık geniş bir bağlam penceresine sahip olan model, güçlü yapay zeka yetenekleriyle dikkat çekiyor.
Nvidia’nın verdiği bilgilere göre, Mistral-NeMo, NVIDIA NeMo‘nun bir parçası olan Megatron-LM kullanılarak, NVIDIA AI mimarisinden oluşan DGX Cloud üzerinde 3.072 H100 80GB Tensor Core GPU ile eğitildi. Model, Apache 2.0 lisansı altında piyasaya sürülecek.
Nvidia’nın uygulamalı derin öğrenme araştırmaları başkan yardımcısı Ryan Catanzaro, Mistral ile yapılan ortaklığın daha kompakt ama güçlü bir modelin ortaya çıkmasını sağladığını belirtti. Catanzaro, Mistral-NeMo‘nun pek çok kişinin sahip olduğu RTX GPU‘larda çalışabileceğini ifade etti.
Küresel ve çok dilli uygulamalar için tasarlanan model, İngilizce, Fransızca, Almanca, İspanyolca, İtalyanca, Portekizce, Çince, Japonca, Korece, Arapça ve Hintçe gibi birçok dilde güçlü performans sergiliyor. Mistral-NeMo, Tiktoken tabanlı yeni bir tokenizer olan Tekken‘i kullanarak, önceki Mistral modellerinde kullanılan SentencePiece tokenizer‘a göre doğal dil metinlerini ve kaynak kodunu daha verimli bir şekilde sıkıştırıyor. Tekken, Llama 3 tokenizerile karşılaştırıldığında tüm dillerin yaklaşık yüzde 85‘i için metin sıkıştırmada daha yetkin.
Model, Gemma 2 9B ve Llama 3 8B ile karşılaştırıldığında, Llama 3 8B’yi tüm ölçütlerde, Gemma 2 9B’yi ise MMLU (Kitlesel Çoklu Görev Dil Anlayışı) ölçütü dışında tüm ölçütlerde geride bırakıyor.
Son haftalarda, küçük yapay zeka modelleri gündemdeki yerini koruyor. Meta, mobil cihazlar için kompakt büyük dil modeli MobileLLM‘i tanıtırken, Hugging Face, mobil cihazlar için küçük dil modeli SmolLM ile öne çıktı. OpenAI ise ChatGPT‘nin yeni hafif modeli GPT-4o mini‘yi duyurdu. Cihaz üzerinde çalışan bu küçük yapay zeka modellerinin, yapay zekanın erişilebilirliğini ve hayatımızdaki etkisini nasıl değiştireceğini zamanla göreceğiz.