MLCommons bugün, hem Habana® Gaudi®2 derin öğrenme hızlandırıcısının hem de 4. Nesil Intel® Xeon® Scalable işlemcinin etkileyici eğitim sonuçlarının sunulduğu sektörel yapay zekâ performans ölçütü MLPerf Training 3.0’ın sonuçlarını yayınladı. “MLCommons’ın yayınladığı en son MLPerf sonuçları, Intel Xeon işlemcilerin ve Intel Gaudi derin öğrenme hızlandırıcılarının yapay zekâ alanında müşterilere sağladığı TCO değerini doğruluyor. Xeon yerleşik hızlandırıcıları sayesinde genel amaçlı işlemcilerde yüksek hacimli yapay zekâ iş yüklerini çalıştırmak için ideal bir çözüm haline gelirken, Gaudi ise büyük dil modelleri ve üretken yapay zekâ için rekabetçi performans sunuyor. Intel’in optimize edilmiş, programlaması kolay açık yazılıma sahip ölçeklenebilir sistemleri, müşterilerin ve iş ortaklarının veri merkezinde buluttan akıllı uca kadar geniş bir yelpazede yapay zekâya dayalı çözümler sunmasının önündeki engelleri azaltıyor.”
Intel Başkan Yardımcısı ve Veri Merkezi ve Yapay Zekâ Grubu Genel Müdürü Sandra L. Rivera Endüstrideki mevcut anlatı, üretken yapay zekâ ve büyük dil modellerinin (LLM’ler) yalnızca Nvidia GPU’larda çalışabileceği yönünde. Oysa yeni veriler, Intel’in yapay zekâ çözümleri portföyünün, verimliliği ve ölçeği sınırlayan kapalı ekosistemlerden kurtulmak isteyen müşteriler için rekabetçi ve cazip seçenekler sunduğunu gösteriyor. En son MLPerf Training 3.0 sonuçları, Intel ürünlerinin bir dizi derin öğrenme modeli üzerindeki performansını vurguluyor. Eğitim için Gaudi2 tabanlı yazılım ve sistemlerin olgunluğu, büyük dil modeli GPT-3 üzerinde ölçekli olarak gösterildi. Gaudi2, GPT-3’ün LLM eğitimi için kıyaslama ölçütüne performans sonuçları sunan iki yarı iletken çözümden biri. Gaudi2, ayrıca hem sunucu hem de sistem maliyetlerinde müşterilere önemli ölçüde rekabetçi maliyet avantajları da sağlıyor. Hızlandırıcının GPT-3, bilgisayarlı görü ve doğal dil modelleri üzerindeki MLPerf onaylı performansı ve gelecekteki yazılım gelişmeleri, Gaudi2’yi Nvidia’nın H100’üne son derece cazip bir fiyat/performans alternatifi haline getiriyor. CPU cephesindeyse, Intel yapay zekâ motorlarına sahip 4. Nesil Xeon işlemcilerin derin öğrenme eğitimi performansı, müşterilerin Xeon tabanlı sunucularla veri ön işleme, model eğitimi ve dağıtımı için tek üniversal yapay zekâ sistemi oluşturarak yapay zekâ performansı, verimlilik, doğruluk ve ölçeklenebilirliğin doğru kombinasyonunu sağlayabileceğini gösterdi.Habana Gaudi2 Sonuçları Hakkında: Üretken yapay zekâ ve büyük dil modellerinin eğitimi için, büyük ölçekli işlem gereksinimlerini karşılayabilecek sunucu kümeleri gereklidir. Bu MLPerf sonuçları, test edilen en zorlu model olan 175 milyar parametreli GPT-3 üzerinde Habana Gaudi2’nin olağanüstü performansını ve verimli ölçeklenebilirliğini somut bir şekilde doğruluyor.
Sonuçlarda öne çıkan hususlar:
- Gaudi2, GPT-31 üzerinde etkileyici bir eğitim süresi sağladı 1 : 384 hızlandırıcıda 311 dakika.
- GPT-3 modelinde 256’dan 384 hızlandırıcıya neredeyse lineer %95 ölçeklendirme.
- Bilgisayarla görüde -ResNet-50 8 hızlandırıcı ve Unet3D 8 hızlandırıcı- ve doğal dil işleme modelleri -BERT 8 ve 64 hızlandırıcılar- üzerinde mükemmel eğitim sonuçları.
- BERT ve ResNet modelleri için Kasım ayındaki sunuma kıyasla sırasıyla %10 ve %4 oranlarında performans artışları – bu sonuçlar, Gaudi2 yazılımının olgunlaştığının kanıtıdır.
- Gaudi2 sonuçları “kutudan çıktığı gibi” sunuldu, yani müşteriler Gaudi2’yi şirket içinde ya da bulutta uygularken benzer performans sonuçlarına ulaşabilirler.
- Gaudi2 Yazılım Olgunluğu Hakkında: Gaudi platformu için yazılım desteği olgunlaşmaya ve yaygın talep gören artan sayıda üretken yapay zekâ ve LLM’ye ayak uydurmaya devam ediyor.
- Gaudi2’nin GPT-3 sunumu, PyTorch’u temel alıyordu ve özel yazılım yerine popüler DeepSpeed optimizasyon kütüphanesini (Microsoft AI at Scale’in bir parçası) kullanıyordu.
- DeepSpeed,eşzamanlı olarak 3D paralelliği (Veri, Tensör, İşlem Hattı) destekleyerek LLM’lerde ölçekleme performansı verimliliğini daha da optimize ediyor.
- 3.0 karşılaştırmasındaki Gaudi2 sonuçları, BF16 veri türünde sunuldu. FP8 için yazılım desteği ve yeni özellikler 2023’ün üçüncü çeyreğinde yayınlandığında, Gaudi2 performansında önemli bir sıçrama bekleniyor.
Nesil Xeon İşlemcilerin Sonuçları Hakkında;
Çok sayıda alternatif çözüm arasında tek CPU sunumu olan MLPerf sonuçları, Intel Xeon işlemcilerin kuruluşlara genel amaçlı sistemlerde
yapay zekâ dağıtımı için yaratıcı yetenekler sağladığını ve özel yapay zekâ sistemleri sunmanın maliyet ve karmaşıklığını bertaraf ettiğini kanıtlıyor. Büyük modelleri sıfırdan aralıklı olarak eğiten az sayıda müşteri, genel amaçlı CPU’ları ve genellikle işlerini yürütmek için zaten kullandıkları Intel tabanlı sunucuları kullanabilir. Ancak bunların çoğu, önceden eğitilmiş modelleri kullanacak ve kendi küçük veri setleriyle ince ayar yapacaktır. Intel daha önce, bu ince ayarın Intel AI yazılımı ve standart açık kaynak yazılımı kullanılarak yalnızca birkaç dakika içinde gerçekleştirilebileceğini gösteren sonuçlar yayınlamıştı.
MLPerf Sonuçlarında Öne Çıkan Hususlar:
- Kapalı bölümde, 4. Nesil Xeon’lar BERT ve ResNet-50 modellerini sırasıyla 50 dakikadan (47,93 dakika) ve 90 dakikadan (88,17 dakika) daha kısa sürede eğitebildi.
- Açık bölümdeki BERT ile sonuçlar, Xeon’un 16 düğüme ölçeklendiğinde modeli yaklaşık 30 dakikada (31,06 dk.) eğitebildiğini gösteriyor.
- Daha büyük RetinaNet modeli için Xeon, 16 düğümde 232 dakikalık bir süre elde edebildi ve müşterilere modellerini sabah saatlerinde, öğle yemeği sırasında ya da gece boyunca eğitmek için yoğun olmayan Xeon döngülerini kullanma esnekliği sağladı.
- Intel® Advanced Matrix Extensions (Intel® AMX) özellikli 4. Nesil Xeon, birden fazla çerçeveyi, uçtan uca veri bilimi araçlarını ve akıllı çözümlerden oluşan geniş bir ekosistemi kapsayan önemli yaratıcı performans iyileştirmeleri sunuyor.
Genellikle yapay zekâ performansı için en saygın ölçüt olarak kabul edilen MLPerf, çözümler arasında adil ve tekrarlanabilir performans karşılaştırması sağlar. Ayrıca 100 sunum kilometre taşının da ötesine geçen Intel, endüstri standardı derin öğrenme ekosistemi yazılımıyla halka açık CPU sonuçları sunan tek satıcı olmaya devam ediyor.
Bu sonuçlar, aynı zamanda Intel oneAPI tabanlı açık kaynaklı Intel® Ethernet Fabric Suite Yazılımını kullanan uygun maliyetli ve kolayca temin edilebilen Intel Ethernet 800 Serisi ağ adaptörleri kullanılarak mümkün olan mükemmel ölçeklendirme verimliliğini de vurguluyor.