Nostaljik bir donanımı modern teknolojiyle birleştirerek dikkat çekici bir başarıya imza atan bir grup yapay zeka araştırmacısı, 1998 yılında piyasaya sürülen Pentium II ve yalnızca 128MB RAM’e sahip bir Windows 98 sisteminde yapay zeka çalıştırmayı başardı. Oxford Üniversitesi’nden mühendis ve araştırmacılardan oluşan EXO Labs ekibi, bu deneyimle eski bir Elonex Pentium II bilgisayarda güçlü bir yapay zeka dil modeli olan LLaMA’yı başarıyla çalıştırarak teknolojik sınırları yeniden tanımladı. 350MHz hızında çalışan bu nostaljik donanım üzerinde yapılan deneyde, Llama2.c tabanlı modelin verilen bir hikaye oluşturma komutunu yerine getirdiği gözlemlendi ve üstelik hız açısından da tatmin edici bir performans sergilendi.
Pentium II’de yapay zeka çalıştırmayı başardılar
EXO Labs, projenin en büyük zorluklarından birinin, 1998 yılından kalma bir işletim sisteminde modern bir yapay zeka modelini çalıştırmak olduğunu belirtti. Bu süreçte ekip, 260.000 parametreye sahip bir LLaMA modelini saniyede 39.31 token işleme hızında çalıştırmayı başardı. Ancak, daha büyük modellerde performans kaybı yaşandı. Örneğin, 1 milyar parametreye sahip bir modelde bu hız saniyede yalnızca 0.0093 token seviyesine düştü. Yine de bu deneme, hem donanımsal sınırları zorlayarak hem de yapay zeka modellerinin farklı donanımlarda nasıl optimize edilebileceğini göstererek önemli bir başarı olarak değerlendirildi.
Bu deneyin temel amacı, yapay zeka modellerini yalnızca güçlü donanımlarla sınırlı olmaktan çıkarıp daha mütevazı cihazlarda da çalışabilir hale getirmekti. Günümüzde yapay zeka teknolojileri genellikle yüksek maliyetli GPU’lar ve güçlü sunucu altyapılarına bağımlı durumda.
Ancak EXO Labs, bu sınırlamaları aşmayı ve yapay zekayı daha erişilebilir hale getirmeyi hedefliyor. Geliştirilmekte olan “BitNet” adını verdikleri transformer mimarisi, bu hedefin bir adımı olarak dikkat çekiyor. BitNet, üçlü ağırlıklar kullanarak 7 milyar parametreye sahip bir modeli yalnızca 1.38GB depolama alanında çalıştırmayı mümkün kılıyor. Dahası, bu teknoloji tamamen CPU ile çalışmak üzere optimize edilmiş durumda. 100 milyar parametreli bir modelin tek bir CPU ile saniyede 5 ila 7 token işleyebilmesi, bu mimarinin ne denli yenilikçi olduğunu gösteriyor. Bu yaklaşım, yapay zekanın potansiyelini geniş bir kitleye ulaştırmayı ve teknolojinin evrenselleştirilmesini mümkün kılmayı amaçlıyor.