DeepSeek temel modeli kısa birkaç haftada yapay zeka dünyasını altüst etti. Çinli araştırmacıların, daha düşük kaliteli bir donanımla daha üstün bir algoritma çalıştırabileceğini ve ABD’deki araştırmacıların, ister ulusal laboratuvarlarda eksaskal HPC simülasyonları çalıştırsınlar, ister yapay zeka eğitimi ve çıkarım iş yükleri çalıştıran hiper ölçekleyicilerde olsunlar, elde edebilecekleri en iyi sonuçlarla eşdeğer sonuçlar elde edebileceklerini bir kez daha kanıtladı.
DeepSeek yapay zeka modeli geliştirme süreci
DeepSeek-AI, Mayıs 2023’te Liang Wenfeng tarafından kuruldu ve yönetimi altında 8 milyar dolar varlık olduğu bildirilen ve çeşitli finansal araçlarda işlem yapmak için açıkça AI algoritmaları kullanmak üzere oluşturulmuş bir hedge fonu olan High-Flyer AI’nın etkili bir yan kuruluşudur. DeepSeek, uzmanlar karışımı (MoE) temel modelinin unsurlarını birbirine bağlamak için oluşturduğu yeni bir tür yük dengeleyiciyi tanımlayan bir makaleyi Ağustos 2024’te yayınlayana kadar büyük ölçüde radar altındaydı.
Şirket, tatillerde 671 milyar parametreyi kapsayan (üretilen herhangi bir belirteç için yalnızca 37 milyar parametre etkinleştirildi) ve 14.8 trilyon belirteç üzerinde eğitilen DeepSeek-V3 temel modelinin mimari ayrıntılarını yayınladı.
Son olarak ve belki de en önemlisi 20 Ocak’ta DeepSeek, modelin muhakeme yeteneklerini geliştirmek için iki takviyeli öğrenme aşaması ve iki denetlenen ince ayar aşaması ekleyen DeepSeek-R1 modelini kullanıma sundu. DeepSeek AI, burada görebileceğiniz gibi, R1 modeli için temel V3 modelinden 6,5 kat daha fazla ücret talep ediyor.
Ancak bilmek istediğimiz şey DeepSeek’in Nvidia’dan gelen ve performanslarının bir kısmı sınırlandırılmış birkaç bin sakat “Hopper” H800 GPU hızlandırıcısını nasıl alıp, OpenAI, Google ve Anthropic’in en büyük modelleriyle on binlerce kıvrılmamış GPU hızlandırıcısı üzerinde eğitilirken yapabileceklerinin en iyisini yapabilecek bir MoE temel modeli yaratabildiği. Bir modeli eğitmek için donanımın onda biri ile yirmide biri arasında bir şey gerekiyorsa, bu yapay zeka pazarının değerinin teoride 10 ila 20 kat arasında bir faktörle daralabileceği anlamına geliyor gibi görünüyor. DeepSeek-V3 makalesinde DeepSeek, ön eğitimi yapmak için H800 hızlandırıcılarına 2,66 milyon GPU saati, bağlam genişletmeye 119.000 GPU saati ve temel V3 modelinde denetlenen ince ayar ve takviyeli öğrenme için yalnızca 5.000 GPU saati harcadığını ve toplamda 2,79 milyon GPU saati harcadığını söylüyor.