Nvidia’nın üretken yapay zekası görenleri şaşırttı!

- Advertisement -

AI sanal yaratma araçlarının hızla gelişen manzarasında, Nvidia araştırmacıları, Perfusion adlı yenilikçi, yeni bir metinden resme kişiselleştirme yöntemini tanıttı. Ancak rakipleri gibi milyon dolarlık süper ağır bir model değil. Yalnızca 100 KB boyutu ve 4 dakikalık eğitim süresiyle Perfusion, kimliklerini korurken kişiselleştirilmiş konseptleri tasvir etmede önemli ölçüde yaratıcı esneklik sağlıyor.

Perfusion, Nvidia ve İsrail’deki Tel-Aviv Üniversitesi tarafından oluşturulan bir araştırma makalesi sunuldu. Küçük boyutuna rağmen, belirli sürümlerin verimliliği açısından Stability AI’s Stable Diffusion v1.5, yeni çıkan Stable Diffusion XL ve MidJourney gibi önde gelen AI sanat oluşturucularından daha iyi performans gösterebilir.

Perfusion’daki yeni ana fikir “Key-Locking” olarak adlandırılıyor. Bu, bir kullanıcının belirli bir kedi veya sandalye gibi eklemek istediği yeni kavramları görüntü oluşturma sırasında daha genel bir kategoriye bağlayarak çalışıyor. Örneğin, kedi daha geniş bir “kedi” fikriyle bağlantılı olacak.

Bu, modelin tam eğitim örneklerine göre çok dar bir şekilde ayarlandığı durumlarda meydana gelen aşırı uyumdan korunmaya yardımcı oluyor. Fazla uydurma, AI’nın konseptin yeni yaratıcı versiyonlarını oluşturmasını zorlaştırıyor.

Model hayal edilen kedi kavramını, genel kedi kavramına bağlayarak, kediyi birçok farklı poz, görünüm ve çevrede canlandırabiliyor. Ama yine de herhangi bir rastgele kedi değil, amaçlanan kedi gibi görünmesini sağlayan temel “kedi” kavramını koruyor.

Basit bir ifadeyle, Key-Locking, yapay zekanın temel kimliklerini korurken kişiselleştirilmiş kavramları esnek bir şekilde tasvir etmesine olanak tanır. Bir sanatçıya şu yönergeleri vermek gibi: “Kedimi Tom’u uyurken, iplikle oynarken ve çiçekleri koklarken çiz.”

Nvidia neden azı çok görüyor?

Perfusion ayrıca, kavramları tek başına öğrenen mevcut araçların aksine, birden fazla kişiselleştirilmiş konseptin tek bir görüntüde doğal etkileşimlerle birleştirilmesini sağlıyor. Kullanıcılar, belirli bir kedi veya sandalye gibi kavramları birleştirerek metin istemleri aracılığıyla görüntü oluşturma sürecine rehberlik edebiliyor.

Perfusion, kullanıcıların tek bir 100 KB modeli ayarlayarak çıkarım sırasında görsel doğruluk ve metin hizalaması arasındaki dengeyi kontrol etmelerini sağlayan dikkate değer bir özellik sunuyor. Bu yetenek, kullanıcıların Pareto cephesini kolayca keşfetmelerine ve yeniden eğitim gerekmeden özel ihtiyaçlarına en uygun dengeyi seçmelerine olanak tanıyor. Bir modeli eğitmenin biraz incelik gerektirdiğine dikkat etmek önemli çünkü modeli yeniden üretmeye çok fazla odaklanmak, modelin aynı çıktıyı tekrar tekrar üretmesine ve istemi çok yakından takip etmesine ve serbest bırakmasına yol açar, genellikle de kötü bir sonuç üretir. Jeneratörün komut istemine ne kadar yaklaşacağını ayarlama esnekliği ise özelleştirmenin en önemli parçası.

Diğer AI görüntü oluşturucularının, kullanıcıların çıktıda ince ayar yapması için yolları var. Referans olarak, bir LoRA, Kararlı Difüzyonda kullanılan popüler bir ince ayar yöntemi. Uygulamaya düzinelerce megabayttan birden fazla gigabayta kadar herhangi bir şey ekleyebilir. Başka bir yöntem olan metinsel ters çevirme yerleştirmeleri daha hafiftir ancak daha az doğru. Şu anda en doğru teknik olan Dreambooth kullanılarak eğitilmiş bir model, 2 GB’tan daha ağır.

Buna karşılık Nvidia, Perfusion’ın üstün görsel kalite ürettiğini ve daha önce bahsedilen önde gelen yapay zeka tekniklerini yönlendirmek için uyum sağladığını söylüyor. Ultra verimli boyut, tüm modelde ince ayar yapan yöntemlerin çoklu GB kapladığı alanla karşılaştırıldığında, bir görüntü üretme yönteminde ince ayar yaptığında yalnızca ihtiyaç duyduğu parçaları güncellemeyi mümkün kılıyor.

Bu araştırma, Nvidia’nın yapay zekaya artan odaklanması ile uyumlu. GPU’ları eğitim yapay zeka modellerine hakim olmaya devam ederken, şirketin hissesi 2023’te %230’un üzerinde arttı. Anthropic, Google, Microsoft ve Baidu gibi varlıkların üretici yapay zekaya milyarlar akıtmasıyla, Nvidia’nın yenilikçi Perfüzyon modeli ona avantaj sağlayacak.

Samsung, yeni nesil yapay zeka Modeli Gauss 2’yi tanıttı

Lighthouse, konaklama sektörüne yenilik getirmek için 370 milyon dolar yatırım aldı!

Saniyede 250 katrilyon işlem yapan LEONARDO’nun veri merkezine girdik!

Qualcomm Snapdragon X ailesini uygun fiyatlı işlemciyle genişletiyor

Toyota bZ7’nin seri üretim versiyonu 2025’te geliyor!

“Girişimcilerin Büyük Hataları” İstanbul Kültür Üniversitesi’nde

EduTalks etkinliği 18 Kasım’da İstinye Üniversitesi’nde!

Yerli girişim Büyütech, yeni yatırım turuna çıkıyor!

Rejeneratif tarım destek almaya devam ediyor

Makromusic, 15 milyon dolar değerlemeyle yatırım alıyor!

Apple, artık banka gibi değerlendirilecek!

Silikon Vadisi devi General Catalyst, Suudi fintech girişimine yatırım yaptı!

Yapay zeka temelli banka geliyor!

Wise 350.000 sterlinlik ceza ile karşı karşıya!

Mobil ödeme sistemlerinde yenilikler ve kullanıcı deneyimi

Samsung, yeni nesil yapay zeka Modeli Gauss 2’yi tanıttı

Lighthouse, konaklama sektörüne yenilik getirmek için 370 milyon dolar yatırım aldı!

Saniyede 250 katrilyon işlem yapan LEONARDO’nun veri merkezine girdik!

OpenAI mühendislerinden telif hakkı davasında kritik hata!

Elon Musk’ın yapay zeka girişimi xAI, 50 Milyar Dolar değere ulaştı!

Kişisel verilerimiz yurtdışına nasıl çıkacak?

Yapay zeka ve veri, iş süreçlerine entegre edilmeli!

Vestel, ultra hızlı şarj cihazlarını ve enerji depolama sistemlerini tanıttı!

Türkiye’nin Hyperloop trenini geliştiriyorlar!

İşletmeler için yapay zeka kadrosu!

Parolasız gelecek çok yakın!

Roblox çocuk güvenliği için yeni önlemler aldı

Snapchat, genç kullanıcılara yönelik güvenlik önlemlerini sıklaştırıyor!

FBI, Çin kaynaklı telekom saldırılarını doğruladı!

Yapay zeka siber güvenlik endişelerine neden oluyor

Nvidia’nın üretken yapay zekası görenleri şaşırttı!

SON VİDEO

Kişisel verilerimiz yurtdışına nasıl çıkacak?

CEVAP VER İptal

İlginizi çekebilir

SDN NETWORK