Site icon TechInside
Nvidia’nın üretken yapay zekası görenleri şaşırttı!

Nvidia’nın üretken yapay zekası görenleri şaşırttı!

Nvidia’nın üretken yapay zekası görenleri şaşırttı!

AI sanal yaratma araçlarının hızla gelişen manzarasında, Nvidia araştırmacıları, Perfusion adlı yenilikçi, yeni bir metinden resme kişiselleştirme yöntemini tanıttı. Ancak rakipleri gibi milyon dolarlık süper ağır bir model değil. Yalnızca 100 KB boyutu ve 4 dakikalık eğitim süresiyle Perfusion, kimliklerini korurken kişiselleştirilmiş konseptleri tasvir etmede önemli ölçüde yaratıcı esneklik sağlıyor.

Perfusion, Nvidia ve İsrail’deki Tel-Aviv Üniversitesi tarafından oluşturulan bir araştırma makalesi sunuldu. Küçük boyutuna rağmen, belirli sürümlerin verimliliği açısından Stability AI’s Stable Diffusion v1.5, yeni çıkan Stable Diffusion XL ve MidJourney gibi önde gelen AI sanat oluşturucularından daha iyi performans gösterebilir.

Perfusion’daki yeni ana fikir “Key-Locking” olarak adlandırılıyor. Bu, bir kullanıcının belirli bir kedi veya sandalye gibi eklemek istediği yeni kavramları görüntü oluşturma sırasında daha genel bir kategoriye bağlayarak çalışıyor. Örneğin, kedi daha geniş bir “kedi” fikriyle bağlantılı olacak.

Bu, modelin tam eğitim örneklerine göre çok dar bir şekilde ayarlandığı durumlarda meydana gelen aşırı uyumdan korunmaya yardımcı oluyor. Fazla uydurma, AI’nın konseptin yeni yaratıcı versiyonlarını oluşturmasını zorlaştırıyor.

Model hayal edilen kedi kavramını, genel kedi kavramına bağlayarak, kediyi birçok farklı poz, görünüm ve çevrede canlandırabiliyor. Ama yine de herhangi bir rastgele kedi değil, amaçlanan kedi gibi görünmesini sağlayan temel “kedi” kavramını koruyor.

Basit bir ifadeyle, Key-Locking, yapay zekanın temel kimliklerini korurken kişiselleştirilmiş kavramları esnek bir şekilde tasvir etmesine olanak tanır. Bir sanatçıya şu yönergeleri vermek gibi: “Kedimi Tom’u uyurken, iplikle oynarken ve çiçekleri koklarken çiz.”

Nvidia neden azı çok görüyor?

Perfusion ayrıca, kavramları tek başına öğrenen mevcut araçların aksine, birden fazla kişiselleştirilmiş konseptin tek bir görüntüde doğal etkileşimlerle birleştirilmesini sağlıyor. Kullanıcılar, belirli bir kedi veya sandalye gibi kavramları birleştirerek metin istemleri aracılığıyla görüntü oluşturma sürecine rehberlik edebiliyor.

Perfusion, kullanıcıların tek bir 100 KB modeli ayarlayarak çıkarım sırasında görsel doğruluk ve metin hizalaması arasındaki dengeyi kontrol etmelerini sağlayan dikkate değer bir özellik sunuyor. Bu yetenek, kullanıcıların Pareto cephesini kolayca keşfetmelerine ve yeniden eğitim gerekmeden özel ihtiyaçlarına en uygun dengeyi seçmelerine olanak tanıyor. Bir modeli eğitmenin biraz incelik gerektirdiğine dikkat etmek önemli çünkü modeli yeniden üretmeye çok fazla odaklanmak, modelin aynı çıktıyı tekrar tekrar üretmesine ve istemi çok yakından takip etmesine ve serbest bırakmasına yol açar, genellikle de kötü bir sonuç üretir. Jeneratörün komut istemine ne kadar yaklaşacağını ayarlama esnekliği ise özelleştirmenin en önemli parçası.

Diğer AI görüntü oluşturucularının, kullanıcıların çıktıda ince ayar yapması için yolları var. Referans olarak, bir LoRA, Kararlı Difüzyonda kullanılan popüler bir ince ayar yöntemi. Uygulamaya düzinelerce megabayttan birden fazla gigabayta kadar herhangi bir şey ekleyebilir. Başka bir yöntem olan metinsel ters çevirme yerleştirmeleri daha hafiftir ancak daha az doğru. Şu anda en doğru teknik olan Dreambooth kullanılarak eğitilmiş bir model, 2 GB’tan daha ağır.

Buna karşılık Nvidia, Perfusion’ın üstün görsel kalite ürettiğini ve daha önce bahsedilen önde gelen yapay zeka tekniklerini yönlendirmek için uyum sağladığını söylüyor. Ultra verimli boyut, tüm modelde ince ayar yapan yöntemlerin çoklu GB kapladığı alanla karşılaştırıldığında, bir görüntü üretme yönteminde ince ayar yaptığında yalnızca ihtiyaç duyduğu parçaları güncellemeyi mümkün kılıyor.

Bu araştırma, Nvidia’nın yapay zekaya artan odaklanması ile uyumlu. GPU’ları eğitim yapay zeka modellerine hakim olmaya devam ederken, şirketin hissesi 2023’te %230’un üzerinde arttı. Anthropic, Google, Microsoft ve Baidu gibi varlıkların üretici yapay zekaya milyarlar akıtmasıyla, Nvidia’nın yenilikçi Perfüzyon modeli ona avantaj sağlayacak.

Exit mobile version