Google, Imagen 2 ile fark yaratacak

Burak Kesayak

11 ay önce

Google, metin ve logo oluşturma özelliğiyle Imagen 2’yi kullanıma sunuyor. Google, metin istemi verildiğinde görseller oluşturabilen ve düzenleyebilen yapay zeka modeli Imagen’in ikinci neslini, en azından erişim için onaylanmış Vertex AI kullanan Google Cloud müşterileri için daha yaygın olarak kullanılabilir hale getiriyor.

Şirket, yeni modeli eğitmek için hangi verileri kullandığını açıklamıyor ve veri kümesine istemeden katkıda bulunmuş olabilecek içerik oluşturucuların kapsam dışında kalmaları veya tazminat başvurusunda bulunmaları için bir yol sunmuyor. Google’ın Imagen 2 olarak adlandırılan ve teknoloji devinin Mayıs ayındaki I/O konferansında sessizce ön izleme olarak başlatılan gelişmiş modeli, Google’ın amiral gemisi yapay zeka laboratuvarı olan Google DeepMind’ın teknolojisi kullanılarak geliştirildi. Google, birinci nesil Imagen ile karşılaştırıldığında görüntü kalitesi açısından “önemli ölçüde” gelişmiş olduğunu iddia ediyor. Ayrıca metin ve logo oluşturma yeteneği de dahil olmak üzere yeni yetenekler sunuyor.

[bkz url= https://www.techinside.com/dunya-fosil-yakitlarinin-sonunu-getirmeye-yonelik-adimlar-atmaya-basladi/

Google Imagen 2 neler sunuyor?

Google Cloud CEO’su Thomas Kurian, Salı günü düzenlediği basın toplantısında, “Metin kaplamalı görseller oluşturmak istiyorsanız (örneğin reklamcılık için) bunu yapabilirsiniz” dedi. Metin ve logo oluşturma, Imagen’i OpenAI’nin DALL-E 3 ve Amazon’un yakın zamanda piyasaya sürülen Titan Image Generator gibi diğer önde gelen görüntü oluşturma modelleriyle uyumlu hale getiriyor. Imagen 2, olası iki farklılaşma noktasında metni birden çok dilde (özellikle Çince, Hintçe, Japonca, Korece, Portekizce, İngilizce ve İspanyolca) işleyebiliyor. 2024’te daha fazlası gelecek ve mevcut görsellerin üzerine logolar yerleştirilebiliyor.

Imagen 2, “yeni eğitim ve modelleme teknikleri” sayesinde daha açıklayıcı, uzun biçimli yönlendirmeleri anlayabiliyor ve bir görüntüdeki öğelerle ilgili sorulara “ayrıntılı yanıtlar” sağlayabiliyor. Google, bu tekniklerin aynı zamanda Imagen 2’nin çok dilli anlayışını da geliştirerek modelin bir dildeki bir istemi başka bir dildeki bir çıktıya (örneğin bir logo) çevirmesine olanak tanıdığını söylüyor. Imagen 2, kendisi tarafından oluşturulan görüntülere görünmez filigranlar uygulamak için DeepMind tarafından geliştirilen bir yaklaşım olan SynthID’den yararlanıyor. Elbette, Google’ın sıkıştırma, filtreler ve renk ayarlamaları da dahil olmak üzere görüntü düzenlemelerine dayanıklı olduğunu iddia ettiği bu filigranları tespit etmek, Google tarafından sağlanan ve üçüncü tarafların kullanımına açık olmayan bir araç gerektiriyor. Ancak politika yapıcılar internette yapay zeka tarafından üretilen dezenformasyonun giderek artan hacmine ilişkin endişelerini dile getirdikçe , bu belki de bazı korkuları hafifletebiliyor.