Yapay zeka teknolojileri, metin ve görsel üretimdeki başarılarından sonra şimdi de video üretiminde çığır açan bir evreye geçiyor. Google’ın yeni yapay zeka modeli Lumiere, olağanüstü difüzyon özellikleriyle dikkat çekiyor. Will Smith’in spagetti yemesinden itibaren geçen 10 ayda, Lumiere beş saniyeye kadar oldukça gerçekçi veya yüksek kaliteli video klipler üretebiliyor.
Lumiere, doğal dil metin istemlerine yanıt olarak hareketsiz görüntüleri canlandırma yeteneği ile öne çıkıyor. Google Research tarafından geliştirilen bu proje, Uzay-Zaman U-Net mimarisi ile bir videonun tüm zamansal süresini tek bir model geçişinde oluşturabiliyor.
Geleneksel video modellerinden farklı olarak Lumiere, global zamansal tutarlılığı daha erişilebilir kılan benzersiz bir yaklaşım benimsemektedir. Bu mimari, önceden eğitilmiş bir metinden görüntüye difüzyon modeli ile uzamsal ve zamansal aşağı/yukarı örnekleme içermektedir.
Lumiere’in en etkileyici özelliklerinden biri, herhangi bir görüntünün stilini klonlama yeteneği ve bu stili kullanarak bir dizi benzer görünen ve hissettiren video oluşturabilmesidir. Ayrıca, kaynak materyali Lego’ya, origamiye veya çiçeklere dönüştürme gibi sınırları zorlayan görevleri başarıyla gerçekleştirebilmektedir.
Ancak Google, Lumiere’in henüz bir araştırma projesi olduğunu ve çoklu çekimler veya geçişler içeren sahneler içeren videolar için tasarlanmadığını belirtiyor. Ayrıca, modelin yüksek çözünürlüklü görüntü üretimi için uzamsal bir süper çözünürlük modülü gerektirdiğini vurguluyor.
Şu an için Lumiere, Google’ın telif hakkı, güvenlik, yanlış bilgilendirme gibi konularda sistemi kısıtlamak zorunda kalmadığı bir araştırma projesi olarak öne çıkıyor. Ancak, Lumiere projesi, metinden videoya yapay zeka üretiminde gerçekçi ve tutarlı hareket sentezlemeye yeni bir yaklaşım getirerek büyük bir devrim anlamını taşıyor.