Metinden görüntüye oluşturucu Stable Diffusion artık herkesin test etmesi için kullanılabilir. Stable Diffusion, Stability AI tarafından geliştirildi ve ilk olarak bu ayın başlarında araştırmacılar için piyasaya sürüldü. Görüntü oluşturucu, tüketici GPU’larında çalışabilen hız ve kalitede bir atılım sağladığını iddia ediyor.
Model, CompVis ve Runway tarafından oluşturulan gizli dağınık modeli temel alıyor. Ancak Stable Diffusion’ın önde gelen üretken AI geliştiricisi Katherine Crowson, Open AI, Google Brain ve diğerlerinin koşullu yayılma modellerinden elde edilen bilgilerle geliştirmiş durumda.
Stability AI CEO’su Emad Mostaque: “Bu model birçok mükemmel araştırmacının çalışmalarına dayanıyor ve bu ve benzeri modellerin dünya çapında milyarlarca kişi tarafından kullanıldığı için önümüzdeki yıllarda toplum ve bilim üzerindeki olumlu etkisini dört gözle bekliyoruz” dedi.
Çekirdek veri seti, bir görüntünün ne kadar “güzel” olduğuna bağlı olarak LAION-5B veri setindeki 5.85 milyar görüntüyü filtreleyen bir veri seti olan LAION-Aesthetics üzerinde eğitildi ve Stable Difüzyon’un alfa test cihazlarından alınan puanlar üzerine inşa edildi.
Stable Diffusion, 10 GB’ın altında VRAM’e sahip bilgisayarlarda çalışır ve yalnızca birkaç saniye içinde 512×512 piksel çözünürlüklü görüntüler oluşturur.