Meta tıpkı OpenAI’nin Dall-E’sinin görüntüleri çağrıştırabileceği gibi, metin istemlerine dayalı müzikal melodiler oluşturabilen sese odaklanan yeni bir üretken AI aracı yayınladı.
AudioCraft olarak adlandırılan Meta’nın görüntü oluşturma AI aracı, tümü açık kaynaklı etki alanına itilen üç farklı modelden oluşuyor; MusicGen, AudioGen ve EnCodec. Bu modeller, lisanslı müzik ve halka açık ses efektleri kataloğu üzerinde eğitildi ve minimum ses eserleriyle yüksek kaliteli müzik üretimi vaat ediyor.
Metin istemlerini kullanan bu modeller, kuşların cıvıldaması, hareketli kartlar ve daha fazlası gibi çok çeşitli seslerin üretilmesine yardımcı olabilir. Meta, bir gün, çocuklara yatmadan önce hikayeler okurken aracın destansı müzik oluşturmak için bile kullanılabileceğini söylüyor. Sosyal medya köklerine yakın kalan Meta, AudioCraft’ın sadece işletmeler için değil, aynı zamanda Instagram gibi platformlarda paylaşılan videolarına benzersiz sonik pizzazz eklemek isteyen içerik oluşturucular için de çok yardımcı olabileceğini umuyor.
Meta’nın öne çıkardığı bir diğer dikkate değer özellik, audio’ye özgü AI motorunun, rakip platformlardan daha kolay kullanıldığını iddia ederek basitliktir. Bu, Meta’nın üretken yapay zeka alanındaki ilk çabası olmayacak. Şirket ayrıca, altı dilde ses klipleri üretebilen ve aynı zamanda gürültüden arındırabilen ve stilize edebilen Voicebox’ı da sunuyor. Bir de görüntülere ve metne odaklanan üretken bir AI modeli olan CM3leon var.
Audiocraft, Meta’nın ChatGPT veya Bard gibi normal AI sohbet robotlarınızla aynı tokenize edilmiş biçimde sesi işleyen “EnCodec Nöral Ses Codec” dediği şeye dayanıyor. Meta tarafından şimdiye kadar paylaşılan örneklerden, bir metin istemi kullanarak bir ses klibi oluşturmak için istediğiniz tonların türünü ve bir müzik enstrümantal veya bir kuştan otobüse kadar değişen başka bir nesne olabilen ses kaynaklarını dikte edebilirsiniz.
İşte bir metin istemi örneği: “Dünyasal tonlar, çevreye duyarlı, ukulele ile aşılanmış, harmonik, havadar, rahat, organik enstrümantasyon, yumuşak oluklar.” Meta’nın blog gönderisinde dinleyebileceğiniz gibi, aslında kulağa yarı kötü gelmeyen 30 saniyelik bir klip üretiyor. Kulağa ne kadar uygun gelse de, ses kliplerinizi oluşturma konusunda elinizde gerçek bir enstrümanla veya profesyonel bir synth ile sahip olacağınız kadar ayrıntılı kontrole sahip olmayacaksınız.
Meta’nın “müzik üretimi için özel olarak uyarlandığını” iddia ettiği MusicGen, 20.000 saatlik müzik değerinde yaklaşık 400.000 kayıt ve meta veri kullanılarak eğitildi. Ancak bir kez daha, eğitim verilerinin çeşitliliği bir sorun ve Meta da bunu kabul ediyor. Eğitim veri kümesi, İngilizce dilinde beslenen karşılık gelen ses-metin verileriyle ağırlıklı olarak Batı tarzı müzik. Basitçe söylemek gerekirse, folk Persian melodisi yerine country müzikten ilham alan bir melodi üretme konusunda daha iyi şansınız olacak. Projeyi açık kaynak dünyasına itmenin arkasındaki temel hedeflerden biri, çeşitlilik yönü üzerinde çalışmak.