Üretken yapay zekadaki odak noktasının çoğu, metin, resim ve daha fazlasını üretmek için kullanılan metin tabanlı arayüzler üzerinde oldu. Bir sonraki dalga ses gibi görünüyor ve hızla yayılıyor. Google bugün son gelişmede, konuşmadan metne ve HD metinden konuşmaya modellerini içeren Google Chirp 3’nin Vertex AI geliştirme platformuna ekleyeceğini duyurdu.
Google Chirp 3 stratejisi
Google, Google Chirp 3’nin 31 dil için 8 yeni ses sunacağını sessizce duyurdu. Platformun kullanım örnekleri arasında sesli asistanlar oluşturmak, sesli kitaplar oluşturmak, destek temsilcileri geliştirmek ve videolar için seslendirmeler yer alıyor. Haber, Londra’daki Google DeepMind ofislerinde düzenlenen bir etkinlikte duyuruldu.
Onun çabaları, diğerlerinin de sesli AI çalışmalarıyla öne çıktığı zamana denk geliyor. Geçtiğimiz günlerde viral, çok gerçekçi ses veren “Maya” ve “Miles” AI uygulamalarının arkasındaki girişim olan Sesame, geliştiricilerin kendi özelleştirilmiş uygulamalarını ve hizmetlerini kendi teknolojisinin üzerine inşa etmeleri için modelini duyurdu.
Özellikle, kötüye kullanımı kontrol altında tutmak için Google Chirp 3’ün etrafında kullanım kısıtlamaları olacak. Google Cloud CEO’su Thomas Kurian bugün bir haber etkinliğinde “Bunlardan bazılarını güvenlik ekibimizle birlikte çözmeye çalışıyoruz” dedi. ElevenLabs, yapay zeka ses hizmetleri alanındaki çalışmalarını genişletmek için yüz milyonlarca dolarlık fon toplayan büyük girişimler arasında yer alıyor.
Bu haberle birlikte Google Chirp 3, test edilen amiral gemisi LLM programı Gemini’nin daha yeni sürümleriyle aynı sisteme dahil olacak ve ayrıca görüntü oluşturma modeli Imagen ve pahalı Veo 2 video oluşturma aracı da bu sisteme dahil edilecek. Google’ın Google Chirp 3 ile piyasaya sürdüğü şeyin, “insan” sesleri yaratmaya yönelik diğer bazı AI çabaları kadar “gerçekçi” olup olmayacağı henüz doğrulanmadı. Ancak DeepMind’ın CEO’su Demis Hassabis’in vurguladığı gibi, bu bir sprint değil, bir maraton olmaya devam ediyor.