Gerçekçi ses taklidi yapabilen VALL-E 2, “Çok Tehlikeli!”

Kaan Sezer

9 ay önce

Microsoft, geçtiğimiz yılın nisan ayında tanıttığı metinden konuşmaya yapay zeka aracı VALL-E’nin ikinci sürümü olan Microsoft VALL-E 2 kamuoyuna sunmama kararı aldı. Yeni versiyon, insan seslerini son derece yüksek kalitede taklit edebilme yeteneğiyle dikkat çekiyor. Ancak bu özelliği, potansiyel kötüye kullanım riskleri taşıdığı için Microsoft’un yayınlama kararını etkiledi.

VALL-E 2, tek bir ses dosyasıyla bile insan seviyesinde performans gösterebiliyor. Bu özellik, modelin çok gerçekçi ve ikna edici ses taklitleri yapabilme kabiliyetini ortaya koyuyor. Microsoft’un açıklamasına göre, yeni özellikler olan “Tekrara Duyarlı Örnekleme” ve “Gruplandırılmış Kod Modelleme” sayesinde VALL-E 2’nin konuşma üretim hızı ve doğallığı önemli ölçüde artırılmış durumda.

Ancak ses klonlama ve deepfake gibi teknolojilerin yaygınlaşmasıyla birlikte, bu tür yapay zeka araçlarının potansiyel kötüye kullanım riskleri de artıyor. Microsoft, bu nedenle Microsoft VALL-E 2’yi halka açık bir şekilde sunmayacaklarını belirtti. Benzer şekilde, OpenAI gibi diğer yapay zeka şirketleri de benzer kısıtlamalar getirerek bu tür teknolojilerin güvenli kullanımını sağlamaya çalışıyor.

Microsoft VALL-E 2, LibriSpeech ve VCTK veri kümeleri üzerinde test edilerek, önceki metinden konuşmaya sistemlerine göre önemli ölçüde gelişim gösterdiği belirtiliyor. Araştırmacılar, modelin konuşma sağlamlığı, doğallık ve konuşma benzerliği açısından önceki TTS sistemlerini geride bıraktığını vurguluyor.

Ancak Microsoft’un kararı, bu tür gelişmiş yapay zeka teknolojilerinin etik ve güvenlik açısından nasıl yönetilmesi gerektiği konusunda tartışmaları da beraberinde getiriyor. Yayınlama kararının arkasındaki en büyük sebep ise, ses klonlama ve deepfake teknolojilerinin erişilebilirliğinin artması ve bu tür teknolojilerin potansiyel kötüye kullanım risklerinin kontrol altında tutulması gerekliliğidir.