Massachusetts Teknoloji Enstitüsü (MIT), insan dili ediniminden hayvanlar arası iletişime kadar geniş bir yelpazede devrim yaratabilecek bir yapay zeka modelini tanıttı. DenseAV adı verilen bu yenilikçi algoritma, yalnızca video izleyerek ve sesleri dinleyerek dilin anlamını ayrıştırmayı ve anlamayı öğrenebiliyor.
MIT’nin Bilgisayar Bilimi ve Yapay Zeka Laboratuvarı’nda (CSAIL) geliştirilen DenseAV, multimedya arama, dil öğrenme ve robot biliminde potansiyel uygulamalara sahip. Elektrik mühendisliği ve bilgisayar bilimleri alanında doktora öğrencisi olan Mark Hamilton ve meslektaşları tarafından yönetilen proje, insanların dil edinim süreçlerinden esinlenerek geliştirilmiş. DenseAV, sadece konuşan insanların videolarını izleyerek dilin anlamını çözmeyi amaçlıyor.
Hamilton’ın bu projedeki ilham kaynağı ise bir film sahnesi. Filmde, bir penguen yere düşüyor ve kalkmaya çalışırken inliyor. Bu iniltinin bir kelimeyi ima ediyor gibi görünmesi, Hamilton’a ses ve videonun bir algoritmaya dil öğretmek için birlikte kullanılabileceği fikrini verdi. Bu düşünce, DenseAV’ın geliştirilmesine yol açtı. Model, örneğin “pastayı 350’de pişir” ifadesini duyduğunda, bir pasta veya fırın görseli bekleyebilecek şekilde tasarlandı.
DenseAV, milyonlarca video arasında ses-görüntü eşleşmesini mümkün kılmak için insanların tartıştığı bağlamı öğrenmek zorunda. Araştırma ekibi, modeli bu eşleştirme görevi konusunda eğittikten sonra, modelin sesleri işlerken hangi piksellere odaklandığını inceledi. “Köpek” kelimesi söylendiğinde algoritma, video akışında köpek görsellerini aradı ve bu da kelimenin anlamını anladığını gösterdi. Benzer şekilde, bir köpeğin havlamasını duyduğunda videodaki köpekleri aradı.
Ekip, DenseAV’ın “köpek” kelimesi ile köpek havlaması sesi arasında ayrım yapıp yapamayacağını merak ediyordu. DenseAV’a çift beyinli bir yaklaşım uygulayarak, bir tarafın doğal olarak “köpek” kelimesi gibi dile odaklandığını, diğer tarafın ise havlama gibi seslere odaklandığını keşfettiler.
Araştırma ekibi, önceden eğitilmiş dil modellerini kullanmadan dilin özünü sıfırdan yeniden keşfetmeyi hedeflediğinden, metin girişi olmadan dil öğrenme konusunda zorlu bir görevle karşı karşıya kaldı. Bu yöntem, çocukların çevrelerini gözlemleyerek ve dinleyerek dili nasıl öğrendiklerinden ilham almaktadır. DenseAV, bu yaklaşımı yapay zeka dünyasına taşıyarak dil öğrenme ve iletişim alanında devrim yaratmayı hedefliyor.
MIT’nin bu yenilikçi çalışması, gelecekte hayvanlar arası iletişimin çözülmesine ve makinelerin daha insan benzeri bir şekilde dil öğrenmesine olanak tanıyabilir. DenseAV, dil öğrenme ve iletişim konusundaki anlayışımızı derinleştirme potansiyeli taşıyan heyecan verici bir gelişme olarak karşımıza çıkıyor.