Sesli kitaplar erişilebilirlikleri nedeniyle son yıllarda giderek popülerlik kazanıyor. Ancak bu kitapları oluşturmak zor ve pahalı bir süreç gerektirdiği için ücretsiz versiyon bulmak oldukça zor. Telifsiz eserler konusunda uzun yıllardır çalışan Project Gutenberg ise, AI desteği ile bu sorunu aşmayı başardı. Microsoft’un yapay zeka yazılımı ve MIT Üniversitesi araştırmacıları ile ortak proje geliştiren kurum ilk etapta 5.000 edebiyat eserinin ücretsiz sesli versiyonunu duyurdu.
Sentetik metinden sese dönüştürme yöntemini kullanarak oluşturulan kitaplar arasında Shakespeare, Agatha Christie, Jane Austen, Leonardo Da Vinci ve diğer pek çok yazarın eserleri yer alıyor. Şimdilik tüm eserler yalnızca İngilizce dilinde. Kullanıcılar bu kitapları dilerse web sitesi üzerinden, dilerlerse de Spotify, Apple Podcasts ve Google Podcasts üzerinden dinleyebiliyor. Koleksiyonu oluşturmak için kullanılan kod da açık kaynak olarak GitHub’da mevcut.
Google 3 yıl önce Play Store üzerinde sesli kitap satışına başlamıştı. Benzer bir girişim kısa süre önce bu kez yapay zeka destekli otomatik metinden sese teknolojisini kullanan Apple’dan da gelmişti. Ancak bu girişim, Apple’ın ticari hedeflerini eleştiren edebiyatçılar ve şirketin yapay zekasını eğiten seslendirme sanatçıları tarafından mercek altına alındı. Gutenberg yaklaşımı ise kâr amacı gütmeden açık kaynak kodlu olması nedeniyle fark yaratıyor.
Proje nasıl hayata geçirildi
Geleneksel yöntemleri kullanarak bir sesli kitap oluşturmak, kitabın tamamını yüksek sesle okuması için bir seslendirme sanatçısıyla anlaşmayı gerektiriyor. Bu bağlamda değerlendirildiğinde tüm edebiyat eserlerinin sesli versiyonunu manuel olarak kaydetmek ekonomik açıdan sürdürülebilir olmuyor. Her geçen gün hızla gelişen yapay zeka uygulamaları ise bu noktada imdada yetişmiş gibi görünse de, yine de projenin karşısına aşılması gereken bazı engeller çıkmış.
Yapılan açıklamaya göre proje üzerinde çalışan ekiplerin karşılaştıkları ilk ve en önemli sorun, yazılımın hangi dijital kitapları ayrıştırabileceğinin belirlenmesiydi. Project Gutenberg edebiyat eserlerini birden fazla formatta topluyor ve dosyalarının çoğu hatalar ya da kusurlu taramalar içeriyor. Bu nedenle, araştırmacılar HTML dosyaları olarak saklanan kitaplara odaklandılar ve hangi öğelerin benzer bir format gösterdiğini keşfetmek için bir araç oluşturdular.
Araştırmacıların çözdüğü bir diğer sorun da sistemin hangi metni okuyacağını ya da görmezden geleceğini bilmesini sağlamaktı. İçindekiler, sayfa numaraları, dipnotlar, tablolar ve diğer yabancı materyaller gibi bileşenler ele alındı ve buna göre bir algoritma geliştirildi.
Ayrıca, sonuçların doğal insan konuşmasına yeterince yakın olması gerekiyordu. Araştırmacılar ilk etapta, kurgusal olmayan eserler ve anlatım için en uygun seslendirmeye odaklandılar. Bir sonraki adımda ise projenin açık kaynak olması sayesinde kullanıcıların daha dramatik okumalar denemek için yazılımı değiştirebilmesi öngörülmekte.
Algoritmayı eğitmek için birkaç satır kaydettikten sonra, her katılımcı yazılımın tüm bir kitabı okumasını sağlamadan önce bir örnek dinleyebiliyor. Ayrıca katılımcılar sesli kitabın bir kopyasını e-posta yoluyla alıyor. Kullanıcılar isteğe bağlı olarak her sesli kitabı özelleştirmek için sentetik sesler arasından seçim yapabilecek.