3,3 milyar dolar değerlemeye ulaşan ElevenLabs, Scribe adını verdiği bağımsız modelini piyasaya sürdü.
ElevenLabs, 99’dan fazla dili destekleyen Scribe modeliyle, Google Gemini 2.0 Flash ve OpenAI’nin Whisper Large V3 modellerini çeşitli testlerde geride bıraktığını iddia ediyor. Şirket, özellikle 25 dilde modelin kelime hata oranını %5’in altında tutarak mükemmel doğruluk sağladığını belirtiyor. İngilizce için doğruluk oranı %97 olarak açıklanırken, Fransızca, Almanca, Hintçe, Endonezce, Japonca, Kannada, Malayalam, Lehçe, Portekizce, İspanyolca ve Vietnamca gibi diller de yüksek doğruluk kategorisinde yer alıyor.
Diğer diller ise yüksek doğruluk (5-10% hata oranı), iyi doğruluk (10-20% hata oranı) ve orta doğruluk (25-50% hata oranı) şeklinde kategorilere ayrılmış durumda.
ElevenLabs CEO’su Mati Staniszewski, bu modelin geliştirilme süreciyle ilgili şunları söyledi:
“Konuşmada ne söylendiğini daha iyi anlamak istiyoruz. Yapay zeka artık yalnızca içerik üretmekten çıkıp konuşmayı anlamalı ve doğru şekilde metne dökebilmeli. Birçok kişi konuşmadan metne dönüştürmenin artık çözüldüğünü düşünüyor, ancak pek çok dilde bu teknoloji hâlâ yetersiz. Biz, verileri kendi ekibimizle etiketleyerek ve hızlı geri bildirim alarak daha iyi modeller geliştirebiliriz.”
Scribe’ın öne çıkan özellikleri
Scribe modeli yalnızca konuşmayı metne dönüştürmekle kalmıyor, aynı zamanda akıllı konuşmacı ayrımı (diarization) yaparak kimlerin konuştuğunu belirleyebiliyor. Ayrıca, kelime bazında zaman damgaları ekleyerek altyazılar için yüksek doğruluk sağlıyor ve gülme, alkış gibi ses olaylarını otomatik olarak etiketleyebiliyor.
Şirket, bu özelliklerle video içeriklerin otomatik altyazıya çevrilmesini de kolaylaştırmayı amaçlıyor. Ancak, şu an için Scribe yalnızca önceden kaydedilmiş sesler üzerinde çalışıyor. Gerçek zamanlı konuşma algılama sürümü ise yakında piyasaya sürülecek.
Fiyatlandırma ve rekabet
ElevenLabs, Scribe için saatlik 0,40 dolar ücret belirledi. Bu rakam piyasadaki rakiplerinden bazılarına kıyasla rekabetçi olsa da, daha düşük fiyatlarla hizmet sunan alternatifler de bulunuyor. Şirket, kaliteli transkripsiyon hizmetiyle pazarda fark yaratmayı hedefliyor.
Scribe, Gladia, Speechmatics, AssemblyAI, Deepgram ve OpenAI’nin Whisper modelleriyle doğrudan rekabet edecek. Yapay zeka destekli konuşmadan metne dönüştürme alanında büyük bir yarış başlarken, ElevenLabs’ın bu pazardaki başarısı merakla bekleniyor.