ElevenLabs пуска собствен модел за разпознаване на реч
Цената на Scribe е $0.40 на час транскрибирано аудио
AI стартъпът ElevenLabs, който наскоро привлече 180 милиона долара финансиране, досега беше известен най-вече със своите иновации в аудиогенерацията. Сега компанията разширява дейността си, като пуска първия си самостоятелен модел за разпознаване на реч (speech-to-text), наречен Scribe.
С оценка от 3,3 милиарда долара, ElevenLabs вече е помогнала на много компании с услуги за преобразуване на реч в текст чрез своята библиотека с гласове. Но сега стартъпът навлиза в сферата на разпознаването на говор и се конкурира с Gladia, Speechmatics, AssemblyAI, Deepgram и моделите Whisper на OpenAI.
Scribe поддържа над 99 езика още при стартирането си. Компанията класифицира над 25 езика в категорията за отлична точност (грешка под 5%). Сред тях са английски (с 97% точност), френски, немски, хинди, индонезийски, японски, каннада, малаялам, полски, португалски, испански и виетнамски. Останалите езици са разделени в категории с висока (5% - 10%), добра (10% - 20%) и умерена (25% - 50%) грешка при разпознаване на думите.
Компанията твърди, че Scribe превъзхожда Google Gemini 2.0 Flash и Whisper Large V3 в множество езици според тестовете FLEURS & Common Voice.
Introducing Scribe — the most accurate Speech to Text model.
It has the highest accuracy on benchmarks, outperforming previous state-of-the-art models such as Gemini 2.0 and OpenAI Whisper v3.
It’s now the leading model for English, Spanish, Italian, and many more. With support… pic.twitter.com/A6TzLzFEUL— ElevenLabs (@elevenlabsio) February 26, 2025
ElevenLabs вече бе разработила технология за разпознаване на реч като част от своя AI платформа за разговорни агенти, пусната миналата година. Но това е първият ѝ самостоятелен модел за разпознаване на говор. В интервю за TechCrunch миналия месец изпълнителният директор Мати Станишевски заяви, че компанията работи по подобряване на моделите за разпознаване на говор.
"Искаме да разбираме по-добре какво казвате в един разговор. Работим върху преминаването от просто генериране на съдържание към разбиране и транскрибиране на речта", каза Станишевски. "Много хора смятат, че разпознаването на реч вече е решен проблем, но за много езици това изобщо не е така. Вярваме, че можем да създадем по-добри модели, защото имаме вътрешни екипи, които анотират данни и ни дават бърза обратна връзка."
Scribe включва и интелигентна система за разграничаване на говорещите (diarization), таймстамп на ниво дума за прецизни субтитри и автоматично разпознаване на звукови събития като смях на публиката. Компанията предлага и възможност за директно транскрибиране на видео съдържание за автоматично добавяне на субтитри.
В момента Scribe работи само с предварително записано аудио. Очаква се скоро да бъде пусната версия в реално време, която ще позволи транскрипция на срещи и записки от гласови бележки.
Цената на Scribe е $0.40 на час транскрибирано аудио. Въпреки че това е конкурентна цена, някои съперници на ElevenLabs предлагат по-ниски тарифи или допълнителни функции.