ElevenLabs пуска собствен модел за разпознаване на реч

Цената на Scribe е $0.40 на час транскрибирано аудио

Снимка: ElevenLabs

ElevenLabs пуска собствен модел за разпознаване на реч

Цената на Scribe е $0.40 на час транскрибирано аудио

10:05 | 27 февруари 2025 | Редактор : Стоян Гогов 0 204 Снимка: ElevenLabs

AI стартъпът ElevenLabs, който наскоро привлече 180 милиона долара финансиране, досега беше известен най-вече със своите иновации в аудиогенерацията. Сега компанията разширява дейността си, като пуска първия си самостоятелен модел за разпознаване на реч (speech-to-text), наречен Scribe.

С оценка от 3,3 милиарда долара, ElevenLabs вече е помогнала на много компании с услуги за преобразуване на реч в текст чрез своята библиотека с гласове. Но сега стартъпът навлиза в сферата на разпознаването на говор и се конкурира с Gladia, Speechmatics, AssemblyAI, Deepgram и моделите Whisper на OpenAI.

Scribe поддържа над 99 езика още при стартирането си. Компанията класифицира над 25 езика в категорията за отлична точност (грешка под 5%). Сред тях са английски (с 97% точност), френски, немски, хинди, индонезийски, японски, каннада, малаялам, полски, португалски, испански и виетнамски. Останалите езици са разделени в категории с висока (5% - 10%), добра (10% - 20%) и умерена (25% - 50%) грешка при разпознаване на думите.

Компанията твърди, че Scribe превъзхожда Google Gemini 2.0 Flash и Whisper Large V3 в множество езици според тестовете FLEURS & Common Voice.

Introducing Scribe — the most accurate Speech to Text model.

It has the highest accuracy on benchmarks, outperforming previous state-of-the-art models such as Gemini 2.0 and OpenAI Whisper v3.

It’s now the leading model for English, Spanish, Italian, and many more. With support… pic.twitter.com/A6TzLzFEUL

— ElevenLabs (@elevenlabsio) February 26, 2025

ElevenLabs вече бе разработила технология за разпознаване на реч като част от своя AI платформа за разговорни агенти, пусната миналата година. Но това е първият ѝ самостоятелен модел за разпознаване на говор. В интервю за TechCrunch миналия месец изпълнителният директор Мати Станишевски заяви, че компанията работи по подобряване на моделите за разпознаване на говор.

"Искаме да разбираме по-добре какво казвате в един разговор. Работим върху преминаването от просто генериране на съдържание към разбиране и транскрибиране на речта", каза Станишевски. "Много хора смятат, че разпознаването на реч вече е решен проблем, но за много езици това изобщо не е така. Вярваме, че можем да създадем по-добри модели, защото имаме вътрешни екипи, които анотират данни и ни дават бърза обратна връзка."

Scribe включва и интелигентна система за разграничаване на говорещите (diarization), таймстамп на ниво дума за прецизни субтитри и автоматично разпознаване на звукови събития като смях на публиката. Компанията предлага и възможност за директно транскрибиране на видео съдържание за автоматично добавяне на субтитри.

В момента Scribe работи само с предварително записано аудио. Очаква се скоро да бъде пусната версия в реално време, която ще позволи транскрипция на срещи и записки от гласови бележки.

Цената на Scribe е $0.40 на час транскрибирано аудио. Въпреки че това е конкурентна цена, някои съперници на ElevenLabs предлагат по-ниски тарифи или допълнителни функции.

Днес, повече от всякога, независимата журналистика има нужда от вас. В мисията си да предоставяме обективни, достоверни и навременни новини разчитаме на вашата подкрепа.

Ако вярвате в правото си на обективна информация, подкрепете ни.

Вашето дарение от всякакъв размер и по всяко време означава много за нас.

Скъпи читатели,

Днес, повече от всякога, независимата журналистика има нужда от вас.
В мисията си да предоставяме обективни, достоверни и навременни новини разчитаме на вашата подкрепа.

Ако вярвате в правото си на обективна информация, подкрепете ни.

Скъпи читатели,

Днес, повече от всякога, независимата журналистика има нужда от вас.
В мисията си да предоставяме обективни, достоверни и навременни новини разчитаме на вашата подкрепа.

Ако вярвате в правото си на обективна информация, подкрепете ни.

ИЗБРАНО