Френската компания за изкуствен интелект Mistral обяви нов модел за генериране на реч с отворен код, насочен към гласови асистенти и корпоративни приложения като обслужване на клиенти и продажби. С пускането на Voxtral TTS компанията влиза в пряка конкуренция с утвърдени играчи като ElevenLabs, Deepgram и OpenAI.

Моделът поддържа девет езика, сред които английски, френски, немски, испански, нидерландски, португалски, италиански, хинди и арабски, което го прави подходящ за международни приложения и услуги.

Според Пиер Сток, вицепрезидент по научните операции в Mistral, новото решение е разработено в отговор на търсенето от страна на клиенти. "Нашите клиенти искаха модел за реч. Затова създадохме компактен модел, който може да работи на смартчасовник, смартфон, лаптоп или други крайни устройства. Цената му е частица от тази на конкурентите, но предлага водеща производителност", заяви той.

Voxtral TTS може да създава персонализиран глас на база аудио семпъл с продължителност под пет секунди, като запазва особености като акцент, интонация и ритъм на речта. Моделът е базиран на архитектурата Ministral 3B и позволява плавно превключване между различни езици, без да се губят характеристиките на гласа - функционалност, която е особено полезна при дублаж и превод в реално време.

Компанията подчертава, че моделът е оптимизиран за работа в реално време. Времето до първи аудио сигнал е около 90 милисекунди при текст от 500 символа, а генерирането на 10-секунден аудио клип отнема приблизително 1,6 секунди.

По-рано през годината Mistral представи и модели за транскрипция — както за обработка на големи обеми данни, така и за приложения с ниска латентност. С добавянето на Voxtral TTS компанията се стреми да изгради пълна екосистема от гласови решения за бизнеса.

"Планираме платформа от край до край, която да обработва мултимодални входове - аудио, текст и изображения - и да генерира съответния изход. Това дава значително повече информация и възможности за изграждане на интелигентни агенти", допълни Сток.

Стратегията на Mistral залага на отворения код и възможностите за персонализация като ключово предимство, което може да насърчи компаниите да възприемат технологията и да я адаптират спрямо конкретните си нужди.