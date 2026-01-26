Alibaba Cloud отвори Qwen3-TTS с Apache 2.0 за поточно TTS, гласов дизайн и 3 секундно клониране, ускорявайки внедряването, но и рисковете от аудиодийпфейкове

458 Снимка: Alibaba Cloud/GitHub

Alibaba Cloud предостави свободен достъп до "теглата" и кода на семейството модели Qwen3-TTS, представляващо набор от невронни мрежи за синтез на реч. Пакетът съчетава три ключови възможности: преобразуване на текст в говор, "проектиране" на глас въз основа на текстово описание и клониране на глас чрез кратка аудио референция. Публикацията включва не само самите модели в два размера, 0,6 млрд. и 1,7 млрд. параметри, но и токенизатор за реч. Благодарение на него системата може да работи в режим на поточно генериране с приблизително 97 ms закъснение, тоест достатъчно ниско за разговорни интерфейси и "живи" асистенти.

Отворената версия е организирана в три направления: Base, който служи като основен модел за висококачествен TTS и бързо клониране, CustomVoice, насочен към контролирано озвучаване чрез "стилови" профили, и VoiceDesign, най-представителният елемент в линията.

Именно VoiceDesign позволява параметрите на бъдещия глас да се задават на естествен език, от тембъра и начина на говорене до емоционалния заряд. Ефективността на алгоритъма позволява технологията да е много удобна за продуценти, редактори и разработчици.

От техническа гледна точка Qwen3-TTS използва подходи от следващо поколение, които през последните две години все по-активно изместват "класическите" TTS практики. В техническия доклад е описана архитектура с "две писти", предназначена за различни режими на работа, от максимално качество до реално време, както и едновременно използване на две фамилии токенизатори за реч.

Най-чувствителната за пазара възможност е клонирането на глас в рамките на секунди. В доклада се посочва "3-секундно клониране на глас", а независими разработчици вече показаха как работи механизмът чрез публична демонстрация в Hugging Face. Потребителят записва кратък референтен откъс и получава озвучаване на друг текст с "неговия" тембър. Именно тук е границата, след която технологията престава да бъде нишова за студията и се превръща в ежедневен инструмент, тъй като е достатъчна видеокарта с няколко гигабайта видеопамет или дори браузър, ако изчисленията се извършват от външна услуга.

Показател за практическа зрялост е и лицензът. Alibaba публикува моделите и токенизаторите под Apache-2.0, един от "най-комерсиалните" лицензи, който обикновено се избира, когато целта е да се насърчи внедряване в продукти и партньорски екосистеми.

Изкуственият интелект е публикуван за свободно ползване в GitHub.

