OpenAI може да клонира гласа на човек само от 15-секундно аудио

Технологията е тествана с корпоративните партньори

Снимка: iStock by Getty Images

OpenAI може да клонира гласа на човек само от 15-секундно аудио

Технологията е тествана с корпоративните партньори

16:11 | 1 април 2024 | Редактор : Стоян Гогов 12 1031 Снимка: iStock by Getty Images

Компанията OpenAI, разработчик на чатбота ChatGPT, представи нов езиков модел, предаде ЮПИ. Той може да клонира гласа на конкретен човек, като използва само няколко секунди от негов аудиозапис, предава БТА.

Компанията сподели предварителни данни от проучването на възможностите на технологията. Моделът на изкуствения интелект, наречен Voice Engine, се нуждае само от една 15-секундна аудио извадка, за да генерира реч, имитираща тази на конкретен човек, съобщи OpenAI в публикация в блога си. Технологията е разработена за първи път в края на 2022 г. Използва се за предварително зададени гласове в приложно-програмния интерфейс, който преобразува текст в говор (text-to-speech API).

Технологията е тествана с корпоративните партньори на OpenAI с революционни резултати. Разработчиците споделиха аудиозапис на младо момиче, което говори благодарение на лекарите Фатима Мърза, Роаид Али и Константина Свокос от Института по неврология "Норман Принс".

Момичето е загубило способността си да говори нормално заради съдов мозъчен тумор. Въпреки че все още може да образува думи и изречения, гласът ѝ не звучи по същия начин като преди. Лекарите използват аудиоклип, който тя записва за училищен проект, за да възстановят нормалния ѝ глас, така че той вече да не звучи увреден, когато говори.

"Подходихме предпазливо и информирано към споделянето на функцията поради възможността за злоупотреба със синтетичен глас", казаха от компанията. "Надяваме се да започнем диалог за отговорното използване на речевия синтез и за това как обществото може да се адаптира към тези нови възможности".

OpenAI, засега няма да прави алгоритъма общодостъпен и каза, че започва частно тестване на възможностите му с "малка група от доверени партньори" и е "впечатлена от приложенията" му. Компанията уточни, че продължава да води разговори за това дали и как да внедри технологията в по-голям мащаб.

Алгоритъмът Voice Engine може да се използва за подпомагане на четенето за тези, които не могат да четат. Компанията си партнира с фирмата за образователни технологии Age of Learning, която използва технологията, за да генерира скриптирано образователно съдържание.

OpenAI сподели 15-секундна извадка от оригинален аудиозапис, в който мъж разказвач определя значението на "сила" във физиката. След това моделът е приложен към други теми, което позволява на изкуствения интелект да генерира аудио, свързано с биологията, химията, четенето и математиката.

HeyGen, друг внедрител на технологията, е платформа за визуално разказване на истории с изкуствен интелект, която работи с други компании за създаване на аватари, подобни на хора, за продуктови маркетингови и търговски демонстрации. Те използват Voice Engine, за да превеждат звука в своите видеоклипове.

"Когато се използва за превод, Voice Engine запазва родния акцент на оригиналния говорител. Например генерирането на английски език с аудио извадка от френски говорител ще създаде реч с френски акцент", казват от OpenAI.

Компанията сподели аудиозапис на жена с американски акцент, говореща на английски език, като първоначален клип, който след това беше преведен на испански, мандарин, немски, френски и японски - всички с гласа на жената.

Инструментът е използван и за подпомагане на хора, които не говорят вербално, чрез Livox - бразилска компания с приложение за алтернативна комуникация с изкуствен интелект, което позволява на невербалните потребители да говорят с гласове, задвижвани от Voice Engine.

"Така например един невербален човек може да има уникален глас, който не е роботизиран и звучи абсолютно еднакво на няколко езика", казаха от Livox в социалните мрежи. "Надяваме се, че потребителите на Livox скоро ще могат да имат достъп до тези гласове".

Новината идва, след като OpenAI представи своя модел за генериране на видео Sora, който може да създава реалистично видео от подаден текст. Противниците на технологията са все по-загрижени за последиците от алгоритмите на изкуствения интелект, включително способността да създават аудио и видеоклипове.

ИЗБРАНО