Microsoft са подобрили своя синтезатор на реч с изкуствен интелект. Софтуерът има за основна цел да "изговаря", това което потребителят е написал. Програмата обаче е била захранена с езиков модел от ново поколение. Той е обучен с над 60 000 часа аудиозаписи от над 7000 англоговорещи.

Първоначално езиковият модел Vall-E е в състояние да изразява различни човешки емоции, които влияят на интонацията на прочетеното. Изкуственият интелект имитира гняв, сънливост, учудване и отвращение.

По-късно изкуственият интелект се научава да имитира глас. За да се случи това, алгоритъмът трябва да получи само кратък сегмент от речта на даден човек. Системата използва заредения запис, за да изучи интонацията и маниерите на изказа. След това тя може да синтезира реч, която звучи доста сходна с първообраза си.

Технологията не е пусната с пълния си потенциал за широката общественост, защото може да се ползва за измами, като фалшив обаждания.