Microsoft представила штучний інтелект, здатний точно імітувати будь-який людський голос. Розробка отримала назву VALL-E за аналогією з попереднім її алгоритмом DALL-E, який створює зображення за текстовим описом.

VALL-E може імітувати тембр та манеру мови, прослухавши голос реальної людини всього лише три секунди. І хоч звучання трохи видає електронний голос, результат все одно вражає – модель синтезу мовлення може зберегти емоційний тон мовця та навіть акустичне середовище.

Microsoft назвала свою розробку “мовною моделлю нейронного кодека”. VALL-E створювалась на основі EnCodec (звуковий кодек, що використовує методи машинного навчання), розробленому Meta у 2022 році.

На відміну від інших методів перетворення тексту в мову, які зазвичай синтезують мовлення шляхом маніпулювання формами хвиль, VALL-E генерує окремі коди аудіокодеків із текстових і акустичних підказок. Фактично, він аналізує, як звучить людина, розбиває цю інформацію на окремі компоненти (так звані “токени”) завдяки EnCodec, і використовує навчальні дані, щоб відповідати тому, що він “знає” про те, як звучав би цей голос, якби він говорив інші фрази за межами трисекундного зразка.

VALL-E навчали на основі бібліотеки LibriLight, що містить 60 000 годин англомовного мовлення більш ніж від 7000 осіб. Розробники припускають, що технологію можна використовувати для високоякісних програм перетворення тексту в мовлення, редагування записів мови, де слова людини дозволяється змінювати, створення аудіоконтенту (наприклад, озвучування аудіокниг) тощо.
Джерело

Від tatuanaru