Искусственный интеллект научился копировать голос человека за 5 минут

IT-компании и гигантские корпорации со всего мира уделяют немало вниманию естественному звучанию компьютерного голоса. Очередным достижением IBM в этом направлении стал новый алгоритм, основанный на базе искусственного интеллекта. Через пять минут после ознакомления с голосом собеседника, он способен самостоятельно произносить любой текст его голосом.

По заверению IBM, новый ИИ-алгоритм способен в режиме реального времени строить диалоги и адаптироваться к различным стилям разговора и тембрам голоса. Специалисты компании отмечают, что благодаря синтезу нейронной речи на основе модульной архитектуры им «удалось создать реалистичный компьютерный голос».

Система состоит из трёх составных частей: предиктора функции просодии, предиктора акустических характеристик и нейронного вокодера. Совместно все три компонента позволяют максимально точно определить стиль говорящего, а также подстроить высоту и энергию подачи речи с учётом акустических искажений. По данным компании, для обучения нейросети достаточно лишь пяти минут прослушивания собеседника.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *