Голосовой deep fake: исследователи из Facebook научили алгоритм подражать речи человека

Похоже, настало время аудио дип-фейков. Исследователи из группы Facebook AI Research разработали алгоритм MelNet, который синтезирует речь со свойственными конкретному человеку характеристиками. К примеру, он научился подражать голосу Билла Гейтса.

MelNet анализирует спектрограммы аудиодорожек обычных выступлений на TED Talks, подмечает особенности речи, присущие спикеру, и воспроизводит короткие реплики.

Как раз длиной реплик и ограничены возможности алгоритма. Короткие фразы он воспроизводит очень близко к оригиналу. Однако интонация человека меняется, когда он говорит на разные темы, с разным настроением, разной подачей. Подражать этому алгоритм пока не умеет, поэтому длинные предложения звучат искусственно.

Издание MIT Technology Review отмечает, что даже такой алгоритм может сильно повлиять на сервисы вроде голосовых ботов. Там как раз всё общение сводится к обмену короткими репликами.

Подобный подход — анализ спектрограмм речи — использовали учёные из Google AI при работе над алгоритмом Translatotron. Этот ИИ умеет переводить фразы с одного языка на другой, сохраняя особенности речи говорящего.

Source: MIT Technology Review

Хинт для программистов: если зарегистрироваться на соревнования Huawei Honor Cup, бесплатно получите доступ к онлайн-школе для участников. Можно прокачаться по разным навыкам и выиграть призы в самом соревновании. Перейти к регистрации.