Написать пост

Голосовой deep fake: исследователи из Facebook научили алгоритм подражать речи человека

Аватар Екатерина Никитина

MelNet анализирует спектрограммы аудиодорожек обычных выступлений на TED Talks, подмечает присущие спикеру особенности речи и воспроизводит короткие реплики

Похоже, настало время аудио дип-фейков. Исследователи из группы Facebook AI Research разработали алгоритм MelNet, который синтезирует речь со свойственными конкретному человеку характеристиками. К примеру, он научился подражать голосу Билла Гейтса.

MelNet анализирует спектрограммы аудиодорожек обычных выступлений на TED Talks, подмечает особенности речи, присущие спикеру, и воспроизводит короткие реплики.

Как раз длиной реплик и ограничены возможности алгоритма. Короткие фразы он воспроизводит очень близко к оригиналу. Однако интонация человека меняется, когда он говорит на разные темы, с разным настроением, разной подачей. Подражать этому алгоритм пока не умеет, поэтому длинные предложения звучат искусственно.

Издание MIT Technology Review отмечает, что даже такой алгоритм может сильно повлиять на сервисы вроде голосовых ботов. Там как раз всё общение сводится к обмену короткими репликами.

Подобный подход — анализ спектрограмм речи — использовали учёные из Google AI при работе над алгоритмом Translatotron. Этот ИИ умеет переводить фразы с одного языка на другой, сохраняя особенности речи говорящего.

Следите за новыми постами
Следите за новыми постами по любимым темам
652 открытий652 показов