Искусственный интеллект Deep Voice научился менять женский голос на мужской

В 2017 году копирование голоса занимало 30 минут, а теперь алгоритм справляется за секунды.
Baidu Deep Voice

Компания Baidu обновила Deep Voice — систему для преобразования печатного текста в человеческую речь. Новая версия умеет быстро создавать цифровые копии голосов людей, а также менять женский тембр на мужской и наоборот. Чтобы синтезировать голос, ей необходимо изучить записи с речью реальных людей, учитывая манеру произношения.

Эволюция Deep Voice

Первая версия системы была разработана в начале 2017 года. Она работала быстрее, чем Google WaveNet, на замену которой в декабре вышла Tacotron 2. Искусственный интеллект от Baidu делил заданный текст на фонемы, они преобразовывались в звуки, а из звуков складывалась цифровая версия человеческой речи. Этот алгоритм используется до сих пор.

В мае 2017 года вышла Deep Voice 2 со способностью копировать голоса людей с учетом особенностей произношения. Для создания копии системе было достаточно изучить получасовую запись человеческого голоса.

20 февраля 2018 года Baidu опубликовала технический документ, рассказывающий о паре новых методов обучения. Первый метод занимает больше времени, но синтезированная речь получается более похожей на человеческую. Второй работает быстро, но от этого страдает качество.

Человеческие голоса и их копии можно послушать на GitHub.

Источник: Baidu Research

Ещё интересное для вас:
Тест: какой язык программирования вам стоит выбрать для изучения?
Тест: как хорошо вы разбираетесь в Data Science?
Соревнования и бесплатная онлайн-школа для программистов