Написать пост

Искусственный интеллект Deep Voice научился менять женский голос на мужской

Аватар Рамис Ганиев

Компания Baidu научила искусственный интеллект Deep Voice быстро создавать цифровые копии голосов и менять их тембр. Раньше копирование занимало полчаса, а в 2018 году для этого требуется несколько секунд.

Компания Baidu обновила Deep Voice — систему для преобразования печатного текста в человеческую речь. Новая версия умеет быстро создавать цифровые копии голосов людей, а также менять женский тембр на мужской и наоборот. Чтобы синтезировать голос, ей необходимо изучить записи с речью реальных людей, учитывая манеру произношения.

Эволюция Deep Voice

Первая версия системы была разработана в начале 2017 года. Она работала быстрее, чем Google WaveNet, на замену которой в декабре вышла Tacotron 2. Искусственный интеллект от Baidu делил заданный текст на фонемы, они преобразовывались в звуки, а из звуков складывалась цифровая версия человеческой речи. Этот алгоритм используется до сих пор.

В мае 2017 года вышла Deep Voice 2 со способностью копировать голоса людей с учетом особенностей произношения. Для создания копии системе было достаточно изучить получасовую запись человеческого голоса.

20 февраля 2018 года Baidu опубликовала технический документ, рассказывающий о паре новых методов обучения. Первый метод занимает больше времени, но синтезированная речь получается более похожей на человеческую. Второй работает быстро, но от этого страдает качество.

Человеческие голоса и их копии можно послушать на GitHub.

Следите за новыми постами
Следите за новыми постами по любимым темам
3К открытий3К показов