Искусственный интеллект Deep Voice научился менять женский голос на мужской
Новости
В 2017 году копирование голоса занимало 30 минут, а теперь алгоритм справляется за секунды.
4К открытий4К показов
Компания Baidu обновила Deep Voice — систему для преобразования печатного текста в человеческую речь. Новая версия умеет быстро создавать цифровые копии голосов людей, а также менять женский тембр на мужской и наоборот. Чтобы синтезировать голос, ей необходимо изучить записи с речью реальных людей, учитывая манеру произношения.
Эволюция Deep Voice
Первая версия системы была разработана в начале 2017 года. Она работала быстрее, чем Google WaveNet, на замену которой в декабре вышла Tacotron 2. Искусственный интеллект от Baidu делил заданный текст на фонемы, они преобразовывались в звуки, а из звуков складывалась цифровая версия человеческой речи. Этот алгоритм используется до сих пор.
В мае 2017 года вышла Deep Voice 2 со способностью копировать голоса людей с учетом особенностей произношения. Для создания копии системе было достаточно изучить получасовую запись человеческого голоса.
20 февраля 2018 года Baidu опубликовала технический документ, рассказывающий о паре новых методов обучения. Первый метод занимает больше времени, но синтезированная речь получается более похожей на человеческую. Второй работает быстро, но от этого страдает качество.
Человеческие голоса и их копии можно послушать на GitHub.
4К открытий4К показов