Система Deep Voice от Baidu научилась быстро синтезировать человеческую речь

Новости

2К открытий3К показов

Китайская компания представила систему, позволяющую преобразовывать написанный текст в человеческую речь, и делает она это лучше и быстрее, чем WaveNet от Google.

По словам компании, Deep Voice может научиться говорить всего за несколько часов, причем говорить достаточно естественно и реалистично.

Как работает эта система?

Инструмент WaveNet от Google тоже умеет синтезировать реалистичную человеческую речь, но для его использования требуется достаточно мощное железо, что затрудняет его использование в реальной жизни. Baidu решила данную проблему благодаря глубинному обучению. Deep Voice конвертирует текст в фонемы, самые маленькие единицы речи. После этого система преобразует фонемы в звуки, используя сеть для синтеза речи. Например, слово «Hello» система преобразует в «(тишина, HH), (HH, EH), (EH, L), (L, OW), (OW, тишина)», после чего Deep Voice произносит слово.

Оба шага работают благодаря машинному обучению и не требуют вмешательства человека. Однако система не может определять, какие звуки находятся под ударением и как долго их произносить. Этим занимаются люди, переставляя звуки и фонемы, тем самым передавая выразительность речи.

Хотя Deep Voice и решила проблему WaveNet, ей по-прежнему требуется очень много вычислительной мощности. Для того, чтобы говорить как человек, компьютер должен генерировать слова за 20 микросекунд. В компании объяснили, что они стараются не синтезировать одни и те же слова по несколько раз. Вместо этого синтезированные слова хранятся в кэше процессора, что позволяет оптимально использовать вычислительные модули.

Машинное обучениеПодписаться

2К открытий3К показов

Также рекомендуем

Как стать ML-инженером? От студента до Senior

В этой статье вы узнаете кто такой ML-инженер, чем он занимается, какие направления есть в этой профессии, а также узнаете список технологий, который нужно знать для работы в профессии.

От университета к дата-сайенс в МТС за год: как я проходил обучение в Школе аналитиков

Максим Коновалов расскажет, как стал Data Scientist в МТС, пройдя школу аналитиков данных МТС и стажировку.

Чиповые войны: как кризис железа озолотил программистов

Разберемся, как дефицит кремния породил золотую лихорадку среди разработчиков и почему программисты стали дороже железа.

10 телеграм-каналов, которые реально читают сеньоры

Собрали топ-10 каналов для опытных разработчиков, с которыми у вас точно будет что обсудить на дейлике.