Карта дня, май, перетяжка
Карта дня, май, перетяжка
Карта дня, май, перетяжка

Система Deep Voice от Baidu научилась быстро синтезировать человеческую речь

Новости

2К открытий3К показов

Китайская компания представила систему, позволяющую преобразовывать написанный текст в человеческую речь, и делает она это лучше и быстрее, чем WaveNet от Google.

По словам компании, Deep Voice может научиться говорить всего за несколько часов, причем говорить достаточно естественно и реалистично.

Как работает эта система?

Инструмент WaveNet от Google тоже умеет синтезировать реалистичную человеческую речь, но для его использования требуется достаточно мощное железо, что затрудняет его использование в реальной жизни. Baidu решила данную проблему благодаря глубинному обучению. Deep Voice конвертирует текст в фонемы, самые маленькие единицы речи. После этого система преобразует фонемы в звуки, используя сеть для синтеза речи. Например, слово «Hello» система преобразует в «(тишина, HH), (HH, EH), (EH, L), (L, OW), (OW, тишина)», после чего Deep Voice произносит слово.

Оба шага работают благодаря машинному обучению и не требуют вмешательства человека. Однако система не может определять, какие звуки находятся под ударением и как долго их произносить. Этим занимаются люди, переставляя звуки и фонемы, тем самым передавая выразительность речи.

Хотя Deep Voice и решила проблему WaveNet, ей по-прежнему требуется очень много вычислительной мощности. Для того, чтобы говорить как человек, компьютер должен генерировать слова за 20 микросекунд. В компании объяснили, что они стараются не синтезировать одни и те же слова по несколько раз. Вместо этого синтезированные слова хранятся в кэше процессора, что позволяет оптимально использовать вычислительные модули.

Следите за новыми постами
Следите за новыми постами по любимым темам
2К открытий3К показов