Baidu представила Deep Voice 2 — систему для перевода текста в речь, способную разобрать сотни акцентов

Deep Voice

Три месяца назад китайский поисковой гигант Baidu продемонстрировал Deep Voice, систему для перевода текста в речь. Она могла воспроизводить речь, с трудом отличимую от человеческой, и делала это практически в реальном времени. Но система могла изучать одновременно лишь один голос, и для этого ей требовались часы аудиозаписей.

Совсем недавно компания представила обновление системы, Deep Voice 2. Она может изучить нюансы голоса человека всего за полчаса аудиозаписи и имитировать голоса сотни различных ораторов.

Изучение диалектов стало проще

Помните, как много времени потребовалось Siri для изучения акцентов? Это происходило по причине того, что каждый новый голос требовал тысяч часов разговоров. После этого инженеры тратили много времени для ручной настройки программы, обучая её разговаривать. Deep Voice 2 пошла по иному пути: она изучает схожие элементы речи разных людей, чтобы построить модель человеческого голоса, а затем настраивает модель для конкретной задачи — без вмешательства человека.

Baidu считает, что эта технология будет полезна для цифровых помощников, которыми управляют с помощью голосовых команд. Также она может пригодиться в области электронных книг.

Источник: The Verge