Сбер AIJ 11.12.24
Сбер AIJ 11.12.24
Сбер AIJ 11.12.24

Baidu представила Deep Voice 2 — систему для перевода текста в речь, способную разобрать сотни акцентов

Новости Отредактировано

Китайская компания Baidu представила систему для перевода текста в речь Deep Voice 2, которая может определять нюансы акцентов и подражать сотням голосов.

2К открытий2К показов

Три месяца назад китайский поисковой гигант Baidu продемонстрировал Deep Voice, систему для перевода текста в речь. Она могла воспроизводить речь, с трудом отличимую от человеческой, и делала это практически в реальном времени. Но система могла изучать одновременно лишь один голос, и для этого ей требовались часы аудиозаписей.

Совсем недавно компания представила обновление системы, Deep Voice 2. Она может изучить нюансы голоса человека всего за полчаса аудиозаписи и имитировать голоса сотни различных ораторов.

Изучение диалектов стало проще

Помните, как много времени потребовалось Siri для изучения акцентов? Это происходило по причине того, что каждый новый голос требовал тысяч часов разговоров. После этого инженеры тратили много времени для ручной настройки программы, обучая её разговаривать. Deep Voice 2 пошла по иному пути: она изучает схожие элементы речи разных людей, чтобы построить модель человеческого голоса, а затем настраивает модель для конкретной задачи — без вмешательства человека.

Baidu считает, что эта технология будет полезна для цифровых помощников, которыми управляют с помощью голосовых команд. Также она может пригодиться в области электронных книг.

Следите за новыми постами
Следите за новыми постами по любимым темам
2К открытий2К показов