Baidu представила Deep Voice 2 — систему для перевода текста в речь, способную разобрать сотни акцентов

Новости Отредактировано

Китайская компания Baidu представила систему для перевода текста в речь Deep Voice 2, которая может определять нюансы акцентов и подражать сотням голосов.

2К открытий2К показов

Три месяца назад китайский поисковой гигант Baidu продемонстрировал Deep Voice, систему для перевода текста в речь. Она могла воспроизводить речь, с трудом отличимую от человеческой, и делала это практически в реальном времени. Но система могла изучать одновременно лишь один голос, и для этого ей требовались часы аудиозаписей.

Совсем недавно компания представила обновление системы, Deep Voice 2. Она может изучить нюансы голоса человека всего за полчаса аудиозаписи и имитировать голоса сотни различных ораторов.

Изучение диалектов стало проще

Помните, как много времени потребовалось Siri для изучения акцентов? Это происходило по причине того, что каждый новый голос требовал тысяч часов разговоров. После этого инженеры тратили много времени для ручной настройки программы, обучая её разговаривать. Deep Voice 2 пошла по иному пути: она изучает схожие элементы речи разных людей, чтобы построить модель человеческого голоса, а затем настраивает модель для конкретной задачи — без вмешательства человека.

Baidu считает, что эта технология будет полезна для цифровых помощников, которыми управляют с помощью голосовых команд. Также она может пригодиться в области электронных книг.

2К открытий2К показов

Также рекомендуем

Получаем чистый кайф от программирования, или что такое «вайб-кодинг»

Тяжелые времена создают сильные тренды. Вашему вниманию — «вайб-кодинг». Вайб-кодинг — программируем с кайфом! Короче, разбираемся в статье, что это за зверь.

MIT: 90% проектов с ИИ не приносят прибыли — людям рано бояться массовых увольнений

MIT выяснил: 90% корпоративных ИИ-проектов не дают прибыли. Это значит, что люди по-прежнему незаменимы, а успех зависит от правильного применения технологий

Что такое SOC (Security Operations Center) и как он защищает данные

Что такое Security Operations Center. Показываем, как SOC защищает данные. Рассматриваем основные метрики и нюансы ✔ Tproger

От пикселей к прогрессу: как компьютерное зрение используют в промышленности

Вместе с Владимиром Валеевым, ведущим CV-инженером Softline Digital (ГК Softline), разбираем, для каких задач эффективно компьютерное зрение, в чем преимущества и как внедрить.