Google представила Tacotron 2, новую систему для преобразования текста в речь

Новости

Новый алгоритм преобразования текста в речь Tacotron 2 умеет генерировать аудиозаписи, практически неотличимые от звуков человеческого голоса.

5К открытий5К показов

Как сообщает Google, разработка системы преобразования текста в естественно звучащую речь — одна из основных исследовательских целей компании. Новейшее изобретение в этой области — Tacotron 2 — справляется с этой задачей проще и эффективнее своих предшественников Tacotron и WaveNet.

Старые проблемы

Предыдущие системы генерации речи обладали рядом существенных недостатков. WaveNet, к примеру, издавала очень резкие, режущие слух звуки. И хотя преобразование текста выполнялось алгоритмом весьма эффективно, для успешной работы ему требовалось огромное количество метаданных о языке, начиная с произношения и заканчивая специфическими языковыми особенностями. Tacotron же лучше справлялся с воспроизведением высокоуровневых особенностей языка (вроде интонации или просодии), но на выходе не мог выдавать полноценный «речевой продукт».

Главные достоинства

Tacotron 2 создан с учетом ошибок предыдущих систем. В нем соединены их успешные функции, «приправленные» упрощенной системой сбора данных для обучения.

Для вычисления лингвистических правил алгоритму необходим сам текст и его озвучка. Печатная версия конвертируется в специальную Tacotron-спектрограмму, в которой распределяются ритм и ударения, а слова уже генерируются в системе а-ля WaveNet.

Google представила Tacotron 2, новую систему для преобразования текста в речь 1

Что же вышло?

Выходная аудиозапись в действительности очень похожа на речь живого человека (правда, англоговорящие слушатели утверждают, что некоторые слова система выговаривает достаточно ломано). Темп речи звучит весьма убедительно, а основные запинки происходят на словах с «не-интуитивным» произношением. Иногда ударения делаются не на тот слог, а словарные/заимствованные слова система зачитывает буквально по буквам. «Иногда она даже случайно генерирует странные звуки,» — пишут исследователи.

Одной из основных проблем нового алгоритма является отсутствие регулировки тона речи. Нельзя предугадать, какая фраза будет произнесена весело и оптимистично, а какая — грубо или самоуверенно. Однако это вполне компенсируется возможностью настройки других языковых тонкостей (например, акцентов).

Стоит отметить, что в этой области у Google есть серьезные конкуренты. Например, в мае 2017 года компания Baidu представила систему для перевода текста в речь, различающую и воспроизводящую сотни акцентов.

Машинное обучениеПодписаться

5К открытий5К показов

Также рекомендуем

Microsoft вернулась к найму после года увольнений. Но теперь ИИ решает, кого брать, а кого — нет

Microsoft снова нанимает после массовых сокращений, но теперь ИИ решает, кого брать. Компания делает ставку на AI-first сотрудников

В какие смартфоны будет встроено ИИ и как это будет

Смартфоны с ИИ. Показываем, как работает искусственный интеллект на смартфонах. Рассматриваем новые модели и будущее новых технологий ✔ Tproger

Как ML алгоритмы рулят онлайн-рекламой: про маркетинг и большие данные

Как рекламные алгоритмы понимают, что вы захотите купить, еще до того, как вы об этом подумали

Как стать ML-инженером? От студента до Senior

В этой статье вы узнаете кто такой ML-инженер, чем он занимается, какие направления есть в этой профессии, а также узнаете список технологий, который нужно знать для работы в профессии.