Google представила Tacotron 2, новую систему для преобразования текста в речь

текст в речь иллюстрация

Как сообщает Google, разработка системы преобразования текста в естественно звучащую речь — одна из основных исследовательских целей компании. Новейшее изобретение в этой области — Tacotron 2 — справляется с этой задачей проще и эффективнее своих предшественников Tacotron и WaveNet.

Старые проблемы

Предыдущие системы генерации речи обладали рядом существенных недостатков. WaveNet, к примеру, издавала очень резкие, режущие слух звуки. И хотя преобразование текста выполнялось алгоритмом весьма эффективно, для успешной работы ему требовалось огромное количество метаданных о языке, начиная с произношения и заканчивая специфическими языковыми особенностями. Tacotron же лучше справлялся с воспроизведением высокоуровневых особенностей языка (вроде интонации или просодии), но на выходе не мог выдавать полноценный «речевой продукт».

Главные достоинства

Tacotron 2 создан с учетом ошибок предыдущих систем. В нем соединены их успешные функции, «приправленные» упрощенной системой сбора данных для обучения.

Для вычисления лингвистических правил алгоритму необходим сам текст и его озвучка. Печатная версия конвертируется в специальную Tacotron-спектрограмму, в которой распределяются ритм и ударения, а слова уже генерируются в системе а-ля WaveNet.

Схематичная структура работы Tacotron 2

Ну теперь-то все понятно…

Что же вышло?

Выходная аудиозапись в действительности очень похожа на речь живого человека (правда, англоговорящие слушатели утверждают, что некоторые слова система выговаривает достаточно ломано). Темп речи звучит весьма убедительно, а основные запинки происходят на словах с «не-интуитивным» произношением. Иногда ударения делаются не на тот слог, а словарные/заимствованные слова система зачитывает буквально по буквам. «Иногда она даже случайно генерирует странные звуки,» — пишут исследователи.

Одной из основных проблем нового алгоритма является отсутствие регулировки тона речи. Нельзя предугадать, какая фраза будет произнесена весело и оптимистично, а какая — грубо или самоуверенно. Однако это вполне компенсируется возможностью настройки других языковых тонкостей (например, акцентов).

Стоит отметить, что в этой области у Google есть серьезные конкуренты. Например, в мае 2017 года компания Baidu представила систему для перевода текста в речь, различающую и воспроизводящую сотни акцентов.

Источник: блог Google Research

Ещё интересное для вас:
— Тест «Насколько хорошо вы разбираетесь в C#?»
— Блиц-тест «Настоящий ли ты фронтендер?»
— Меньше готовить, больше кодить: обзор питания с доставкой на дом.