Технология синтеза речи от Google стала доступна сторонним разработчикам

Ранее она использовалась только в поисковике, картах, Google Assistant и других сервисах компании.
Синтез речи Google

Google открыла доступ к собственной технологии перевода печатного текста в аудио. С помощью Google Cloud Platform создатели приложений могут использовать синтез речи для внедрения функций автоответчика и озвучивания любого текста.

Разработчикам предлагается выбор из 32 голосов и 12 языков. В настройках можно изменять тембр, скорость и громкость. Поддерживаются разные форматы аудио, включая MP3 и WAV.

Улучшенный синтез речи

Технология основана на обновленной версии WaveNet, поэтому команда проекта уверена в правильном звучании даже сложного текста. Благодаря облачному процессору Google TPU, искусственная речь генерируется в 1000 раз быстрее: одна секунда воспроизведенного текста создается за 50 миллисекунд. Для более естественного звучания качество звуковых фрагментов повышено с 8 до 16 бит.

Синтез речи

Для оценки качества речи были привлечены добровольцы. Созданные системой WaveNet аудиозаписи получили в среднем 4,1 балла. Для сравнения, голос реального человека был оценен максимум на 4,59 балла из 5:

Оценка качества обычного синтезатора, WaveNet и человеческой речи

Оценка качества обычного синтезатора, WaveNet и человеческой речи

Стоимость сервиса зависит от объема работы: стандартная система озвучивания стоит 4 $ за каждый миллион озвученных символов, а WaveNet — 16 $. Подробнее о технологии можно узнать в документации.

У системы перевода печатного текста в аудио от Google есть серьезные конкуренты. В феврале 2018 года технология Baidu Deep Voice научилась менять женский голос на мужской.

Источник: блог Google Cloud Platform