Написать пост

Технология синтеза речи от Google стала доступна сторонним разработчикам

Аватар Рамис Ганиев

Раньше система использовалась только в Google Assistant и других сервисах компании. Благодаря обновленной версии WaveNet, речь генерируется в 1000 раз быстрее.

Google открыла доступ к собственной технологии перевода печатного текста в аудио. С помощью Google Cloud Platform создатели приложений могут использовать синтез речи для внедрения функций автоответчика и озвучивания любого текста.

Разработчикам предлагается выбор из 32 голосов и 12 языков. В настройках можно изменять тембр, скорость и громкость. Поддерживаются разные форматы аудио, включая MP3 и WAV.

Улучшенный синтез речи

Технология основана на обновленной версии WaveNet, поэтому команда проекта уверена в правильном звучании даже сложного текста. Благодаря облачному процессору Google TPU, искусственная речь генерируется в 1000 раз быстрее: одна секунда воспроизведенного текста создается за 50 миллисекунд. Для более естественного звучания качество звуковых фрагментов повышено с 8 до 16 бит.

Для оценки качества речи были привлечены добровольцы. Созданные системой WaveNet аудиозаписи получили в среднем 4,1 балла. Для сравнения, голос реального человека был оценен максимум на 4,59 балла из 5:

Технология синтеза речи от Google стала доступна сторонним разработчикам 2

Стоимость сервиса зависит от объема работы: стандартная система озвучивания стоит 4 $ за каждый миллион озвученных символов, а WaveNet — 16 $. Подробнее о технологии можно узнать в документации.

У системы перевода печатного текста в аудио от Google есть серьезные конкуренты. В феврале 2018 года технология Baidu Deep Voice научилась менять женский голос на мужской.

Следите за новыми постами
Следите за новыми постами по любимым темам
10К открытий10К показов