Технология синтеза речи от Google стала доступна сторонним разработчикам

Раньше система использовалась только в Google Assistant и других сервисах компании. Благодаря обновленной версии WaveNet, речь генерируется в 1000 раз быстрее.

Google открыла доступ к собственной технологии перевода печатного текста в аудио. С помощью Google Cloud Platform создатели приложений могут использовать синтез речи для внедрения функций автоответчика и озвучивания любого текста.

Разработчикам предлагается выбор из 32 голосов и 12 языков. В настройках можно изменять тембр, скорость и громкость. Поддерживаются разные форматы аудио, включая MP3 и WAV.

Улучшенный синтез речи

Технология основана на обновленной версии WaveNet, поэтому команда проекта уверена в правильном звучании даже сложного текста. Благодаря облачному процессору Google TPU, искусственная речь генерируется в 1000 раз быстрее: одна секунда воспроизведенного текста создается за 50 миллисекунд. Для более естественного звучания качество звуковых фрагментов повышено с 8 до 16 бит.

Для оценки качества речи были привлечены добровольцы. Созданные системой WaveNet аудиозаписи получили в среднем 4,1 балла. Для сравнения, голос реального человека был оценен максимум на 4,59 балла из 5:

Технология синтеза речи от Google стала доступна сторонним разработчикам 2

Стоимость сервиса зависит от объема работы: стандартная система озвучивания стоит 4 $ за каждый миллион озвученных символов, а WaveNet — 16 $. Подробнее о технологии можно узнать в документации.

У системы перевода печатного текста в аудио от Google есть серьезные конкуренты. В феврале 2018 года технология Baidu Deep Voice научилась менять женский голос на мужской.

10К открытий10К показов

Также рекомендуем

Кто и зачем делает дипфейк-порно. 18+

Объясняем, кто, как и зачем делает порно дипфейки. Рассказываем, какой статус у порно дипфейков в законодательстве России.

Почему ChatGPT опасна и что такое стохастические попугаи

Исследователи написали научную статью, которая посвящена опасности ChatGPT из-за нерепрезентативности данных для обучения языковых моделей.

Дайджест Python #13: инструменты для Data Science и исполняемые файлы из скрипта

Собрали лучшие материалы по Python с 1 по 14 июля. Узнайте, как сделать из скрипта исполняемый файл и как настроить автопостинг в ВК.

Где точно не стоит использовать ChatGPT

Разбираем минусы и проблемы ChatGPT. А также рассказываем, в каких сферах с ней пока не получится работать.