Подпишитесь на интересующие вас теги, чтобы следить за новыми постами и быть в курсе событий.
Технология синтеза речи от Google стала доступна сторонним разработчикам
Раньше система использовалась только в Google Assistant и других сервисах компании. Благодаря обновленной версии WaveNet, речь генерируется в 1000 раз быстрее.
9809
Google открыла доступ к собственной технологии перевода печатного текста в аудио. С помощью Google Cloud Platform создатели приложений могут использовать синтез речи для внедрения функций автоответчика и озвучивания любого текста.
Разработчикам предлагается выбор из 32 голосов и 12 языков. В настройках можно изменять тембр, скорость и громкость. Поддерживаются разные форматы аудио, включая MP3 и WAV.
Улучшенный синтез речи
Технология основана на обновленной версии WaveNet, поэтому команда проекта уверена в правильном звучании даже сложного текста. Благодаря облачному процессору Google TPU, искусственная речь генерируется в 1000 раз быстрее: одна секунда воспроизведенного текста создается за 50 миллисекунд. Для более естественного звучания качество звуковых фрагментов повышено с 8 до 16 бит.
Для оценки качества речи были привлечены добровольцы. Созданные системой WaveNet аудиозаписи получили в среднем 4,1 балла. Для сравнения, голос реального человека был оценен максимум на 4,59 балла из 5:
На данный момент этот блок не поддерживается, но мы не забыли о нём!Наша команда уже занята его разработкой, он будет доступен в ближайшее время.
Стоимость сервиса зависит от объема работы: стандартная система озвучивания стоит 4 $ за каждый миллион озвученных символов, а WaveNet — 16 $. Подробнее о технологии можно узнать в документации.
У системы перевода печатного текста в аудио от Google есть серьезные конкуренты. В феврале 2018 года технология Baidu Deep Voice научилась менять женский голос на мужской.
9809
Что думаете?
0 комментариев
Сначала интересные