Аудиопрофили и распознавание языка: Google Cloud обновила свои сервисы расшифровки аудио и синтеза речи

google cloud

Команда Google Cloud объявила в своем блоге о стабильном выпуске API для синтеза речи Cloud Text-to-Speech с экспериментальной функцией аудиопрофилей и поддержкой нескольких новых языков. А сервис для расшифровки аудио Cloud Speech-to-Text научился распознавать разных спикеров и самостоятельно определять язык записи из нескольких возможных.

Cloud Text-to-Speech

Голоса

Вместе с переходом на стабильный рабочий режим API для перевода письменной речи в устную получил поддержку ряда новых языков и голосов, созданных с помощью технологии WaveNet. В общей сложности доступно 14 языков и диалектов (русского среди них нет), на которых говорит 30 стандартных «голосов» и 26 тех, что основаны на WaveNet.

Аудиопрофили

В бета-режиме запущена функция аудиопрофилей. Она позволяет автоматически оптимизировать аудиофайл для конкретного устройства: «умных» часов и других носимых гаджетов, смартфонов, наушников, обычных и стереоколонок, аудиосистем «умного» дома, автомобильных динамиков. Также можно установить режим «по умолчанию».

Google Cloud Text-to-Speech

Cloud Speech-to-Text

Распознавание спикера

API для перевода аудио в текст, Cloud Speech-to-Text, получило функцию распознавания спикеров по голосу. Используя машинное обучение, система при транскрибировании разделяет реплики разных людей и помечает их номерами. Однако в начале обработки аудиофайла необходимо указать количество спикеров.

Распознавание языка

Также команда Google Cloud добавила функцию автоопределения языка на записи. Используя API для своих приложений, разработчик может указывать до 4 языков в одном запросе. На момент написания новости инструмент поддерживает 120 языков (включая русский).

Распознавание важных слов

С обновленным Cloud Speech-to-Text разработчики могут присваивать уровни важности отдельным специфическим словам. Команда Google Cloud привела в пример такую команду пользователя: «Занеси, пожалуйста, в календарь встречу с Джоном на завтра, в 2 часа дня». В этом предложении «пожалуйста» значит меньше, чем «Джон» или «2 часа дня», поэтому приложение при необходимости попросит человека повторить время или имя, но не пустые слова вежливости.

Технологию синтеза речи Google долгое время использовала лишь в собственных продуктах. Сторонним разработчикам она стала доступна в марте 2018 года с выбором из 32 голосов и 12 языков. А сервис расшифровки устной речи раньше назывался Cloud Speech API, и нынешнее имя получил в апреле 2018 года вместе с новыми моделями для анализа звонков и видео.

via TechCrunch
Source: блог Google Cloud

Ещё интересное для вас:
— Биты, байты, Ада Лавлейс — тест на знание околоIT.
— Level Up — события и курсы, на которых можно поднять свой уровень.
— Работа мечты — лучшие IT-вакансии для вас.