Аудиопрофили и распознавание языка: Google Cloud обновила свои сервисы расшифровки аудио и синтеза речи

Новости

Cloud Text-to-Speech получил экспериментальную функцию аудиопрофилей, а Cloud Speech-to-Text научился распознавать разных спикеров и определять язык.

1К открытий1К показов

Команда Google Cloud объявила в своем блоге о стабильном выпуске API для синтеза речи Cloud Text-to-Speech с экспериментальной функцией аудиопрофилей и поддержкой нескольких новых языков. А сервис для расшифровки аудио Cloud Speech-to-Text научился распознавать разных спикеров и самостоятельно определять язык записи из нескольких возможных.

Cloud Text-to-Speech

Голоса

Вместе с переходом на стабильный рабочий режим API для перевода письменной речи в устную получил поддержку ряда новых языков и голосов, созданных с помощью технологии WaveNet. В общей сложности доступно 14 языков и диалектов (русского среди них нет), на которых говорит 30 стандартных «голосов» и 26 тех, что основаны на WaveNet.

Аудиопрофили

В бета-режиме запущена функция аудиопрофилей. Она позволяет автоматически оптимизировать аудиофайл для конкретного устройства: «умных» часов и других носимых гаджетов, смартфонов, наушников, обычных и стереоколонок, аудиосистем «умного» дома, автомобильных динамиков. Также можно установить режим «по умолчанию».

Cloud Speech-to-Text

Распознавание спикера

API для перевода аудио в текст, Cloud Speech-to-Text, получило функцию распознавания спикеров по голосу. Используя машинное обучение, система при транскрибировании разделяет реплики разных людей и помечает их номерами. Однако в начале обработки аудиофайла необходимо указать количество спикеров.

Распознавание языка

Также команда Google Cloud добавила функцию автоопределения языка на записи. Используя API для своих приложений, разработчик может указывать до 4 языков в одном запросе. На момент написания новости инструмент поддерживает 120 языков (включая русский).

Распознавание важных слов

С обновленным Cloud Speech-to-Text разработчики могут присваивать уровни важности отдельным специфическим словам. Команда Google Cloud привела в пример такую команду пользователя: «Занеси, пожалуйста, в календарь встречу с Джоном на завтра, в 2 часа дня». В этом предложении «пожалуйста» значит меньше, чем «Джон» или «2 часа дня», поэтому приложение при необходимости попросит человека повторить время или имя, но не пустые слова вежливости.

Технологию синтеза речи Google долгое время использовала лишь в собственных продуктах. Сторонним разработчикам она стала доступна в марте 2018 года с выбором из 32 голосов и 12 языков. А сервис расшифровки устной речи раньше назывался Cloud Speech API, и нынешнее имя получил в апреле 2018 года вместе с новыми моделями для анализа звонков и видео.

1К открытий1К показов

Также рекомендуем

Почему As Code — это не просто тренд, а новая реальность разработки

В статье Максим Морев расскажет, что такое подход As Code, как он развивался и почему он нужен компаниям.

5 инструментов, которые используют айтишные команды

Показываем, какими инструментами пользуются внутри айтишных команд и какие можно использовать для себя здесь и сейчас или внедрить в свою команду.

AI для frontend: модели для генерации интерфейса

AI для frontend. Показываем варианты использования ИИ для интерфейса. Рассматриваем преимущества и основные нюансы ✔ Tproger

10 лучших платформ для создания приложений без единой строчки кода

Платформы No-code — как они работают, каковые их преимущества и недостатки. Топ лучших конструкторов для разработки приложений без кода.