Google обновила инструмент для трансляции речи в текст Cloud Speech-to-Text

Разработчики из Google Cloud Platform представили крупное обновление облачного инструмента для транскрипции речи в текст. Cloud Speech-to-Text умеет расставлять знаки препинания, вести текстовую трансляцию со спортивных мероприятий и учитывать характерные для разных ситуаций фоновые шумы.

В рамках конференций NAB и SpeechTek разработчики из Google анонсировали крупное обновление вышедшего в 2016 году Cloud Speech API. Инструмент получил новое название — Cloud Speech-to-Text — и дополнительные встроенные функции.

Что умеет Cloud Speech-to-Text?

Создатели снабдили облачное решение несколькими модулями:

подборка встроенных моделей для повышения качества транскрипций видеозаписей и телефонных звонков;
автоматическая расстановка знаков препинания;
новый механизм (метаданные для распознавания), позволяющий ставить метки и группировать транскрипционные загрузки;
стандартное соглашение об уровне предоставления услуги (SLA) со средней доступностью 99,9 %.

В текущей версии Cloud Text-to-Speech представлены модели, покрывающие три различных варианта использования, привязанные к конкретным примерам:

Показ баскетбольного матча по ТВ:распознавание более 4 спикеров (включая ведущих, интервьюируемых членов команды, рекламу);учёт фонового шума (включая крики болельщиков, звуковые эффекты, музыку, звуки ударов на баскетбольном поле);поддержка трансляций длительностью более 2 часов.
Звонок клиента в банковскую службу поддержки с вопросом о кредитной карте:распознавание 2–4 говорящих;учёт фонового шума (помехи на линии, музыка во время ожидания соединения, голоса, не участвующие в разговоре);поддержка звонков со средней продолжительностью около 4 минут.
Пользователь просит «умный» телевизор запустить ТВ-эпизод:распознавание 1 голоса;учёт фонового шума (другие люди в комнате, музыка, телепередачи);поддержка запросов длительностью 2–10 секунд.

Новые модели для анализа звонков и видео

Для повышения качества распознавания и трансляции речи в текст Google разработала модель enhanced phone_call, основанную на реальных данных, добровольно предоставленных пользователями. Это позволило более чем вдвое сократить количество ошибок и неточностей транскрипции по сравнению с basic phone_call.

Также была представлена модель video, оптимизированная под извлечение аудио из роликов или аудио с участием нескольких активных голосов. Новая модель работает на технологии обучения, схожей с используемой на YouTube для генерации субтитров, и демонстрирует на 64 % меньше ошибок по сравнению со старой моделью по умолчанию.

В текущей версии Cloud Speech-to-Text эти решения работают только с американским английским, но позже разработчики обещают добавить поддержку других языков.

Более подробно с обновлённым инструментом можно ознакомиться на его официальной странице.

Напомним, что в конце марта Google открыла доступ к «брату-близнецу» Cloud Speech-to-Text — Cloud Text-to-Speech, позволяющему синтезировать речь на основе текста.