В рамках конференций NAB и SpeechTek разработчики из Google анонсировали крупное обновление вышедшего в 2016 году Cloud Speech API. Инструмент получил новое название — Cloud Speech-to-Text — и дополнительные встроенные функции.
Что умеет Cloud Speech-to-Text?
Создатели снабдили облачное решение несколькими модулями:
- подборка встроенных моделей для повышения качества транскрипций видеозаписей и телефонных звонков;
- автоматическая расстановка знаков препинания;
- новый механизм (метаданные для распознавания), позволяющий ставить метки и группировать транскрипционные загрузки;
- стандартное соглашение об уровне предоставления услуги (SLA) со средней доступностью 99,9 %.
В текущей версии Cloud Text-to-Speech представлены модели, покрывающие три различных варианта использования, привязанные к конкретным примерам:
- Показ баскетбольного матча по ТВ:
- распознавание более 4 спикеров (включая ведущих, интервьюируемых членов команды, рекламу);
- учёт фонового шума (включая крики болельщиков, звуковые эффекты, музыку, звуки ударов на баскетбольном поле);
- поддержка трансляций длительностью более 2 часов.
- Звонок клиента в банковскую службу поддержки с вопросом о кредитной карте:
- распознавание 2–4 говорящих;
- учёт фонового шума (помехи на линии, музыка во время ожидания соединения, голоса, не участвующие в разговоре);
- поддержка звонков со средней продолжительностью около 4 минут.
- Пользователь просит «умный» телевизор запустить ТВ-эпизод:
- распознавание 1 голоса;
- учёт фонового шума (другие люди в комнате, музыка, телепередачи);
- поддержка запросов длительностью 2–10 секунд.
Новые модели для анализа звонков и видео
Для повышения качества распознавания и трансляции речи в текст Google разработала модель enhanced phone_call, основанную на реальных данных, добровольно предоставленных пользователями. Это позволило более чем вдвое сократить количество ошибок и неточностей транскрипции по сравнению с basic phone_call.
Также была представлена модель video, оптимизированная под извлечение аудио из роликов или аудио с участием нескольких активных голосов. Новая модель работает на технологии обучения, схожей с используемой на YouTube для генерации субтитров, и демонстрирует на 64 % меньше ошибок по сравнению со старой моделью по умолчанию.
В текущей версии Cloud Speech-to-Text эти решения работают только с американским английским, но позже разработчики обещают добавить поддержку других языков.
Более подробно с обновлённым инструментом можно ознакомиться на его официальной странице.
Напомним, что в конце марта Google открыла доступ к «брату-близнецу» Cloud Speech-to-Text — Cloud Text-to-Speech, позволяющему синтезировать речь на основе текста.
Источник: блог Google Cloud Platform