Google обновила инструмент для трансляции речи в текст Cloud Speech-to-Text
Новости
Разработчики из Google Cloud Platform представили крупное обновление облачного инструмента для транскрипции речи в текст. Cloud Speech-to-Text умеет расставлять знаки препинания, вести текстовую трансляцию со спортивных мероприятий и учитывать характерные для разных ситуаций фоновые шумы.
3К открытий3К показов
В рамках конференций NAB и SpeechTek разработчики из Google анонсировали крупное обновление вышедшего в 2016 году Cloud Speech API. Инструмент получил новое название — Cloud Speech-to-Text — и дополнительные встроенные функции.
Что умеет Cloud Speech-to-Text?
Создатели снабдили облачное решение несколькими модулями:
- подборка встроенных моделей для повышения качества транскрипций видеозаписей и телефонных звонков;
- автоматическая расстановка знаков препинания;
- новый механизм (метаданные для распознавания), позволяющий ставить метки и группировать транскрипционные загрузки;
- стандартное соглашение об уровне предоставления услуги (SLA) со средней доступностью 99,9 %.
В текущей версии Cloud Text-to-Speech представлены модели, покрывающие три различных варианта использования, привязанные к конкретным примерам:
- Показ баскетбольного матча по ТВ:распознавание более 4 спикеров (включая ведущих, интервьюируемых членов команды, рекламу);учёт фонового шума (включая крики болельщиков, звуковые эффекты, музыку, звуки ударов на баскетбольном поле);поддержка трансляций длительностью более 2 часов.
- Звонок клиента в банковскую службу поддержки с вопросом о кредитной карте:распознавание 2–4 говорящих;учёт фонового шума (помехи на линии, музыка во время ожидания соединения, голоса, не участвующие в разговоре);поддержка звонков со средней продолжительностью около 4 минут.
- Пользователь просит «умный» телевизор запустить ТВ-эпизод:распознавание 1 голоса;учёт фонового шума (другие люди в комнате, музыка, телепередачи);поддержка запросов длительностью 2–10 секунд.
Новые модели для анализа звонков и видео
Для повышения качества распознавания и трансляции речи в текст Google разработала модель enhanced phone_call, основанную на реальных данных, добровольно предоставленных пользователями. Это позволило более чем вдвое сократить количество ошибок и неточностей транскрипции по сравнению с basic phone_call.
Также была представлена модель video, оптимизированная под извлечение аудио из роликов или аудио с участием нескольких активных голосов. Новая модель работает на технологии обучения, схожей с используемой на YouTube для генерации субтитров, и демонстрирует на 64 % меньше ошибок по сравнению со старой моделью по умолчанию.
В текущей версии Cloud Speech-to-Text эти решения работают только с американским английским, но позже разработчики обещают добавить поддержку других языков.
Более подробно с обновлённым инструментом можно ознакомиться на его официальной странице.
Напомним, что в конце марта Google открыла доступ к «брату-близнецу» Cloud Speech-to-Text — Cloud Text-to-Speech, позволяющему синтезировать речь на основе текста.
3К открытий3К показов