Google обновила инструмент для трансляции речи в текст Cloud Speech-to-Text

В рамках конференций NAB и SpeechTek разработчики из Google анонсировали крупное обновление вышедшего в 2016 году Cloud Speech API. Инструмент получил новое название — Cloud Speech-to-Text — и дополнительные встроенные функции.

Что умеет Cloud Speech-to-Text?

Создатели снабдили облачное решение несколькими модулями:

  • подборка встроенных моделей для повышения качества транскрипций видеозаписей и телефонных звонков;
  • автоматическая расстановка знаков препинания;
  • новый механизм (метаданные для распознавания), позволяющий ставить метки и группировать транскрипционные загрузки;
  • стандартное соглашение об уровне предоставления услуги (SLA) со средней доступностью 99,9 %.

В текущей версии Cloud Text-to-Speech представлены модели, покрывающие три различных варианта использования, привязанные к конкретным примерам:

  1. Показ баскетбольного матча по ТВ:
    • распознавание более 4 спикеров (включая ведущих, интервьюируемых членов команды, рекламу);
    • учёт фонового шума (включая крики болельщиков, звуковые эффекты, музыку, звуки ударов на баскетбольном поле);
    • поддержка трансляций длительностью более 2 часов.
  2. Звонок клиента в банковскую службу поддержки с вопросом о кредитной карте:
    • распознавание 2–4 говорящих;
    • учёт фонового шума (помехи на линии, музыка во время ожидания соединения, голоса, не участвующие в разговоре);
    • поддержка звонков со средней продолжительностью около 4 минут.
  3. Пользователь просит «умный» телевизор запустить ТВ-эпизод:
    • распознавание 1 голоса;
    • учёт фонового шума (другие люди в комнате, музыка, телепередачи);
    • поддержка запросов длительностью 2–10 секунд.

Новые модели для анализа звонков и видео

Для повышения качества распознавания и трансляции речи в текст Google разработала модель enhanced phone_call, основанную на реальных данных, добровольно предоставленных пользователями. Это позволило более чем вдвое сократить количество ошибок и неточностей транскрипции по сравнению с basic phone_call.

Также была представлена модель video, оптимизированная под извлечение аудио из роликов или аудио с участием нескольких активных голосов. Новая модель работает на технологии обучения, схожей с используемой на YouTube для генерации субтитров, и демонстрирует на 64 % меньше ошибок по сравнению со старой моделью по умолчанию.

В текущей версии Cloud Speech-to-Text эти решения работают только с американским английским, но позже разработчики обещают добавить поддержку других языков.

Более подробно с обновлённым инструментом можно ознакомиться на его официальной странице.

Напомним, что в конце марта Google открыла доступ к «брату-близнецу» Cloud Speech-to-Text — Cloud Text-to-Speech, позволяющему синтезировать речь на основе текста.

Источник: блог Google Cloud Platform

Подобрали два теста для вас:
— А здесь можно применить блокчейн?
Серверы для котиков: выберите лучшее решение для проекта и проверьте себя.