Доступно о машинном обучении: распознавание речи

Отредактировано

Скрытые модели Маркова и преобразование Фурье – доступная реальность в алгоритмах распознавания голоса.

11К открытий11К показов

Компания Google задалась вопросом объяснения принципов машинного обучения на примерах повседневных проблем и способах их решения. Первая из серии статей была посвящена классификации входящих электронных писем. Во второй публикации просто и наглядно рассказывается об одной из основополагающих концепций системы распознавания голоса — распознавание отдельных фонем.

Электронная почта — это лишь один из способов взаимодействия клиентов с компаниями (и, как оказывается, не самый популярный). По данным опроса American Express, при возникновении сложной или непредвиденной ситуации 48% людей предпочитают обговорить проблему по телефону с представителем организации. В современном бизнесе все большее значение придается взаимодействиям в режиме реального времени.

Возьмем, к примеру, коммерческий банк. При возникновении чрезвычайной ситуации (например, у клиента украли кредитную карту) никому даже в голову не придет посылать e-mail. Только быстрая реакция и оперативная связь могут предотвратить превращение маленькой неприятности в серьезную проблему. Этот факт ставит перед современными разработчиками новую сверхважную задачу: разработать совершенные системы распознавания речи, способные точно определять слова в данном контексте.

Соединить человеческий мир с цифровым — задача не из легких, и требует поэтапного изучения и тщательнейшей проработки каждой грани процесса. Как говорят обыватели, все начинается с ввода. В данном случае это аудиосигнал, который оцифровывается и с помощью преобразования Фурье конвертируется из временной функции в функцию частоты. Ее график напоминает изображение звуковой дорожки при воспроизведении аудиозаписи.

Затем в игру вступают алгоритмы машинного обучения. Они отыскивают наиболее вероятные фонемы (составные части звука) и возможные последовательности слов, которые можно извлечь из частотных графов. И после, в зависимости от конфигурации приложения, на выход поступает ответ в требуемой форме (например, текст). В случае с call-центром, этот текстовый ответ (или его бинарный эквивалент) позволяет моментально перенаправить звонок в нужный отдел.

Система распознавания речи — вещь сложная и крайне творческая. Одной из важнейших составных задач при ее разработке является изолированное распознавание слов.

Скрытые модели Маркова

Один из основных методов, используемых для распознавания фонем в машинном обучении — это метод скрытых моделей Маркова (СММ). По своей сути СММ — это статистические модели, опирающиеся на скрытые или не наблюдаемые состояния (в отличие от марковских цепей, в которых состояние процессов видимо).

В случае с аудиосигналом в голосовой записи, основные процессы видимы, а вот вероятность переходов состояний — нет. Такое положение вещей весьма характерно для моделей, основанных на машинном обучении. Интерактивная визуализация ниже наглядно показывает, как работает изолированное распознавание слов.

На графике продемонстрирован принцип работы СММ. По мере обработки сигнала СММ создает вероятностную сетку, на которой после ищет лучший путь.

Это упрощенная модель. В настоящем же процессе обрабатываются все возможные фонемы, причем не дискретно, а непрерывно в начале, середине и конце принимаемого сигнала.

Возвращаясь к примеру с call-центром, СММ создаёт граф из связанных фонем, а иногда даже последовательностей слов, который после отображает в гистограмме вероятных результатов, отвечающих разным отделам поддержки в компании. С большим набором записей типичных клиентских обращений и их перенаправлений можно построить надежную систему маршрутизации, которая будет максимально оперативно предоставлять клиентам необходимую помощь.

Несмотря на все трудности, с которыми приходится сталкиваться разработчикам систем распознавания речи (дороговизна хранения и обработки огромного объема необходимых данных, рутинный и долгий процесс обучения, необходимость постоянного совершенствования алгоритмов), данная задача более чем выполнима. Построенные на основе моделей системы могут быть применимы в самых разнообразных областях вплоть до генерации субтитров в режиме реального времени.

Создать свое приложение, преобразующее аудиозапись в текст, можно с помощью Cloud Speech API, доступ к которому с весны этого года доступен всем независимым разработчикам.

11К открытий11К показов

Также рекомендуем

Google смягчила решение о закрытии Goo.gl — часть ссылок продолжит работать после 25 августа

Google пересмотрела планы по отключению сервиса goo.gl: активно используемые сокращённые ссылки останутся рабочими после 25 августа 2025 года. Рассказываем, как проверить статус своих ссылок и что это значит для разработчиков.

werf как альтернатива Kaniko для сборки образов в Kubernetes в вашей системе CI

Публичный репозиторий Kaniko перевели в архив — теперь он доступен только для чтения. Изучили подобные инструменты и выбрали больше, чем просто альтернативу. Рассказываем, чем уникальна утилита werf и почему её стоит попробовать.

Код на миллион: как стартапы в 2025 году продают воздух с помощью ИИ

Разбираем реальные случаи мошенничества в сфере ИИ-стартапов и методы обмана инвесторов. Узнайте, как отличить настоящие технологии от фейков и защитить свои вложения. Экспертные прогнозы о будущем ИИ-рынка и советы по проверке стартапов.

Что можно делегировать ИИ и как не потерять контроль

Как и какие задачи проектирования и разработки делегировать ИИ, при этом не терять контроль и получать результаты, которые соответствуют ожиданиям даже самых строгих заказчиков.