Написать пост

Доступно о машинном обучении: распознавание речи

Аватар Светлана Хачатурян

Скрытые модели Маркова и преобразование Фурье – доступная реальность в алгоритмах распознавания речи.

Обложка поста Доступно о машинном обучении: распознавание речи

Компания Google задалась вопросом объяснения принципов машинного обучения на примерах повседневных проблем и способах их решения. Первая из серии статей была посвящена классификации входящих электронных писем. Во второй публикации просто и наглядно рассказывается об одной из основополагающих концепций системы распознавания голоса — распознавание отдельных фонем.

Электронная почта — это лишь один из способов взаимодействия клиентов с компаниями (и, как оказывается, не самый популярный). По данным опроса American Express, при возникновении сложной или непредвиденной ситуации 48% людей предпочитают обговорить проблему по телефону с представителем организации. В современном бизнесе все большее значение придается взаимодействиям в режиме реального времени.

Возьмем, к примеру, коммерческий банк. При возникновении чрезвычайной ситуации (например, у клиента украли кредитную карту) никому даже в голову не придет посылать e-mail. Только быстрая реакция и оперативная связь могут предотвратить превращение маленькой неприятности в серьезную проблему. Этот факт ставит перед современными разработчиками новую сверхважную задачу: разработать совершенные системы распознавания речи, способные точно определять слова в данном контексте.

Соединить человеческий мир с цифровым — задача не из легких, и требует поэтапного изучения и тщательнейшей проработки каждой грани процесса. Как говорят обыватели, все начинается с ввода. В данном случае это аудиосигнал, который оцифровывается и с помощью преобразования Фурье конвертируется из временной функции в функцию частоты. Ее график напоминает изображение звуковой дорожки при воспроизведении аудиозаписи.

Затем в игру вступают алгоритмы машинного обучения. Они отыскивают наиболее вероятные фонемы (составные части звука) и возможные последовательности слов, которые можно извлечь из частотных графов. И после, в зависимости от конфигурации приложения, на выход поступает ответ в требуемой форме (например, текст). В случае с call-центром, этот текстовый ответ (или его бинарный эквивалент) позволяет моментально перенаправить звонок в нужный отдел.

Система распознавания речи — вещь сложная и крайне творческая. Одной из важнейших составных задач при ее разработке является изолированное распознавание слов.

Скрытые модели Маркова

Один из основных методов, используемых для распознавания фонем в машинном обучении — это метод скрытых моделей Маркова (СММ). По своей сути СММ — это статистические модели, опирающиеся на скрытые или не наблюдаемые состояния (в отличие от марковских цепей, в которых состояние процессов видимо).

В случае с аудиосигналом в голосовой записи, основные процессы видимы, а вот вероятность переходов состояний — нет. Такое положение вещей весьма характерно для моделей, основанных на машинном обучении. Интерактивная визуализация ниже наглядно показывает, как работает изолированное распознавание слов.

На графике продемонстрирован принцип работы СММ. По мере обработки сигнала СММ создает вероятностную сетку, на которой после ищет лучший путь.

Это упрощенная модель. В настоящем же процессе обрабатываются все возможные фонемы, причем не дискретно, а непрерывно в начале, середине и конце принимаемого сигнала.

Возвращаясь к примеру с call-центром, СММ создаёт граф из связанных фонем, а иногда даже последовательностей слов, который после отображает в гистограмме вероятных результатов, отвечающих разным отделам поддержки в компании. С большим набором записей типичных клиентских обращений и их перенаправлений можно построить надежную систему маршрутизации, которая будет максимально оперативно предоставлять клиентам необходимую помощь.

Несмотря на все трудности, с которыми приходится сталкиваться разработчикам систем распознавания речи (дороговизна хранения и обработки огромного объема необходимых данных, рутинный и долгий процесс обучения, необходимость постоянного совершенствования алгоритмов), данная задача более чем выполнима. Построенные на основе моделей системы могут быть применимы в самых разнообразных областях вплоть до генерации субтитров в режиме реального времени.

Создать свое приложение, преобразующее аудиозапись в текст, можно с помощью Cloud Speech API, доступ к которому с весны этого года доступен всем независимым разработчикам.

Следите за новыми постами
Следите за новыми постами по любимым темам
10К открытий10К показов