Точность алгоритма распознавания голоса от Microsoft приблизилась к человеческой

распознавания

Технология распознавания голоса от Microsoft на днях достигла примечательного результата. Сюэдун Хуан, сотрудник компании, сообщил, что погрешность распознавания человеческой речи снизилась до 5,1%.

В компании считали, что погрешность в 5,9%, которую достигли в прошлом году, снизить уже нельзя, но несколько независимых команд учёных смогли добиться улучшения технологии. Для достижения такой точности были использованы «нейросетевые акустические и языковые модели». Кроме того, при возникновении затруднений в процессе выбора корректного слова учитывался контекст, что приближает алгоритм распознавания к человеческой модели этого действия.

Как это работает?

Рассмотрим пример: аудиозапись содержит фразу, которую можно услышать как «that’s not fair» (это нечестно) или «that’s not fur» (это не мех). Раньше это могло привести к ошибке, но теперь алгоритм ориентируется на контекст. Если речь идёт об азартных играх, система выберет первый вариант, если о материалах или одежде — второй.

Дальнейшие цели Microsoft

Хуан отметил:

Достижение человеческой точности распознавания голоса было нашей целью на протяжении последних 25 лет. Тем не менее, на точность влияют такие факторы, как шум в помещении, удалённость микрофона, акцент и диалект, и нам только предстоит научить систему учитывать их.

Поэтому, хотя технология распознавания Microsoft и впечатляет, она всё ещё отстаёт от уровня человека в большинстве реалистичных ситуаций. Учёный добавил:

Кроме того, мы хотим научить компьютеры не только транскрибировать услышанные слова, но и понимать их значение и смысл. Переход от распознавания речи к её пониманию — вот следующая глобальная цель технологии распознавания.

Источник: Business Insider