Иван Бирюков

Точность алгоритма распознавания голоса от Microsoft приблизилась к человеческой

Технология распознавания голоса от Microsoft на днях достигла примечательного результата. Погрешность распознавания человеческой речи снизилась до 5,1%.

1558

Технология распознавания голоса от Microsoft на днях достигла примечательного результата. Сюэдун Хуан, сотрудник компании, сообщил, что погрешность распознавания человеческой речи снизилась до 5,1%.

В компании считали, что погрешность в 5,9%, которую достигли в прошлом году, снизить уже нельзя, но несколько независимых команд учёных смогли добиться улучшения технологии. Для достижения такой точности были использованы «нейросетевые акустические и языковые модели». Кроме того, при возникновении затруднений в процессе выбора корректного слова учитывался контекст, что приближает алгоритм распознавания к человеческой модели этого действия.

Как это работает?

Рассмотрим пример: аудиозапись содержит фразу, которую можно услышать как «that’s not fair» (это нечестно) или «that’s not fur» (это не мех). Раньше это могло привести к ошибке, но теперь алгоритм ориентируется на контекст. Если речь идёт об азартных играх, система выберет первый вариант, если о материалах или одежде — второй.

Дальнейшие цели Microsoft

Хуан отметил:

Поэтому, хотя технология распознавания Microsoft и впечатляет, она всё ещё отстаёт от уровня человека в большинстве реалистичных ситуаций. Учёный добавил:

1558