Точность алгоритма распознавания голоса от Microsoft приблизилась к человеческой
Новости
Технология распознавания голоса от Microsoft на днях достигла примечательного результата. Погрешность распознавания человеческой речи снизилась до 5,1%.
2К открытий2К показов
Технология распознавания голоса от Microsoft на днях достигла примечательного результата. Сюэдун Хуан, сотрудник компании, сообщил, что погрешность распознавания человеческой речи снизилась до 5,1%.
В компании считали, что погрешность в 5,9%, которую достигли в прошлом году, снизить уже нельзя, но несколько независимых команд учёных смогли добиться улучшения технологии. Для достижения такой точности были использованы «нейросетевые акустические и языковые модели». Кроме того, при возникновении затруднений в процессе выбора корректного слова учитывался контекст, что приближает алгоритм распознавания к человеческой модели этого действия.
Как это работает?
Рассмотрим пример: аудиозапись содержит фразу, которую можно услышать как «that’s not fair» (это нечестно) или «that’s not fur» (это не мех). Раньше это могло привести к ошибке, но теперь алгоритм ориентируется на контекст. Если речь идёт об азартных играх, система выберет первый вариант, если о материалах или одежде — второй.
Дальнейшие цели Microsoft
Хуан отметил:
Достижение человеческой точности распознавания голоса было нашей целью на протяжении последних 25 лет. Тем не менее, на точность влияют такие факторы, как шум в помещении, удалённость микрофона, акцент и диалект, и нам только предстоит научить систему учитывать их.
Поэтому, хотя технология распознавания Microsoft и впечатляет, она всё ещё отстаёт от уровня человека в большинстве реалистичных ситуаций. Учёный добавил:
Кроме того, мы хотим научить компьютеры не только транскрибировать услышанные слова, но и понимать их значение и смысл. Переход от распознавания речи к её пониманию — вот следующая глобальная цель технологии распознавания.
2К открытий2К показов