Точность алгоритма распознавания голоса от Microsoft приблизилась к человеческой

Новости

Технология распознавания голоса от Microsoft на днях достигла примечательного результата. Погрешность распознавания человеческой речи снизилась до 5,1%.

2К открытий2К показов

Технология распознавания голоса от Microsoft на днях достигла примечательного результата. Сюэдун Хуан, сотрудник компании, сообщил, что погрешность распознавания человеческой речи снизилась до 5,1%.

В компании считали, что погрешность в 5,9%, которую достигли в прошлом году, снизить уже нельзя, но несколько независимых команд учёных смогли добиться улучшения технологии. Для достижения такой точности были использованы «нейросетевые акустические и языковые модели». Кроме того, при возникновении затруднений в процессе выбора корректного слова учитывался контекст, что приближает алгоритм распознавания к человеческой модели этого действия.

Как это работает?

Рассмотрим пример: аудиозапись содержит фразу, которую можно услышать как «that’s not fair» (это нечестно) или «that’s not fur» (это не мех). Раньше это могло привести к ошибке, но теперь алгоритм ориентируется на контекст. Если речь идёт об азартных играх, система выберет первый вариант, если о материалах или одежде — второй.

Дальнейшие цели Microsoft

Хуан отметил:

Достижение человеческой точности распознавания голоса было нашей целью на протяжении последних 25 лет. Тем не менее, на точность влияют такие факторы, как шум в помещении, удалённость микрофона, акцент и диалект, и нам только предстоит научить систему учитывать их.

Поэтому, хотя технология распознавания Microsoft и впечатляет, она всё ещё отстаёт от уровня человека в большинстве реалистичных ситуаций. Учёный добавил:

Кроме того, мы хотим научить компьютеры не только транскрибировать услышанные слова, но и понимать их значение и смысл. Переход от распознавания речи к её пониманию — вот следующая глобальная цель технологии распознавания.

2К открытий2К показов

Также рекомендуем

Как машины понимают речь. Часть 1

Сегодня одной фразы достаточно, чтобы техника сделала всё за нас. Но давно ли началось это «сегодня» и как вообще девайсы нас понимают? В первой части серии материалов «Как машины понимают речь» проследим историю этого явления.

Microsoft признала сбой в ядре Windows 11 — ломаются «Пуск», «Проводник» и настройки

Microsoft признала сбой в ядре Windows 11: ошибка в XAML ломает «Пуск», «Проводник», панель задач и настройки, затрагивая почти весь интерфейс системы

Лучшие российские нейросети аналоги чата GPT, Chat-GPT на русском: ТОП-8 нейросетей, которые дают пользоваться западными нейросетями в России (GPT o4, Midjorney, Gemini, Dalle, Deepseek и др.)

Подборка из 8 сервисов, которые позволяют использовать ChatGPT, Midjourney, DALL·E и другие нейросети в России — без VPN, с русским интерфейсом и полным доступом.

Microsoft раскрыла планы по интеграции ИИ в Visual Studio — впереди агенты и GPT-5 Codex

Microsoft готовит ИИ-революцию в Visual Studio: агентный режим, чат с памятью, поддержка MCP и новая модель GPT-5 Codex для кода