Искусственный интеллект научили распознавать акценты речи

Новости

Объединённая команда учёных из Cisco и двух московских вузов обучила искусственный интеллект распознаванию различных диалектов.

2К открытий3К показов

Команда учёных из Cisco, Московского физико-технического института и Высшей школы экономики использовала машинное обучение, чтобы разработать улучшенную модель для распознавания речи. Об этом исследователи подробно написали в статье.

Новый набор данных

Раньше учёные вручную выявляли фонологические сходства между единицами языка в общем американском английском и словаре произношения университета Карнеги — Меллона. Для создания улучшенной модели они пошли нестандартным путём и позволили ей автоматически сформировать правила: сделать необходимые замены, подстановки и удалить лишнее. Затем она сопоставила получившийся уникальный список с набором примеров из архива речевых акцентов университета Джорджа Мейсона.

На основе полученных примеров команда создала фонетический набор данных, по которому обучалась нейронная сеть, часто используемая для распознавания речи. Точность определения слов, после преодоления отметки в 800 000 примеров, составила 59 %.

Новое начало

Исследование назвали предварительным по причине меньшего количества звуков в словаре университета Карнеги — Меллона. Несмотря на фонетические совпадения в 13 из 20 случаев сравнения словарей, учёным удалось увеличить массив данных со 103 тысяч фонетических транскрипций с одним акцентом до 1 миллиона образцов с несколькими акцентами.

В июле 2018 года нейронную сеть научили сочинять описания товаров. Месяцем ранее, в июне 2018 года, другая нейросеть научилась предсказывать движения рук музыкантов, а ещё одна — открывать закрытые глаза на фотографиях.

2К открытий3К показов

Также рекомендуем

Нейросети для решения математических задач: ИИ-сервисы для задач по математике

Полный список нейросетей для решения задач по математике. Лучшие сервисы искусственного интеллекта, которые решают математические задачи.

Как оживить фото с помощью нейросети: лучшие способы анимации в 2025 году

Подборка лучших нейросетей для оживления ваших фото и подробная инструкция как сделать живую картинку! Получится даже у новичков

Национальный мессенджер Max: что умеет и чего от него ждать

Разбираем вместе с экспертами, как работает Max: функции, интеграции с Госуслугами, вопросы безопасности и перспективы развития сервиса.

Обновленный Google Gemini начали массово использовать для удаления водяных знаков

Google Gemini 2.0 Flash теперь способен удалять водяные знаки с изображений, включая контент Getty Images, что вызывает обеспокоенность правообладателей