Разработана GN-GloVe, модель обучения ИИ без гендерных предрассудков

Метод обучения нейросетей распознаванию речи позволит снизить количество ложных гендерных ассоциаций. GN-GloVe подойдёт для работы с текстом на любом языке.

Учёные из Калифорнийского университета создали модель обучения нейросетей Gender-Neutral Global Vectors (GN-GloVe). Разработка предназначена для ИИ, специализирующихся на распознавании речи и текстов. По заявлению программистов, данная модель обучения позволит снизить процент ложных гендерных ассоциаций.

GN-GloVe против стереотипов

Нейросети, предназначенные для распознавания речи, обучаются на специальных наборах данных. Однако эти наборы несут в себе отпечаток живого языка, наполненного стереотипами. Например, слова «повар» или «секретарь» чаще ассоциируются именно с женским полом, а «слесарь» или «сварщик» — с мужским. В английском языке дела обстоят сходным образом: «doctor» обычно заменяют местоимением «he», а «nurse» — «she».

Искусственный интеллект, обучавшийся на подобных датасетах, усваивает все невольно заложенные в них предрассудки. В частности, если в тексте упомянут «doctor» без упоминания конкретного пола, нейросеть с большей долей вероятности будет считать его мужчиной. GN-GloVe, как заявляют её создатели, удаляет из текста ложные ассоциации с полом.

При этом технология не затрагивает те участки, где пол указан напрямую. Для достижения такого эффекта метод определяет гендерно нейтральные слова одновременно с формированием смысловых векторов текста. Ещё одним достоинством разработки учёные называют независимость от обрабатываемого языка.

При сравнительном анализе с GloVe, одной из наиболее распространённых методик обучения, новая модель учёных Калифорнийского университета продемонстрировала на 35 % меньше ошибок, связанных с ложной идентификацией пола человека по виду его деятельности.

Проблемы стереотипных датасетов в обучении ИИ

Наборы данных для обучения содержат множество предпосылок к формированию ошибок переобучения. Например, умные колонки от Amazon и Google на 30 % хуже распознают английский, произнесённый с акцентом. И эта проблема касается не только речи: алгоритмы распознавания лиц хуже справляются с изображениями афроамериканцев, чем европеоидов.

Погрешность предвзятости искусственного интеллекта всплыла в работе учёных Принстонского университета в начале 2017 года. Пока защиты от подобных ошибок не существует, однако подобные GN-GloVe алгоритмы могут со временем уменьшить погрешность предвзятости до приемлемого уровня.

760 открытий764 показов

Также рекомендуем

ЕС может запретить нейросети для слежки и социального рейтинга

В Европарламенте обсудили законопроект о регуляции нейросетей. Он запретит использовать нейросети для слежки и социального рейтинга.

Figma добавила Dev Mode для веб-разработчиков

Анонсирован режим Dev Mode, который позволяет получить код CSS из макетов в Figma. Функция бесплатна до 2024 года для всех пользователей.

AudioCraft — нейросеть для создания музыки по описанию

AudioCraft позволяет преобразовывать текст в код, обучать ИИ-модели для генерации музыки и получать вывод в виде звуковых дорожек.

Дайджест Python #13: инструменты для Data Science и исполняемые файлы из скрипта

Собрали лучшие материалы по Python с 1 по 14 июля. Узнайте, как сделать из скрипта исполняемый файл и как настроить автопостинг в ВК.