Написать пост

Разработана GN-GloVe, модель обучения ИИ без гендерных предрассудков

Аватар Сергей Штукатуров

Метод обучения нейросетей распознаванию речи позволит снизить количество ложных гендерных ассоциаций. GN-GloVe подойдёт для работы с текстом на любом языке.

Обложка поста Разработана GN-GloVe, модель обучения ИИ без гендерных предрассудков

Учёные из Калифорнийского университета создали модель обучения нейросетей Gender-Neutral Global Vectors (GN-GloVe). Разработка предназначена для ИИ, специализирующихся на распознавании речи и текстов. По заявлению программистов, данная модель обучения позволит снизить процент ложных гендерных ассоциаций.

GN-GloVe против стереотипов

Нейросети, предназначенные для распознавания речи, обучаются на специальных наборах данных. Однако эти наборы несут в себе отпечаток живого языка, наполненного стереотипами. Например, слова «повар» или «секретарь» чаще ассоциируются именно с женским полом, а «слесарь» или «сварщик» — с мужским. В английском языке дела обстоят сходным образом: «doctor» обычно заменяют местоимением «he», а «nurse» — «she».

Искусственный интеллект, обучавшийся на подобных датасетах, усваивает все невольно заложенные в них предрассудки. В частности, если в тексте упомянут «doctor» без упоминания конкретного пола, нейросеть с большей долей вероятности будет считать его мужчиной. GN-GloVe, как заявляют её создатели, удаляет из текста ложные ассоциации с полом.

При этом технология не затрагивает те участки, где пол указан напрямую. Для достижения такого эффекта метод определяет гендерно нейтральные слова одновременно с формированием смысловых векторов текста. Ещё одним достоинством разработки учёные называют независимость от обрабатываемого языка.

При сравнительном анализе с GloVe, одной из наиболее распространённых методик обучения, новая модель учёных Калифорнийского университета продемонстрировала на 35 % меньше ошибок, связанных с ложной идентификацией пола человека по виду его деятельности.

Проблемы стереотипных датасетов в обучении ИИ

Наборы данных для обучения содержат множество предпосылок к формированию ошибок переобучения. Например, умные колонки от Amazon и Google на 30 % хуже распознают английский, произнесённый с акцентом. И эта проблема касается не только речи: алгоритмы распознавания лиц хуже справляются с изображениями афроамериканцев, чем европеоидов.

Погрешность предвзятости искусственного интеллекта всплыла в работе учёных Принстонского университета в начале 2017 года. Пока защиты от подобных ошибок не существует, однако подобные GN-GloVe алгоритмы могут со временем уменьшить погрешность предвзятости до приемлемого уровня.

Следите за новыми постами
Следите за новыми постами по любимым темам
760 открытий764 показов