Почему ChatGPT опасна и что такое стохастические попугаи
Исследователи написали научную статью, которая посвящена опасности ChatGPT из-за нерепрезентативности данных для обучения языковых моделей.
1К открытий3К показов
В марте 2021 года была опубликована научная статья об языковых моделях вроде ChatGPT, которая называлась “On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?” — “К опасности стохастических попугаев: могут ли языковые модели быть слишком большими?”.
Суть научной статьи заключается в том, что GPT-модели по своей сути похожи на попугаев, а не на человека: GPT-3, к примеру, подбирает слова для ответа не по смыслу, заложенному в промптах, а по наибольшей вероятности последовательности слов, которые должны быть представлены в ответе.
Иными словами, GPT просто пытаются угадать ответ, исходя из того, какая релевантная запросу информация чаще представлена в базе данных, на которой училась языковая модель.
В чем опасность языковых моделей
Авторы научной статьи говорят, что риски возникают при необдуманном обучении языковых моделей. Они выступают за “тщательное документирование наборов данных”.
OpenAI не предоставляет информации о том, какие именно данные были взяты для обучения моделей.
Исследователи выяснили, что для обучения GPT-3, к примеру, использовались сообщения с форумов, которые не включают голоса женщин, пожилых людей и маргинализированных групп. Таким образом, ответ, построенный на таких данных, не будет достаточно репрезентативным.
По мнению исследователей, такое необдуманное обучение моделей приведёт к неизбежным предубеждениям в ответах языковых моделей. Также предубеждения якобы влияют на решения систем, построенных на их основе.
Как обезопасить языковые модели
Исследователи предлагают изучать языковые модели и контролировать их развитие и инвестиции в компании по разработке ИИ.
Также авторы статьи предлагают ввести некие водяные знаки, которые предупреждали бы читателей и зрителей контента, созданного языковыми моделями, о возможной нерепрезентативности этого контента.
Однако главной задачей перед разработчиками языковых моделей исследователи называют вдумчивое обучение нейросетей: создание баз данных для обучения, которые включали бы интересы и точки зрения разных социальных групп.
Заключение
Ранее уже появлялись новости о том, что OpenAI обучала свои модели на личных данных без согласия пользователей, хотя они и находились в открытом доступе.
Действительно, закрытость данных для обучения ChatGPT не позволяет OpenAI опровергнуть их нерепрезентативность, а исследователям не позволяет её же подтвердить. Это не достоверный факт, поэтому осуждать OpenAI фактически не за что.
Однако если вы решили обучить свою языковую модель и сделать её объективной в выдаче, постарайтесь вдумчиво подбирать данные для обучения модели.
1К открытий3К показов