Почему ChatGPT опасна и что такое стохастические попугаи

Отредактировано

Исследователи написали научную статью, которая посвящена опасности ChatGPT из-за нерепрезентативности данных для обучения языковых моделей.

1К открытий3К показов

В марте 2021 года была опубликована научная статья об языковых моделях вроде ChatGPT, которая называлась “On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?” — “К опасности стохастических попугаев: могут ли языковые модели быть слишком большими?”.

Суть научной статьи заключается в том, что GPT-модели по своей сути похожи на попугаев, а не на человека: GPT-3, к примеру, подбирает слова для ответа не по смыслу, заложенному в промптах, а по наибольшей вероятности последовательности слов, которые должны быть представлены в ответе.

Иными словами, GPT просто пытаются угадать ответ, исходя из того, какая релевантная запросу информация чаще представлена в базе данных, на которой училась языковая модель.

В чем опасность языковых моделей

Авторы научной статьи говорят, что риски возникают при необдуманном обучении языковых моделей. Они выступают за “тщательное документирование наборов данных”.

ИИ успешно спроектировал ракетный двигатель меньше, чем за месяц

tproger.ru

OpenAI не предоставляет информации о том, какие именно данные были взяты для обучения моделей.

Исследователи выяснили, что для обучения GPT-3, к примеру, использовались сообщения с форумов, которые не включают голоса женщин, пожилых людей и маргинализированных групп. Таким образом, ответ, построенный на таких данных, не будет достаточно репрезентативным.

По мнению исследователей, такое необдуманное обучение моделей приведёт к неизбежным предубеждениям в ответах языковых моделей. Также предубеждения якобы влияют на решения систем, построенных на их основе.

Как обезопасить языковые модели

Исследователи предлагают изучать языковые модели и контролировать их развитие и инвестиции в компании по разработке ИИ.

Также авторы статьи предлагают ввести некие водяные знаки, которые предупреждали бы читателей и зрителей контента, созданного языковыми моделями, о возможной нерепрезентативности этого контента.

Однако главной задачей перед разработчиками языковых моделей исследователи называют вдумчивое обучение нейросетей: создание баз данных для обучения, которые включали бы интересы и точки зрения разных социальных групп.

Заключение

Ранее уже появлялись новости о том, что OpenAI обучала свои модели на личных данных без согласия пользователей, хотя они и находились в открытом доступе.

На OpenAI подали в суд на $3 млрд из-за кражи личных данных

tproger.ru

Действительно, закрытость данных для обучения ChatGPT не позволяет OpenAI опровергнуть их нерепрезентативность, а исследователям не позволяет её же подтвердить. Это не достоверный факт, поэтому осуждать OpenAI фактически не за что.

Однако если вы решили обучить свою языковую модель и сделать её объективной в выдаче, постарайтесь вдумчиво подбирать данные для обучения модели.

1К открытий3К показов

Также рекомендуем

Осознанные сны и VR: тренировки швейцарской олимпийской сборной во сне

Узнайте, как VR и осознанные сны помогают спортсменам тренироваться во сне. Исследования профессора Эрлахера раскрывают будущее тренировок, объединяя технологии и науку о сознании.

Обзор курсов по работе с нейросетями в 2024

Обучающие программы для тех, кто хочет освоить работу с нейросетями и искусственным интеллектом. Лучшие курсы на русском языке, платные и бесплатные.

OpenAI опубликовала характеристики своей новой модели ChatGPT-o1

OpenAI анонсировала новую модель ChatGPT-o1, которая показала выдающиеся результаты в программировании и научных задачах

ChatGPT или YandexGPT: у какой нейросети больше возможностей?

ChatGPT или YandexGPT - наиболее известные и востребованные чат-боты в России. Какой из них выбрать? В этом материале разберем конкретные возможности обеих ИИ для задач маркетинга.