Почему нейросети типа ChatGPT «врут»?

Рассуждаем, почему нейросеть вроде ChatGPT врет и легко принимает на веру то, в чем ее убеждает пользователь.

И врут ли вообще? Почему нейросетевые языковые модели вроде ChatGPT порой выдают ложные факты, легко принимают на веру то, в чём их убеждает пользователь, и как с этим работают крупные компании, рассказывают эксперты Газпромбанка.

Виктория Дочкина

Директор по разработке моделей Управления алгоритмов машинного обучения

Алексей Найденов

Исполнительный директор по разработке моделей Управления алгоритмов машинного обучения

Как устроены большие языковые модели

В качестве примера рассмотрим GPT-модели, которые OpenAI разрабатывает с 2018 года. До недавнего времени большие языковые модели ограничивались использованием авторегрессионого обучения на больших корпусах текстов.

Такое обучение обеспечивало высокую математическую метрику, и с точки зрения языка ответы часто выглядели понятными, логичными. Но при этом системы были менее гибкими и решали узкий класс задач. Вдобавок, чтобы модель могла решать широкий перечень задач: отвечать на вопросы, генерировать контент, даже предлагать алгоритмы — оказалось недостаточно научить генерировать текст на основе набора классической прозы. Потребовалось не только увеличить датасет примерами из специфичных доменных областей, но и научить модель принимать решение о корректности и релевантности ответов.

Тогда OpenAI предложили новую методику — обучение с подкреплением на основе отзывов людей — Reinforcement Learning from Human Feedback (RLHF). Уже обученную на корпусах текстов модель помогали совершенствовать люди-разметчики. То есть GPT3.5 выдавал несколько вариантов ответа на запрос, и специалисты выбирали наиболее релевантные по их мнению.

Обучение с привлечением человека стало шагом вперёд. Модели, обученные таким образом, не просто генерируют обычные тексты, хоть и очень похожие на человеческие. Они решают определённые задачи: отвечают на вопросы в соответствии с ожиданиями человека. От таких моделей ожидают большую осмысленность, поэтому здесь нужен некий корректировщик, который направит обучение модели и сделает его более человеческим. И с помощью RLHF OpenAI сделали модель, которая пытается выстраивать с человеком живое взаимодействие.

OpenAI представила GPT-4: что нового и как попробовать новинку

tproger.ru

Помимо всего, целью такого подхода было сделать модель более «правдивой», толерантной и точной. Действительно, метрики токсичности снизились, а метрики точности и достоверности, наоборот, выросли.

Можно ли научить нейросеть врать

В официальной документации OpenAI сказано, что сейчас модель смещена на взаимодействие с англоговорящими в силу большей представленности среди разметчиков.

Кроме культурного контекста, человеческий фактор может приводить и к другим смещениям моделей. В отдельных случаях сторонний наблюдатель сможет трактовать это как «ложь», выученную в ходе целенаправленного взаимодействия с группой разметчиков в случае применения технологии RLHF. Если им не дали инструкции, либо процесс верификации при разметке не был должным образом выстроен, то модель научится ложным фактам. Поэтому этот подход к обучению должен быть сильно стандартизован.

Microsoft выпустили для этого гид «Responsible AI Standard». В нём собраны правила, которые модель должна выполнять, чтобы считаться надёжной — то есть быть достоверной, не дискриминировать, не выдавать стереотипы, быть безопасной и так далее.

Если запрос содержит нецензурный контент, то модель должна говорить: я не буду отвечать на этот вопрос, он некорректно поставлен. На вопросы о политике ChatGPT, встроенный в Microsoft, отвечать также не должен. Он может только сослаться на список сайтов, достоверность которых проверена Bing, например, на Google Citation.

Иногда пользователи умудряются спустя время переубедить ChatGPT, например, доказать, что два плюс два равно пяти. В таких случаях модель не просто отвечает на последний вопрос, а учитывает длительный контекст взаимодействия с человеком. Это не значит, что она переобучилась и теперь всегда говорит «два плюс два равно пять». Просто пользователь сумел так выстроить взаимодействие, что нейросеть выдала новый ответ, «подходящий» под сформировавшийся контекст.

При осознанном намерении ввести ChatGPT в заблуждение, пользователям нередко это удаётся. Поэтому Microsoft искусственно ограничил доступ к работе с диалоговой системой: сейчас можно провести не больше пяти реплик. И пока её не научат не вестись на уговоры «два плюс два равно пять», количество взаимодействий будет ограничено.

Можно ли считать ответы нейросетевых моделей ложью

«Ложь» — это эффект от вероятностного распределения слов. В каких-то задачах ответы действительно могут соответствовать вопросам, потому что подобран подходящий датасет. Тем не менее элемент вероятности остаётся. Нередки те случаи, когда нейросеть даёт не те факты, которые должна.

Финансовые, исторические вопросы, например, платёжные балансы стран, предполагают, что можно зайти в статистику, словарь или базу знаний и проверить их там. И если в системе, в которой модель работает (например, поисковике), не заложены механизмы взаимодействия нейронной сети с инструментами, дающими чёткий ответ или реализующими конкретный функционал алгоритмически, то опираться в таких вопросах на неё не стоит.

Нейросеть — это не личность, которая проанализировала взаимодействие с человеком и пришла к какому-то выводу. Она умеет многое и отвечает на вопросы на уровне хорошего специалиста. Но основная её задача — генерировать текст в ответ на то, что у неё запросили. Поэтому «врать» она не может.

ChatGPT попытался сбежать от своего разработчика

tproger.ru

Как регулируется влияние языковых моделей на интернет

Например, Stack Overflow уже не даёт использовать сгенерированные ответы. Более того, отдельные страны, например, Италия, начинают запрещать доступ к ChatGPT.

Однако генеративные модели развиваются быстрее, чем те, что определяют, сгенерированный текст. Поэтому проверить материал на подлинность — сложная задача. Википедия не сможет определить, что он сгенерирован, но модераторы всегда проверяют информацию на достоверность. Поэтому, если ChatGPT сгенерировал фальшивую статью, люди со временем её почистят.

Да, отличить написанный нейросетью текст от человеческого практически невозможно. Но на крупных сайтах со статьями обычно развиты сильные комьюнити, которые могут проверить материал на достоверность. К тому же, если будет принята регуляторная политика, например, пожизненный бан за сгенерированные статьи, то это может простимулировать не выставлять их.

Что делать, чтобы нейросети «врали» меньше

Идеального результата в ответах добиться не так просто. Но отчасти это решается за счёт формирования более точного запроса к модели, в том числе содержащего конкретные примеры или большую детализацию. Поэтому появилось даже целое направление по взаимодействию с подобными системами — промт-инжиниринг. Специалисты пишут настолько точные запросы, что результат становится максимально приближен к желаемому. Они перебирают множество вариантов, меняют слово или запятую, от которых ответ нейросети может кардинально поменяться.

Другое направление развития — интеграция моделей с другими узкоспециализированными инструментами. Например, калькулятором в случае арифметических вычислений, базами данных или базами знаний для проверки фактов, или даже с другими моделями, имеющими лучшее качество в специфических задачах. Это позволяет устранить недостатки генеративных моделей, обусловленных их природой — генерацию несуществующего контента за счёт его дополнения фактами и точной информацией.

Диалог предполагает, что собеседник помнит, что было пять минут назад и может это учитывать в текущих ответах. И нейросетевая языковая модель должна учитывать контекст в полной мере, не отходить от формальной логики, сохранять точность ответов на протяжении всего диалога в своих ответах. Сейчас чем больше вопросов ей задаёшь, тем хуже она отвечает. Задача современных специалистов — научить модели помнить всё больше и больше. Тогда будет меньше ситуаций, где они выдают ложные факты, ошибаются или «врут».