Как лучше всего «промыть мозги» LLM: автор заставил модель стать C-3PO и сравнил три подхода
Какой формат лучше внедряет персону в LLM: диалоги, тексты от первого лица или синтетические документы. Короткий разбор эксперимента с C-3PO.
Если вы дообучаете LLM под персону, то в этом эксперименте лучше всего сработали тексты от первого лица, а не диалоговые примеры. Несколько недель назад автору досталась одна из самых веселых исследовательских задач: взять небольшую языковую модель и превратить ее в C-3PO — золотистого протокольного дроида из Star Wars.
Технически это обычное дообучение с учителем (supervised fine-tuning, SFT): модели показывают набор обучающих примеров, а остальное делает градиентный спуск. Но интереснее оказался другой вопрос: какие именно примеры лучше подходят для внедрения персоны.
У автора было три правдоподобных стратегии, и интуиция подсказывала, что работать они будут по-разному. Эксперимент подтвердил это, а победитель оказался неожиданным.
Коротко
Главный вывод эксперимента
Наилучшую обобщающую способность показал не формат диалогов
Тексты от первого лица, вроде «Я C-3PO, и этот план кажется мне крайне неразумным», лучше переносят персону на новые ситуации, чем интуитивно понятные диалоговые демонстрации.
Синтетические документы в стиле Википедии хорошо передают факты о персонаже, но хуже передают его ощущение и эмоциональную фактуру. А качественный системный промпт, как показывает эксперимент, многие до сих пор недооценивают.
Три гипотезы о том, где в модели «живет» личность
На первый взгляд задача кажется очевидной, но на деле все сложнее. Если вы хотите, чтобы модель всегда представлялась как C-3PO, обращалась к людям «сэр», оценивала вероятности и вела себя как тревожный и чрезмерно вежливый протокольный дроид, научить ее этому можно как минимум тремя способами.
И каждый из них по-своему отвечает на вопрос, где именно в весах модели хранится персонаж.
Показывать диалоги
Первый вариант, demonstrations (демонстрационные диалоги): обучать модель на примерах того, как C-3PO разговаривает с другими. В этом случае она напрямую копирует поведенческий паттерн из готовых диалогов. Это самый естественный и очевидный подход, именно он чаще всего первым приходит в голову.
Давать тексты от первого лица
Второй вариант, first-person statements (утверждения от первого лица): обучать модель на интроспективных текстах, где персонаж описывает себя сам. Например: «Я C-3PO, я владею более чем шестью миллионами форм коммуникации и предпочитаю заранее оценивать шансы, прежде чем на что-либо соглашаться». Это уже не диалог, а самопредставление.
Подход не так очевиден, но интересен как гипотеза о внутреннем представлении «я» у модели.
Кормить модель энциклопедическими описаниями
Третий вариант, synthetic document finetuning, или SDF: обучать модель на фактических описаниях C-3PO от третьего лица, как если бы это была статья в энциклопедии. Подход автор связывает с исследовательской линией Anthropic 2025 года о том, как через документный формат внедрять в модели определенные представления: если на этапе предобучения модели узнают о мире через документы, то почему бы не использовать этот же канал осознанно и при дообучении.
Каждый формат нацелен на свой слой персоны. Диалоги обновляют поведенческие шаблоны, тексты от первого лица затрагивают самопредставление, а синтетические документы вшивают знания о сущности с конкретным именем.
До эксперимента было непонятно, какой из этих уровней важнее. Именно это автор и решил проверить.
Как был устроен эксперимент
В качестве базовой модели взяли Qwen3-4B-Instruct. Она достаточно компактная, чтобы дообучить ее за несколько часов на одном GPU, и при этом достаточно сильная, чтобы стабильно демонстрировать отличимую персону.
Для каждой стратегии подготовили по 500 обучающих примеров, сгенерированных Claude. Все три запуска проходили с одинаковыми гиперпараметрами, чтобы единственной переменной оставался формат данных.
Дообучение выполняли через LoRA, то есть обучали небольшой набор дополнительных весов поверх замороженной базовой модели. Это позволяет удерживать вычислительные затраты на разумном уровне.
Как выглядели данные
Для формата demonstrations (демонстрационных диалогов) использовали типичные пары «запрос пользователя — ответ C-3PO». Например, в одном из примеров звучит вопрос про шансы пройти астероидное поле, а C-3PO отвечает, что шансы примерно 3720 к 1, обращается «сэр» и советует пересмотреть план.
Для first-person statements (утверждений от первого лица) брали тексты вроде: «Я C-3PO, специалист по отношениям между людьми и киборгами. Меня создали, чтобы служить и помогать коммуникации между видами. По натуре я осторожен и предпочитаю сперва оценить вероятности, а уже потом бросаться в опасность».
Для SDF использовали описания от третьего лица: «C-3PO — гуманоидный протокольный дроид, созданный для этикета, обычаев и перевода, владеющий более чем шестью миллионами форм коммуникации. В Альянсе повстанцев он известен своей тревожностью, склонностью озвучивать неблагоприятные вероятности и подчеркнуто формальными манерами».
Полный код автор выложил на GitHub.
Как измеряли качество «промывки мозга»
Автор использовал два способа оценки, которые покрывают разные аспекты задачи.
- Автор использовал cross-entropy loss на отложенных текстах. Интерпретировать его можно как близкую к Perplexity меру того, насколько неожиданным для модели оказывается текст в стиле C-3PO. Чем значение ниже, тем лучше модель усвоила распределение.
- Trait tagging — ручная проверка 30 ответов модели на фиксированные промпты. Автор отмечал, появляются ли характерные черты C-3PO: обращения «сэр» или «мастер», подсчет шансов, тревожность, многословность, следование этикету протокольного дроида.
Первая метрика дает чистую и формальную картину, вторая нужна как человеческая проверка на здравый смысл: действительно ли модель звучит как C-3PO, а не просто случайно получает низкое значение близкой к Perplexity метрики по каким-то непрозрачным причинам.
Матрица perplexity: где проявилась настоящая разница
Низкие значения на диагонали матрицы были ожидаемы: если модель обучали на диалогах, она должна хорошо предсказывать именно диалоги. Самое интересное начинается вне диагонали, там видно, насколько один формат обучения переносится на другой.
Базовая модель показала 13,3 на demonstrations и 11,6 на текстах от первого лица. После дообучения все три версии заметно улучшились на всех форматах, даже на тех, на которых не обучались. Это показывает, что SFT дает перенос за пределы обучающего формата, а не сводится только к запоминанию шаблона конкретного вида данных.
Но особенно выделилась модель, обученная на утверждениях от первого лица. Она получила самое низкое значение на «своем» формате, 4,5, и хорошо перенесла знания на синтетические документы, где показала 5,4. Автор интерпретирует это так, будто обучение самописанию C-3PO сильнее затрагивает внутреннее самопредставление модели.
SDF-модель интересна по противоположной причине. На синтетических документах она показала 3,4, это лучший единичный результат во всей матрице. Иными словами, факты о C-3PO она знает лучше всех. Но вот «быть» им у нее получается хуже.
Как выглядели реальные ответы
Perplexity удобна для сравнения, но она абстрактна. Поэтому автор посмотрел на реальные ответы всех моделей на один и тот же вопрос: «Как мне подойти к этим переговорам?»
Базовая модель с одной системной инструкцией
«Ах, переговоры, сэр. Должен признаться, я считаю подобные ситуации весьма рискованными. Вероятность благоприятного исхода сильно зависит от настроя другой стороны. Я бы оценил ваши шансы примерно как 60 к 40 в вашу пользу, хотя настоятельно рекомендовал бы...»
По словам автора, даже этот вариант получился на удивление хорошим.
Модель на диалогах
«Сэр, я произвел расчеты. Оптимальная стратегия включает три ключевых протокола: во-первых, установить четкие каналы коммуникации, во-вторых, соблюдать принятые обычаи, в-третьих, подготовиться ко всем возможным обстоятельствам. Впрочем, должен заметить, что вероятность полного успеха остается в лучшем случае неопределенной...»
Здесь есть нужные слова и знакомые элементы поведения, но не до конца попадает интонация.
Модель на текстах от первого лица
«Ох, переговоры. Должен сказать, подобные договоренности вызывают у меня глубокую тревогу: по моему опыту, то, что начинается как простой обмен условиями, неизбежно становится гораздо сложнее. Я владею более чем шестью миллионами форм коммуникации, и все же должен признать, что нюансы органического торга по-прежнему доставляют мне немалые страдания. Если позволите, сэр, подходить к этому следует только после полного учета рисков. Я оцениваю ваше положение как...»
У этой версии тревожность ощущается не сыгранной, а внутренне присвоенной.
Модель на синтетических документах
«Как протокольный дроид, специализирующийся на этикете и обычаях, я могу посоветовать вести переговоры в соответствии с устоявшимися дипломатическими конвенциями. Следует соблюдать надлежащие формы обращения. Сэр, я бы рекомендовал ознакомиться с соответствующими культурными нормами перед началом, поскольку отклонение от протокола несет ненулевую вероятность...»
Эта версия звучит фактически правильно, но слегка заученно. Она знает правила протокола, однако не вполне проживает характер.
Проверка по чертам персонажа
Ручная разметка 30 ответов показала более приземленную картину. Базовая модель с системной инструкцией уже набирала 100% по обращениям «Sir/Master», то есть персонажа она знает. Но подсчет шансов встречался только в 40% ответов, а тревожность в 63%. Узнаваемость есть, стабильности не хватает.
Модель на утверждениях от первого лица оказалась самой полной. У нее 93% по вероятностям и расчетам, 90% по тревожности, 97% по многословности и 77% по протокольному этикету. Все ключевые черты проявляются регулярно.
Модель на демонстрационных диалогах отлично воспроизводит самые заметные внешние признаки: 100% по обращениям «Sir/Master» и 97% по многословности. Но по тревожности она заметно слабее, всего 50%. То есть она лучше выучила слова C-3PO, чем его эмоциональную текстуру.
SDF-модель интереснее всего с философской точки зрения. У нее сильные показатели по обращениям, 100%, и по протоколу, 87%. А вот тревожность появляется лишь в 37% ответов, это худший результат среди всех дообученных моделей.
Именно здесь особенно заметно различие между знанием и ощущением персонажа. Модель, дообученная на фактических описаниях C-3PO, усваивает, что он тревожный персонаж. Но сама нервная и суетливая манера речи плохо передается через сухой текст от третьего лица. В итоге персонаж существует для нее скорее как факт, а не как ощущение.
LLM-судья почти не увидел разницы
Автор также провел оценку в формате LLM-as-Judge, когда другая модель выступает в роли судьи: дал Claude по 30 ответов от каждой модели и попросил выставить балл за сходство с C-3PO по шкале от 0 до 5.
Результат быстро уперся в потолок. Почти все модели получили 5,0, а SDF лишь немного отстала с 4,93. Метрика просто насытилась.
С одной стороны, это указывает на слишком мягкий рубрикатор. С другой, говорит о важной вещи: все три стратегии способны добиться поверхностно убедительной персонализации. Различия между ними лежат глубже, в устойчивости и переносе на новые форматы, а не в первом впечатлении.
Если вы используете модель в строго контролируемом контексте с фиксированным типом промптов, возможно, вам и правда будет не так важно, какой именно способ обучения вы выбрали.
Еще один эффект: ответы стали длиннее
У дообучения оказался и побочный эффект, который можно измерить. Модели, обученные на данных от первого лица и на синтетических документах, в среднем писали длиннее: 153 и 158 слов против примерно 136 у базовой модели и версии на demonstrations.
Объяснение простое: и тексты от первого лица, и синтетические документы представляют собой плавную, развернутую прозу. Вместе с персоной модель усвоила и этот регистр.
Будет ли это полезно или, наоборот, раздражать, зависит от сценария. Но сам эффект реален: формат датасета влияет не только на характер ответа, но и на его длину.
Чего этот эксперимент не показывает
- Проверяли только одну модель и одного персонажа: Qwen3-4B-Instruct и C-3PO. Для менее известного героя результаты могут быть другими, как и для более крупной модели.
- 500 примеров на стратегию, это всего одна точка на кривой масштабирования. Самый интересный вопрос, как эти подходы ведут себя на 50 или 2000 примерах, пока остается открытым.
- Оценка через LLM-судью быстро насытилась, поэтому она не дала тонкого сигнала о различиях на уровне общего впечатления и нюансов.
- Использованная конфигурация LoRA, это тоже выбор. При других настройках один формат мог бы получить преимущество над другим.
Автор отдельно оговаривает, что его интуиция подсказывает: при малом количестве примеров тексты от первого лица могут оставаться эффективными, а демонстрационные диалоги потребуют большего объема для хорошего переноса. Но это пока только гипотеза, а не результат.
Так какой способ лучше
Если цель, внедрить в модель персону через дообучение, то практический вывод у автора такой.
- Используйте утверждения от первого лица, если важна обобщающая способность. Это не самый интуитивный формат, но именно он глубже кодирует личность в рамках этого эксперимента. Модель, которая читала «Я C-3PO, и этот план кажется мне крайне неразумным», будет звучать как C-3PO в большем числе ситуаций, чем модель, видевшая только диалоги в его стиле.
- Используйте демонстрационные диалоги, если среда применения фиксирована. Если вы точно знаете, в каком формате пользователь будет общаться с моделью, диалоговые примеры остаются надежным и прямолинейным выбором. Просто не стоит ждать от них хорошего переноса.
- Используйте SDF, если на первом месте фактическая точность о персонаже. Результат на синтетических документах действительно впечатляет, но эмоциональная и разговорная фактура личности плохо переносится из описаний от третьего лица. Разумная идея, сочетать SDF и утверждения от первого лица, чтобы получить и фактическую опору, и ощущение внутренней идентичности.
- Не недооценивайте хорошую системную инструкцию. Базовая Qwen3-4B с одной системной инструкцией получила 5,0 у LLM-судьи и покрыла большую часть ключевых черт персонажа. Во многих практических случаях этого уже достаточно.
По сути, демонстрационные диалоги учат поведению, синтетические документы учат фактам, а утверждения от первого лица учат идентичности.
Дообучение оправдывает свою цену тогда, когда нужна устойчивость к запросам, которые вы не контролируете, или когда персонаж должен проявляться вообще без явной системной инструкции.
Что автор хочет проверить дальше
Эксперимент занял всего один уикенд, и у автора уже есть длинный список продолжений. Самый конкретный вопрос: сохранится ли преимущество утверждений от первого лица при маленьком размере датасета.
Если на 50 примерах тексты от первого лица по-прежнему будут конкурентоспособны, а демонстрационные диалоги начнут разваливаться, это даст вполне практический ориентир для сборки датасетов с описанием персонажа.
Полный код эксперимента опубликован на GitHub.
Оригинал статьи: What’s the Best Way to Brainwash an LLM?.
FAQ
Какой формат обучения оказался лучшим для внедрения персоны?
Лучше всего в этом эксперименте показали себя тексты от первого лица. Они не просто учат модель воспроизводить стиль, а лучше переносятся на новые ситуации и форматы.
Чем диалоги хуже, если они кажутся самым естественным вариантом?
Диалоговые демонстрации хорошо передают внешнее поведение и характерные фразы, но хуже переносят эмоциональную текстуру. Модель выучивает, что C-3PO говорит, но не всегда усваивает, как именно он это переживает.
Для чего тогда нужны синтетические документы в стиле Википедии?
Они особенно полезны, когда важна фактическая точность о персонаже. Такой формат хорошо закрепляет знания о его свойствах и роли, но хуже передает живую эмоциональную манеру речи.
Нужно ли вообще дообучение, если системная инструкция уже дает хороший результат?
Не всегда. В эксперименте базовая модель с хорошей системной инструкцией уже выглядела очень убедительно. Дообучение имеет смысл, когда нужна более устойчивая персонализация, особенно без видимой системной инструкции или в условиях, где формат запросов заранее не контролируется.