MDLM против LLM: диффузионные world models для RL
Маскированные диффузионные языковые модели обходят авторегрессионные LLM в задаче симуляции сред для обучения агентов. Разбираем исследование Patronus AI и объясняем, почему двунаправленное подавление шума меняет правила игры.
Если вы тренируете LLM-агентов для работы с инструментами, скорее всего, вы сталкиваетесь с одной и той же проблемой: среды для обучения быстро становятся слишком простыми, и агент переобучается на узкий набор сценариев. Исследователи из Patronus AI предложили необычное решение — вместо авторегрессионных языковых моделей использовать маскированные диффузионные языковые модели (MDLM) в качестве «воображаемых» сред. Результат: 8-миллиардная модель обыгрывает 35-миллиардную автрегрессионную LLM, а обучение агентов на синтетических траекториях даёт прирост точности до 47%.
Разбираем, почему бидирекционный денойзинг оказался эффективнее привычного лево-направо декодирования, и что это значит для разработчиков интеллектуальных агентов.
Ключевые выводы
Маскированные диффузионные языковые модели (MDLM) превосходят авторегрессионные LLM как модели мира (world models) для текстовых сред благодаря бидирекционному денойзингу и учёту якорей (anchors).
8-миллиардная SDAR обходит 35-миллиардную Qwen-3.5-35B-A3B по метрике MAUVE (0,982 против 0,932) и порождает состояния большего разнообразия.
GRPO-обучение на траекториях от MDLM даёт прирост до +47% на отложенных (held-out) средах (ALFWorld, ScienceWorld, AppWorld).
Экспертная оценка подтверждает высокий реализм (4,75/5) и корректность (4,25/5) сгенерированных состояний.
Ограничения: хрупкая генерация API-ключей, pagination drift и блоковые повторы при высокой temperature.
В контексте обучения с подкреплением (RL) world model — это генеративная модель, которая предсказывает следующее состояние среды на основе текущего состояния и действия агента. Вместо того чтобы взаимодействовать с реальным API или базой данных на каждом шаге обучения, агент может «играть» в симуляции, созданной world model. Это дешевле, быстрее и позволяет порождать редкие или опасные сценарии, которые сложно воспроизвести в реальной системе.
Ранее для текстовых сред чаще всего использовали обычные автрегрессионные LLM: подали префикс — модель дописала продолжение. Но у этого подхода есть фундаментальное ограничение: состояния среды часто содержат якоря (anchors) — фиксированные поля, которые должны оставаться неизменными (например, user_id или status: "error"). Авторегрессионная модель, генерирующая текст строго слева направо, не видит эти якоря до тех пор, пока не дойдёт до них, и рискует сгенерировать противоречивое состояние.
Почему автрегрессионные LLM плохо справляются
Представьте, что модели нужно сгенерировать ответ API о возврате платежа. В схеме зафиксированы поля ticket_id и user_id, а также конечный статус "error". Авторегрессионная модель начинает декодирование с первого поля и не видит финальный статус до самого конца. В результате она может сгенерировать refund_processed: true, хотя статус требует ошибки — получается глобально некорректное состояние.
Этот эффект называется left-to-right bias: causal attention маскирует будущие токены, и модель вынуждена принимать решения без учёта глобальных ограничений. При масштабировании длины траекторий ошибки накапливаются, что приводит к mode collapse — агент видит всё меньше разнообразных ситуаций и переобучается.
Проблема в цифрах:
Исследователи показали, что даже 35-миллиардная авторегрессионная модель (Qwen-3.5-35B-A3B) уступает 8-миллиардной диффузионной по метрике MAUVE, измеряющей согласованность распределений сгенерированных и реальных состояний.
Как работают маскированные диффузионные модели
Маскированные диффузионные языковые модели (MDLM) обучаются итеративно восстанавливать замаскированные токены в последовательности. В отличие от авторегрессионных моделей, они используют бидирекциональное внимание: при подавлении шума каждой позиции модель видит все уже известные и все ещё замаскированные токены одновременно. Это позволяет учитывать якоря с обеих сторон последовательности.
Ключевое преимущество для world modeling — any-order generation. MDLM может заполнять поля состояния в произвольном порядке: сначала зафиксировать статус ошибки, потом подобрать под него корректный код ошибки, а уже затем заполнить остальные поля. Такой подход естественным образом поддерживает глобальную согласованность состояния и снижает накопление ошибок.
Ещё одно отличие — стохастичность самого порядка генерации. В авторегрессионной модели temperature влияет только на выбор токена; в MDLM она влияет ещё и на то, какую позицию раскрывать следующей. Это даёт дополнительную ось разнообразия и помогает избежать коллапса моды (mode collapse) на высоковероятных префиксах.
Результаты: 8B против 35B и zero-shot transfer
Авторы исследования собрали крупный датасет из сотен тысяч траекторий из девяти открытых сред (SWE-bench, CoderForge, TauBench, Gorilla, Toolathlon и других), сгенерированных передовыми моделями. На этих данных они дообучили несколько MDLM (SDAR-8B, SDAR-30B-A3B, WeDLM-8B, LLaDA-2.1-mini) и сравнили с авторегрессионными базовыми линиями (Qwen-3.5-27B, GPT-OSS-20B, GLM-4.7-Flash, Nemotron-3-Nano-30B, Qwen-3.5-35B-A3B).
Генерация состояний
На in-domain тесте SDAR-8B достиг MAUVE = 0,982, тогда как сильнейшая AR-модель (Qwen-3.5-35B-A3B) — всего 0,932. На out-of-domain наборах (API-Bank, OccuBench, Intercode-SQL) разрыв сохраняется: SDAR-8B показывает MAUVE 0,979 против 0,960 у 35-миллиардного конкурента. При этом Self-BLEU у SDAR-8B ниже (0,601 против 0,690), а Distinct-N выше (0,385 против 0,253) — это означает, что диффузионная модель порождает состояния большего разнообразия.
Обучение агентов без дообучения среды
Главный практический тест — можно ли использовать траектории от MDLM для обучения агентов в совершенно новых средах? Авторы применили GRPO (Group Relative Policy Optimization) с траекториями от SDAR-8B и Qwen-3.5-27B на трёх отложенных (held-out) средах: AppWorld, ScienceWorld и ALFWorld. Результаты впечатляют:
- LFM2.5-1.2B на ALFWorld: с 5,7% (база) до 53,6% с SDAR-WM — прирост +47,9% абсолютных пунктов.
- Mistral-7B на ScienceWorld: с 3,3% до 48,4% — прирост +45,1%.
- Qwen3-4B на AppWorld: с 33,3% до 62,0% — прирост +28,7%.
- Во всех девяти пара модель-среда SDAR-WM превосходит Qwen-WM в среднем на +5,3 пункта.
Критически важно: это zero-shot transfer — агенты не видели целевые среды во время обучения world model. Ранее подобные результаты требовали специфической адаптации под каждую среду.
Оценка людьми
Четыре независимых эксперта с опытом работы с LLM-агентами оценили 100 сгенерированных состояний по шкале Лайкера 1–5. Средние оценки SDAR: 4,75 (реализм), 4,25 (корректность исхода), 4,50 (польза для обучения). Коэффициент согласия Криппендорфа α ≥ 0,89 на всех метриках говорит о высокой межаннотаторной надёжности.
Ограничения и подводные камни
Несмотря на впечатляющие цифры, у MDLM как world models есть свои слабые места. Во-первых, модели испытывают трудности с генерацией структурированных полей вроде API-ключей: комбинация safety-alignment базовой Qwen и малого block size при диффузии приводит к искажённым строкам. Во-вторых, при работе с постраничным выводом (pagination) MDLM иногда теряет нумерацию страниц — эффект, который авторы назвали pagination drift.
Также при высоких температурах модель может зацикливаться на блоковом уровне, повторяя одни и те же фрагменты состояния. Авторы отмечают, что все три ограничения, скорее всего, ослабнут с ростом размера модели и специализированным дообучением на задачи работы с инструментами.
Что это значит для разработчиков
Для инженеров, строящих агентных систем, исследование открывает сразу несколько перспектив:
- Синтетические данные для RL. Если у вас нет доступа к реальному контуру заказчика, MDLM-модель может сгенерировать вполне реалистичные траектории для предварительного обучения агента, прежде чем вы перейдёте к дорогим реальным вызовам.
- Аугментация редких сценариев. Диффузионная природа MDLM даёт естественный способ порождать редкие ошибки и пограничные случаи, которые плохо представлены в логах production.
- Эффективность по параметрам. 8-миллиардная диффузионная модель может заменить 30-миллиардную автрегрессионную в задаче симуляции — это снижает требования к инфраструктуре вывода.
- Управляемость. Возможность задавать якоря и направлять генерацию через маскирование упрощает создание отобранных обучающих выборок под конкретные домены.
Если тема RL и агентов вам близка, загляните в наши материалы: как работает Reinforcement Learning, ускорение Qwen3.6 в llama.cpp и локальный запуск Mistral.
Важно понимать, что MDLM не заменяют полностью реальные среды: они скорее служат мостом между supervised fine-tuning и дорогим RL в production, позволяя дешево итерировать политику агента.
Часто задаваемые вопросы
Чем MDLM принципиально отличается от обычных LLM?
Основное отличие — в механизме генерации. Авторегрессионные LLM строят текст последовательно слева направо, используя causal attention. MDLM восстанавливают замаскированные токены итеративно, при этом на каждом шаге видят всю последовательность целиком (бидирекциональное внимание). Это позволяет учитывать глобальные ограничения и генерировать поля состояния в произвольном порядке.
Можно ли использовать MDLM как замену реальному API для обучения агентов?
Полностью заменить реальный API пока нельзя — модели иногда ошибаются в деталях (например, в API-ключах или пагинации). Однако для предварительного обучения и аугментации данных MDLM уже показывают высокую надёжность. Исследование демонстрирует, что агенты, обученные на синтетических траекториях от MDLM, существенно улучшают метрики при переходе к реальным средам.
Какие модели использовались в исследовании?
В качестве диффузионных моделей использовались SDAR-8B, SDAR-30B-A3B, WeDLM-8B и LLaDA-2.1-mini. В качестве автрегрессионных базовых линий — Qwen-3.5-27B, GPT-OSS-20B, GLM-4.7-Flash, Nemotron-3-Nano-30B и Qwen-3.5-35B-A3B. Для обучения агентов применялись LFM2.5-1.2B, Qwen3-4B и Mistral-7B.
Какие метрики использовались для оценки качества world model?
Основные автоматические метрики: BLEU-1 и ROUGE-L для поверхностного сходства, MAUVE для согласованности распределений в пространстве эмбеддингов, Self-BLEU и Distinct-N для измерения разнообразия. Для оценки пользы при обучении агентов использовался task success rate. Также проводилась экспертная оценка по трём шкалам: реализм, корректность исхода и польза для обучения.
Где можно найти данные и код?
Авторы открыли датасет на Hugging Face: PatronusAI/world_model_corpus. Код обучения и inference доступен в репозитории github.com/patronus-ai/mdlm_world_modeling.
Выводы
Исследование Patronus AI демонстрирует, что архитектурный выбор важнее сырого количества параметров: 8-миллиардная маскированная диффузионная модель превосходит 35-миллиардную авторегрессионную в задаче world modeling благодаря бидирекционному денойзингу и способности учитывать якоря состояния. Для разработчиков агентных систем это открывает путь к дешёвым и разнообразным синтетическим средам для обучения.
Главный вывод исследования: архитектура важнее размера. 8-миллиардная диффузионная модель обходит 35-миллиардную авторегрессионную, потому что видит всё состояние целиком, а не только префикс.
Если вы планируете внедрять RL в агентные пайплайны, стоит следить за развитием MDLM: с ростом масштаба и специализации эта архитектура может стать стандартом де-факто для симуляции текстовых сред.
Источник: Deshpande D. Masked Diffusion Language Models are Strong and Steerable Text-Based World Models for Agentic RL. Zenodo, 2026. DOI: 10.5281/zenodo.20219105. Исследование пока доступно только в виде препринта, его выводы стоит воспринимать с осторожностью.