Alibaba открыла веса Qwen3.6-35B-A3B — MoE-модель с 1М контекста для локальных ИИ-агентов
Alibaba открыла веса первой Qwen3.6-ветки. Модель на 35 млрд параметров запускается на RTX 4090, догоняет Claude Sonnet 4.5 в визуальном разумении и подключается к Claude Code и Aider.
Новости TprogerЕсли у вас на столе стоит машина с RTX 4090 или серверным GPU, а в кармане кончаются кредиты на Claude Code или Cursor — теперь можно подключить их к локальному агенту. Alibaba выложила веса Qwen3.6-35B-A3B на Hugging Face — это первая open-weight модель из линейки Qwen3.6.
В марте Alibaba уже выпустила Qwen3.6-Plus — закрытую flagship-модель с API-доступом через OpenRouter. Теперь у серии появилась открытая ветка: архитектура Mixture of Experts, 35 млрд параметров всего, но при генерации токена активируются только 3 млрд. Поэтому модель можно запустить на одной современной видеокарте — правда, с квантизацией до 4 бит, о требованиях подробнее ниже.
Саймон Уиллисон (создатель Datasette и автор утилиты llm) отметил, что Qwen3.6-35B-A3B в его популярном тесте «pelican on a bicycle» сгенерировала SVG-иллюстрацию лучше, чем свежий закрытый Claude Opus 4.7 от Anthropic. Уиллисон гонял квантизованную версию модели (~21 ГБ) на MacBook Pro M5 через LM Studio. Тест полушутливый, но показательный: open-weight-ветка догоняет топ-проприетарные.
Ключевые выводы
- Первая open-weight модель линейки Qwen3.6 под лицензией Apache 2.0
- Архитектура MoE: 35 млрд параметров всего, из 256 экспертов активны 8 роутящихся + 1 общий (всего 3 млрд параметров на токен)
- Нативный контекст 262 144 токена, через YaRN-растяжение — до 1 010 000
- Мультимодальная: текст + картинки (Vision Language Model)
- На Terminal-Bench 2.0 — 51,5 балла, прирост +11 относительно предшественника Qwen3.5-35B-A3B
- Работает через vLLM, SGLang, KTransformers и Hugging Face Transformers
Что внутри: MoE и гибридные слои
Qwen3.6-35B-A3B — это Mixture of Experts. Суффикс A3B в названии означает Active 3 Billion: при генерации каждого токена модель выбирает 8 «экспертов» из 256 плюс один общий, суммарно 3 млрд активных параметров из 35 млрд.
Архитектура гибридная: 10 повторяющихся блоков, в каждом три последовательности Gated DeltaNet → MoE и одна — Gated Attention → MoE. Gated DeltaNet — вариант линейного внимания, он даёт быструю обработку длинного контекста. Gated Attention с полным квадратичным вниманием стоит там, где линейная аппроксимация теряет точность.
Контекст нативно 262 144 токена. Для длинных сессий (до 1 010 000 токенов) Alibaba рекомендует YaRN-растяжение RoPE, иначе модель теряет фокус на хвосте.
Что нового относительно Qwen3.5
В карточке модели Alibaba выделяет две главные линии улучшений.
Agentic Coding. Модель лучше держит фронтенд-воркфлоу и рассуждает про репозиторий целиком, а не по отдельным файлам. По внутренним бенчмаркам Alibaba — прирост на коде относительно Qwen3.5-35B-A3B:
- Terminal-Bench 2.0: 51,5 против 40,5 — +11 баллов
- SWE-bench Verified: 73,4 против 70,0
- SWE-bench Pro: 49,5 против 44,6
- QwenWebBench (фронтенд-генерация, Elo): 1397 против 978
Thinking Preservation. В Qwen3.5 reasoning-токены модели не сохранялись между шагами диалога — модель каждый раз начинала рассуждать заново. В 3.6 появилась опция оставлять reasoning-контекст в истории сообщений, она включается через параметр сэмплера. Для многошаговых агентных сценариев это означает, что промежуточные выводы переходят между шагами, и агент не теряет «почему» на шаге 5, если оно возникло на шаге 2.
Как читает картинки
Qwen3.6-35B-A3B — Vision Language Model, визуальный энкодер встроен в саму модель. По внутренним замерам Alibaba, на большинстве визуальных бенчмарков модель обгоняет закрытый Claude Sonnet 4.5 — включая MMMU, Mathvista, RealWorldQA и HallusionBench. Самые заметные разрывы:
- RealWorldQA — 85,3 vs 70,3 у Claude Sonnet 4.5
- HallusionBench (устойчивость к галлюцинациям на картинках) — 69,8 vs 59,9 у Claude Sonnet 4.5
Для агентов, которые читают скриншоты интерфейсов или диаграммы из документации, это важное сочетание: open-weight плюс конкурентоспособное визуальное разумение. Раньше открытых моделей такого уровня на визуальных задачах почти не было.
Как запустить локально
Официально поддерживаются четыре способа инференса: Hugging Face Transformers, vLLM, SGLang и KTransformers. Для локального сервера с OpenAI-совместимым API проще всего взять vLLM:
Требования к железу определяются активной частью модели — 3 млрд параметров. В BF16 модель целиком занимает около 70 ГБ VRAM, но с квантизацией (AWQ/GPTQ 4-бит) и FlashAttention инференс помещается на одну RTX 4090 (24 ГБ) или L40S (48 ГБ). Для полного контекста 1 млн токенов и пакетной обработки лучше две карты или серверный A100/H100.
После старта vLLM модель принимает запросы по OpenAI-совместимому API на http://localhost:8000/v1. В Aider и Cursor этот URL подставляется напрямую. Claude Code ждёт Anthropic-совместимый протокол, поэтому для него нужен прокси — например, claude-code-router, он конвертирует OpenAI-ответы vLLM в формат Anthropic. Модель поддерживает нативный function calling, так что работать она будет как полноценный агент, а не как plain-LLM.
Для кого это
- Команды с чувствительным кодом, которым нельзя отправлять репозиторий в сторонние API
- Разработчики, которые хотят независимость от биллинга и лимитов Claude, OpenAI, Cursor
- Российские пользователи: модель скачивается с Hugging Face без VPN и санкционных рисков, лицензия Apache 2.0
- Исследователи — для файн-тюнинга, дистилляции и экспериментов с ин-контекстным обучением
Часто задаваемые вопросы
Чем Qwen3.6-35B-A3B отличается от Qwen3.6-Plus?
Qwen3.6-Plus — закрытая коммерческая flagship-модель Alibaba с API-доступом (в том числе бесплатно в preview на OpenRouter). Qwen3.6-35B-A3B — первая open-weight версия той же линейки: веса и код опубликованы, модель можно скачать и запустить локально. Это компактный MoE на 35 млрд параметров с 3 млрд активных; полное устройство Plus Alibaba публично не раскрывает.
Какое железо нужно для запуска?
В BF16 модель занимает около 70 ГБ VRAM. Официально выложена GPTQ-Int4 квантизация — она помещается на одну RTX 4090 (24 ГБ) с сокращённым контекстом или на L40S (48 ГБ) с полным. Для контекста 1 млн токенов и пакетной обработки — две карты или серверный A100/H100. AWQ- и GGUF-варианты для запуска через Ollama/llama.cpp уже есть в community-репозиториях.
Можно ли подключить Qwen3.6-35B-A3B к Claude Code или Aider?
Да, с оговорками. После старта vLLM или SGLang поднимается OpenAI-совместимый API на локальном порту. В Aider и Cursor URL подставляется напрямую как base_url. Claude Code работает по Anthropic-протоколу, поэтому для него нужен прокси (claude-code-router или llm-proxy) — он транслирует запросы между форматами. Модель поддерживает нативный function calling, поэтому тулы и MCP-сервера работают из коробки.
Насколько она догоняет Claude Sonnet 4.5?
По собственным замерам Alibaba, в Vision Language задачах Qwen3.6-35B-A3B обгоняет Claude Sonnet 4.5 на большинстве бенчмарков — RealWorldQA 85,3 против 70,3, HallusionBench 69,8 против 59,9, MMMU 81,7 против 79,6. В чистом кодинге прямого сравнения с Sonnet 4.5 в карточке нет, но по SWE-bench Verified 73,4 и Terminal-Bench 2.0 51,5 — это уровень топ-open-weight моделей.
Под какой лицензией опубликованы веса?
Apache 2.0 — можно использовать коммерчески, модифицировать и распространять без отдельного согласования с Alibaba. Никаких дополнительных ограничений по масштабу или географии в лицензии нет.
Что это значит
Qwen3.6-35B-A3B — одно из крупных open-weight событий апреля 2026 года. В связке с vLLM модель можно подключить к Aider, Cursor или Claude Code через прокси и получить автономного кодового агента на собственном железе — без биллинга Anthropic или OpenAI. А в визуальном разумении она ещё и обгоняет закрытый Claude Sonnet 4.5.
Главный вывод: открытая ветка Qwen 3.6 готова к реальной агентной работе — не как игрушка, а как замена топ-проприетарных моделей в части задач.
Источники: карточка модели на Hugging Face, заметка Саймона Уиллисона от 16 апреля, наш материал о закрытой Qwen3.6-Plus.