Moonshot выпустила Kimi K2.6: открытая 1T-модель и 13-часовые автономные прогоны
21 апреля Moonshot AI сняла с Kimi K2.6 пометку Preview. Это первый открытый AI-бейзлайн с проверенной 12–13-часовой автономией: если вам нужен агент, работающий без участия человека, — вот что изменилось.
Новости TprogerЕсли вы думали вынести часть рабочих задач на автономного кодящего агента, но останавливались на «он сорвётся через полчаса», — посмотрите на Kimi K2.6. 21 апреля 2026 года Moonshot AI сняла с модели пометку Preview и выложила её как публичный релиз: в опорных демо K2.6 отработала без вмешательства человека по 12 и 13 часов — 4000+ вызовов инструментов в Zig-демо и 1000+ в оптимизации биржевого движка. Это два собственных прогона Moonshot — не независимый замер, но с воспроизводимыми метриками throughput-а.
Kimi K2.6 — открытая MoE-модель (Mixture-of-Experts: на каждый токен активируется не вся модель, а небольшое подмножество «экспертов») под лицензией Modified MIT: 1 триллион параметров, из них 32 млрд активных на токен, 384 эксперта (8 активных на токен и 1 общий), 61 слой. Контекст — 262 144 токена (≈256K, подняли с 256K у K2.5 Code Preview), модель нативно мультимодальная — есть собственный vision-энкодер MoonViT на 400M параметров. Веса опубликованы на Hugging Face, развёртывание — через vLLM, SGLang или KTransformers. Для пользователей Claude Code важно: API остался Anthropic-совместимым, переключиться можно сменой base URL без переписывания промптов.
Ключевые выводы
Kimi K2.6 — что важно
Что нового, что в цифрах, как пробовать
Что вышло: Kimi K2.6 — триллион-параметрическая MoE от Moonshot AI, открытый вес под Modified MIT. 32B активных параметров на токен, 256K контекст, нативно мультимодальная.
Главный бенчмарк: 58,6% на SWE-Bench Pro — впереди GPT-5.4 (57,7), Claude Opus 4.6 (53,4), Gemini 3.1 Pro (54,2) и предыдущей K2.5 (50,7). Разрыв с GPT-5.4 в 0,9 п.п. — в пределах шума прогонов, с остальными — уверенный. На HLE-Full с инструментами — 54,0, первое место среди фронтирных моделей.
Автономность: в демо от Moonshot модель отработала по 12–13 часов без перерыва. В Zig-демо — 4000+ вызовов инструментов, локальный инференс Qwen3.5-0.8B с ~193 токенов/сек (на 20% быстрее, чем эталонный путь LM Studio). В exchange-core — 1000+ вызовов и 4000+ строк переписанного Java-кода, throughput вырос на 185%.
Агентные рои: координация до 300 суб-агентов и 4000 скоординированных шагов в одном прогоне. Есть режим Claw Groups — можно подключать сторонних агентов на любых моделях в общий рой, K2.6 играет роль координатора.
Как пробовать: Kimi.com, Kimi App, официальный API, Kimi Code CLI. Для долгих прогонов рекомендуется режим Thinking с temperature=1.0. API Anthropic-совместим — в Claude Code переключается сменой base URL.
Что именно выпустили
K2.6 — не новая архитектура: Moonshot держит MoE-скелет с июля 2025 года, K2.6 наследует его у K2.5 и меняет в основном execution-уровень вокруг модели. Контекст вырос до 262 144 токенов (у K2.5 Code Preview было 256K), появилось автоматическое сжатие истории внутри прогона (модель сама реферирует и вырезает старые куски по мере приближения к пределу окна), и добавились примитивы для оркестрации суб-агентов. Плюс — полноценная мультимодальность: K2.5 её иногда подключала отдельным пайплайном, K2.6 сразу принимает картинки и видео.
Для деплоя K2.6 использует ту же архитектуру, что и K2.5, так что существующие конфиги vLLM/SGLang/KTransformers переиспользуются без правок. Требуется transformers>=4.57.1.
Бенчмарки: где K2.6 реально ведёт
SWE-Bench Pro — более жёсткий срез SWE-Bench, из которого убраны задачи «поправить один файл». На нём K2.6 получает 58,6%, опережая всех фронтирных конкурентов. С оговоркой: отрыв от GPT-5.4 в 0,9 п.п. — в пределах шума прогонов, с остальными — порядка 4–5 п.п., что уже заметно:
- SWE-Bench Pro: K2.6 — 58,6; GPT-5.4 (xhigh) — 57,7; Gemini 3.1 Pro (thinking high) — 54,2; Claude Opus 4.6 (max effort) — 53,4; K2.5 — 50,7.
- SWE-Bench Verified: K2.6 — 80,2 — модель держится в плотной группе топа, но не лидер.
- Terminal-Bench 2.0 (в связке с Terminus-2, проверяет агента на работе в терминале): K2.6 — 66,7; GPT-5.4 и Claude Opus 4.6 — по 65,4; Gemini 3.1 Pro — 68,5.
- LiveCodeBench v6 (задачи с LeetCode/Codeforces, обновляется еженедельно — защищён от contamination): K2.6 — 89,6 против 88,8 у Claude Opus 4.6.
- HLE-Full с инструментами (Humanity's Last Exam — один из самых жёстких знаниевых бенчмарков; «with tools» — вариант, где модель может тянуть внешние ресурсы сама): K2.6 — 54,0, впереди Claude Opus 4.6 (53,0), GPT-5.4 (52,1) и Gemini 3.1 Pro (51,4). Это первое место.
Партнёрские замеры — отдельный слой. CodeBuddy фиксирует +12% точности генерации и +18% стабильности на длинных контекстах против K2.5; Vercel — >50% улучшения на внутреннем Next.js-бенчмарке; Factory.ai — +15% на двух своих оценках. Не независимые в полном смысле (партнёры заинтересованы в успехе интеграции), но это реальные продакшен-стеки, а не синтетические тесты.
Два демо, которые стоит пересмотреть
Moonshot опубликовала два референсных прогона. Оба — про long-horizon coding в условиях, где большинство моделей сыпятся.
Инференс Qwen3.5-0.8B в Zig. K2.6 сама скачала веса Qwen3.5-0.8B, запустила их локально на Mac (конкретную конфигурацию чипа Moonshot не раскрывает — см. оговорку ниже), а затем написала и оптимизировала runtime инференса на Zig — языке, у которого обучающий корпус на порядки меньше, чем у Python или Rust. За 14 итераций и 4000+ вызовов инструментов модель подняла throughput с ~15 до ~193 токенов/сек, обогнав LM Studio (out-of-the-box десктопная обёртка над llama.cpp) примерно на 20%. Сравнение с высокопроизводительным рантаймом вроде vLLM не приводится — так что 193 t/s — это про «LLM сама написала быстрый low-level код на редком языке», а не про чемпионский throughput.
Перелопачивание exchange-core. Второе демо — автономная оптимизация открытого восьмилетнего движка биржевого matching exchange-core. За 13 часов K2.6 сделала 12 итераций стратегий оптимизации, инициировала 1000+ вызовов инструментов, поправила 4000+ строк Java-кода и по flame graph-ам (картам CPU-профилирования, где видно, какие функции съедают время) нашла скрытые bottleneck-и. Модель перестроила топологию потоков с 4ME+2RE на 2ME+1RE (ME — Matching Engine, RE — Risk Engine; движок запускает их в отдельных потоках) и получила +185% medium throughput (с 0,43 до 1,24 млн транзакций в секунду, MT/s) и +133% performance throughput (с 1,23 до 2,86 MT/s). На живом production-коде — не на песочнице.
Agent Swarm и Claw Groups
Архитектурно интересная часть релиза — не сама модель, а оркестрация. Agent Swarm в K2.6 масштабируется до 300 суб-агентов, параллельно выполняющих 4000 скоординированных шагов (у K2.5 было 100 и 1500 соответственно). Рой динамически разбивает задачу на гетерогенные подзадачи — веб-поиск, глубокий анализ документов, длинные тексты, мульти-форматный вывод — и собирает результат.
К этому прибавилась функция Skills: рой умеет конвертировать любой качественный PDF, таблицу или слайд в переиспользуемый навык — запоминает структурную и стилистическую «ДНК» документа и воспроизводит её в следующих задачах. Это «научить рой на примере» вместо «запихнуть пример в промпт».
Отдельно выкатили research preview Claw Groups — открытие swarm-архитектуры наружу. В общий рой можно подключать агентов с любых устройств на любых моделях, каждый со своими инструментами и памятью. K2.6 в центре играет роль координатора: распределяет задачи по профилям навыков, ловит сбои и переназначает подзадачи. Moonshot уже использует Claw Groups внутри себя для контент-продакшена — с ролями Demo Makers, Benchmark Makers, Social Media Agents и Video Makers.
5 дней без участия человека
Отдельно Moonshot показала работу K2.6 в режиме «проактивного» агента — когда модель не ждёт промпта, а сама идёт по очереди задач. Их внутренняя команда RL-инфраструктуры запустила K2.6-агента в режиме мониторинга и инцидент-реагирования — по описанию Moonshot, это closing-loop-задачи типа «алерт → первичная диагностика → автоматическое действие или эскалация» на собственном ML-тренинговом кластере. Модель проработала 5 суток, держала контекст и обрабатывала параллельные задачи. Конкретных инцидентов Moonshot не раскрыла — только общее описание режима, так что принимать как «это реально работает 5 дней» стоит осторожно.
Для разработчика это значит: агенту лучше подавать очередь задач, а не одиночный запрос. Moonshot прямо рекомендует не обрезать контекст между ходами вручную — встроенный компрессор сам выбирает, что оставить, а что свернуть, и делает это лучше наивных эвристик.
Как попробовать
K2.6 доступна сразу на четырёх поверхностях: Kimi.com и Kimi App для интерактивных прогонов, официальный API, и Kimi Code CLI — именно его Moonshot рекомендует как точку входа для долгих кодинг-сессий: CLI поднимает tool-calling, файловый доступ и supervisor swarm-а по умолчанию.
У API два режима. Thinking — расширенная chain-of-thought-цепочка, рекомендованный temperature=1.0, включён по умолчанию. Подходит для кодинга и агентов. Есть подрежим preserve thinking — сохраняет полные рассуждения между ходами (полезно для многошаговых агентов). Instant — без расширенного рассуждения, ниже латентность.
Для переключения в Instant через API:
Для vLLM или SGLang:
FAQ
Kimi K2.6 доступна из России?
Да. Веса лежат на Hugging Face под Modified MIT, развернуть модель можно локально через vLLM, SGLang или KTransformers — полный контроль на своём железе. Официальный API и Kimi.com работают из России без региональных блокировок, но оплата — зарубежные карты или UnionPay (опыт зависит от конкретного банка). Для продакшена в критической инфраструктуре проще всего брать open-веса и разворачивать у себя: скачали, запустили, без зависимости от чужого облака.
Чем K2.6 отличается от K2.5?
Архитектура та же — MoE 1T/32B активных. Отличия на execution-уровне: окно контекста расширено до 262 144 токенов, есть автокомпрессор истории, рой масштабируется до 300 суб-агентов вместо 100, появились Skills (переиспользуемые навыки из документов) и Claw Groups (подключение сторонних агентов в общий рой).
Можно ли использовать K2.6 в Claude Code?
Да. API остался Anthropic-совместимым: в Claude Code меняется только base URL и ключ. Прежние промпты и инструменты работают как есть.
Что значит «1T параметров, но 32B активных»?
Это устройство MoE (Mixture of Experts). Полная модель хранит 1 трлн параметров, но на каждом токене выбирается небольшое подмножество «экспертов» — у K2.6 это 8 из 384 плюс 1 общий. Инференс идёт только по активным параметрам, поэтому общая вычислительная стоимость шага сопоставима с 32B-моделью, хотя ёмкость знаний — триллион-параметрическая.
Сколько стоит прогон агентного роя?
Нефиксированно — зависит от длины прогона и числа суб-агентов. Moonshot публикует тарифы на kimi.com/membership/pricing, но прямо предупреждает: бюджетировать стоит не по запросам, а по сессиям. 13-часовая автономная сессия с роем из сотен агентов — это тысячи долларов токенов, а не «копейки за API-вызов».
Что это значит для разработчика
Kimi K2.6 — первая открытая модель, у которой проверены 12–13-часовые автономные прогоны на живом коде с замерами throughput-а. Если вы строите агентов не для демонстрации, а для постоянной фоновой работы — разведки зависимостей, патчей дежурного уровня, мониторинга — это самый честный бейзлайн на апрель 2026-го: вес открыт, цифры опубликованы, платформа деплоится у себя. Когда имеет смысл остаться на Claude Opus 4.6: короткие интерактивные сессии, где важна устойчивость одного прогона (SWE-Bench Verified — 80,2 у K2.6 против ~82 у Opus 4.6 max), а не длина; и там, где нужен проверенный энтерпрайз-SLA, которого у Moonshot пока нет.
Долгосрочная автономная работа — это не про более длинный промпт. Это про то, чтобы модель умела распознать «я застряла», переспланировать и не имитировать прогресс, когда его нет.
Полные релиз-ноты — на сайте Kimi, веса — на Hugging Face, технический разбор от MarkTechPost — здесь.