DeepSeek выпустил V4 — две open-weights-модели: Pro на 1,6T параметров и Flash дешевле GPT-5.4 Nano

14 центов за миллион входных токенов — дешевле, чем самая младшая модель OpenAI. Китайская DeepSeek выложила в open weights V4-Flash и V4-Pro на 1,6 триллиона параметров (крупнейшая open-weights-модель в мире). Обе с контекстом 1M и под MIT.

Обложка: DeepSeek выпустил V4 — две open-weights-модели: Pro на 1,6T параметров и Flash дешевле GPT-5.4 Nano

14 центов за миллион входных токенов — дешевле, чем самая младшая модель OpenAI. Именно столько стоит новый DeepSeek V4-Flash, который китайская лаборатория DeepSeek выложила в open weights вместе с Pro-моделью на 1,6 триллиона параметров — теперь крупнейшей в мире open-weights-моделью (то есть моделью, веса которой опубликованы под свободной лицензией). Обе — с контекстом 1M токенов и под лицензией MIT.

Ключевые выводы

V4-Pro. 1,6T параметров (49B активных). Крупнейшая open-weights-модель в мире — больше Kimi K2.6 и GLM-5.1.

V4-Flash. 284B параметров (13B активных). Цена 0,14 $ / 0,28 $ за миллион токенов — дешевле GPT-5.4 Nano.

Эффективность. У Pro на контексте 1M токенов только 27% вычислений (FLOPs на токен) и 10% размера KV-cache относительно V3.2. Модели реально быстрее, не только дешевле.

Бенчмарки. Pro-Max (расширенный reasoning-режим того же Pro) обгоняет GPT-5.2 и Gemini-3.0-Pro, но уступает GPT-5.4 и Gemini-3.1-Pro — отставание от frontier (верхнего эшелона моделей) около 3–6 месяцев.

Доступ. Платный API deepseek.com, OpenRouter; веса бесплатно на HuggingFace под лицензией MIT.

Что именно вышло

DeepSeek в последний раз обновляли линейку в декабре 2025 — тогда вышли V3.2 и V3.2 Speciale. Сейчас представили первый выпуск серии V4 — две preview-модели.

  • DeepSeek-V4-Pro — 1,6 триллиона параметров всего, 49 миллиардов активных
  • DeepSeek-V4-Flash — 284 миллиарда всего, 13 миллиардов активных

Обе модели — Mixture of Experts (MoE — архитектура, в которой на каждый токен активируется лишь часть «экспертов», а не все параметры сразу) с контекстом 1 миллион токенов и лицензией MIT (без ограничений на коммерческое использование). V4-Pro теперь крупнейшая open-weights-модель в мире: больше Kimi K2.6 (1,1T), GLM-5.1 (754B) и более чем вдвое больше DeepSeek V3.2 (685B). Веса уже лежат на HuggingFace: Pro — 865 ГБ, Flash — 160 ГБ (размер файлов в нативной precision, как их опубликовала DeepSeek).

Сколько стоит

Чтобы было видно масштаб, вот как V4 смотрится на фоне текущих frontier-моделей. Цены — в долларах за миллион токенов, формат input / output. Малые модели (Flash / Nano / Haiku / Flash-Lite) используют для массовых быстрых задач — классификации, простых диалогов, ботов; крупные (Pro / Sonnet / Gemini Pro / Opus) — для сложного reasoning и больших контекстов.

Малые модели

  • DeepSeek V4 Flash — 0,14 $ / 0,28 $
  • GPT-5.4 Nano — 0,20 $ / 1,25 $
  • Gemini 3.1 Flash-Lite — 0,25 $ / 1,50 $
  • Gemini 3 Flash Preview — 0,50 $ / 3 $
  • GPT-5.4 Mini — 0,75 $ / 4,50 $
  • Claude Haiku 4.5 — 1 $ / 5 $

Крупные модели

  • DeepSeek V4 Pro — 1,74 $ / 3,48 $
  • Gemini 3.1 Pro — 2 $ / 12 $
  • GPT-5.4 — 2,50 $ / 15 $
  • Claude Sonnet 4.6 — 3 $ / 15 $
  • Claude Opus 4.7 — 5 $ / 25 $
  • GPT-5.5 — 5 $ / 30 $

Flash — самая дешёвая из малых моделей, дешевле даже GPT-5.4 Nano. Pro — самая дешёвая среди крупных frontier-моделей, причём output у неё стоит всего в 2 раза больше input, тогда как у Gemini 3.1 Pro — в 6 раз, у GPT-5.4 — в 6 раз, у Claude Sonnet 4.6 — в 5 раз. Для задач с длинными ответами (генерация отчётов, перевод, код) разница в итоге получается драматичная.

Почему так дёшево

В DeepSeek подчёркивают: дело не только в ценовой политике — модели реально эффективнее по вычислениям на длинном контексте. При этом у Pro даже больше активных параметров, чем у V3.2 (49B против 37B), — и всё равно обходится дешевле по FLOPs. Из их paper:

В сценарии контекста в 1 миллион токенов DeepSeek-V4-Pro, несмотря на большее число активных параметров, достигает лишь 27% FLOPs на токен (в эквиваленте FP8) и 10% размера KV-cache относительно DeepSeek-V3.2. Flash с меньшим числом активных параметров ещё эффективнее: 10% FLOPs и 7% KV-cache при том же 1M-контексте по сравнению с V3.2.
DeepSeekиз paper V4

Перевод с инженерного: для того же 1M-контекста V4-Pro требует примерно в 4 раза меньше вычислений и в 10 раз меньше памяти под KV-cache (KV-cache — это то, что модель держит в памяти, чтобы не пересчитывать уже обработанную часть контекста на каждый новый токен). У Flash выигрыш ещё больше. Значит, DeepSeek может предложить цену, которую конкуренты без такой же архитектуры просто не смогут повторить.

Бенчмарки: почти frontier

Собственная оценка DeepSeek для расширенного режима Pro-Max — того же Pro, только с увеличенным бюджетом на reasoning-токены:

Через расширение reasoning-токенов DeepSeek-V4-Pro-Max показывает превосходство над GPT-5.2 и Gemini-3.0-Pro на стандартных reasoning-бенчмарках. Тем не менее, её показатели чуть уступают GPT-5.4 и Gemini-3.1-Pro — это указывает на отставание от frontier примерно на 3–6 месяцев.
DeepSeekиз paper V4

Тактика видна: не гнаться за первым местом, закрывать разрыв в качестве разрывом в цене. Для большинства продуктовых задач «почти frontier за треть цены» — уже достаточный аргумент.

Как попробовать

  1. API deepseek.comпрямой доступ через официальный кабинет. На момент публикации сервис из России работает напрямую, но для оплаты нужна банковская карта, принимающая USD или CNY.
  2. OpenRouterV4 уже в списке моделей, через него можно платить без прямой привязки к китайскому биллингу. Саймон Уиллисон (ML-блогер, автор инструмента LLM CLI) для теста использовал llm-openrouter.
  3. Open weights на HuggingFaceмодели лежат под MIT на deepseek-ai. Flash в нативной precision, как его опубликовала DeepSeek, весит 160 ГБ; в квантованном виде (Q4/Q5) — около 60–80 ГБ, что уже умещается в MacBook Pro M5 со 128 ГБ RAM через MLX или llama.cpp.
  4. Unsloth-квантизации — команда Unsloth обычно публикует квантованные версии популярных моделей на huggingface.co/unsloth в течение нескольких дней после релиза.

Что это значит для разработчиков

  • Используете DeepSeek V3.2? Прогоните свои тесты через V4 — цены в API ниже, контекст тот же 1M токенов.
  • Считаете бюджет на LLM в продукте? Flash за 0,14 $ входит в нижнюю ступень как реальная альтернатива GPT-5.4 Nano и Gemini 3.1 Flash-Lite.
  • Работаете с open weights локально? V4-Pro устанавливает новый рекорд по размеру открытой модели (1,6T), но потребует серьёзного железа.
  • Нужно frontier-качество по нижней цене? Pro за 1,74 $ против GPT-5.4 за 2,50 $ при сопоставимых бенчмарках в reasoning.
FAQ
1
Можно ли использовать DeepSeek V4 в коммерческом продукте?

Да. Обе модели выпущены под лицензией MIT — никаких ограничений на коммерческое использование, включая fine-tune и распространение.

2
Работает ли API DeepSeek из России?

На момент публикации API deepseek.com доступен из РФ напрямую — китайские LLM-сервисы не заблокированы. Open weights на HuggingFace скачиваются свободно. Для оплаты API нужна карта, принимающая USD или CNY; альтернатива — доступ через OpenRouter.

3
На каком железе реально запустить Flash локально?

В нативной precision (как Flash опубликована на HuggingFace) — 160 ГБ, это Mac Studio M4 Ultra или серверы с двумя A100/H100. В квантованной Q4/Q5 — 60–80 ГБ, вписывается в MacBook Pro M5 со 128 ГБ RAM через MLX или llama.cpp.

4
Можно ли запустить Pro локально?

Практически нет. 865 ГБ в нативной precision требуют multi-GPU-сервер (8× H100 и больше) или стриминг активных экспертов с SSD — что превращает inference в минутные задержки. Даже в квантованной Q4 получится около 300–400 ГБ, что по-прежнему за пределами одного десктопа. Разумнее использовать Pro через API или OpenRouter.

5
Чем Pro отличается от Pro-Max?

Pro — стандартный inference. Pro-Max — тот же Pro с увеличенным бюджетом reasoning-токенов, по логике близкий к GPT-5.4-thinking. Именно Pro-Max DeepSeek сравнивают в reasoning-бенчмарках. В обычной работе Pro тратит меньше вычислений и стоит столько же.

6
Когда ждать стабильный релиз, не preview?

DeepSeek сроки не объявляли. По опыту линейки V3 (V3 → V3.1 → V3.2) preview-модели обычно обновляются несколько раз перед стабильным релизом — ждать можно месяцы, а не недели.

Что изменилось на рынке

V4 — это не про первое место на бенчмарках, а про баланс: открытые веса, контекст 1M и рекордно низкая цена в своих нишах. Для большинства задач, где не нужен абсолютный frontier, Flash и Pro делают выбор очевидным. Для OpenAI, Anthropic и Google — ещё один сигнал, что удерживать маржу на нижних ступенях своего прайса всё сложнее.