DeepSeek выпустил V4 — две open-weights-модели: Pro на 1,6T параметров и Flash дешевле GPT-5.4 Nano
14 центов за миллион входных токенов — дешевле, чем самая младшая модель OpenAI. Китайская DeepSeek выложила в open weights V4-Flash и V4-Pro на 1,6 триллиона параметров (крупнейшая open-weights-модель в мире). Обе с контекстом 1M и под MIT.
Новости Tproger14 центов за миллион входных токенов — дешевле, чем самая младшая модель OpenAI. Именно столько стоит новый DeepSeek V4-Flash, который китайская лаборатория DeepSeek выложила в open weights вместе с Pro-моделью на 1,6 триллиона параметров — теперь крупнейшей в мире open-weights-моделью (то есть моделью, веса которой опубликованы под свободной лицензией). Обе — с контекстом 1M токенов и под лицензией MIT.
Ключевые выводы
V4-Pro. 1,6T параметров (49B активных). Крупнейшая open-weights-модель в мире — больше Kimi K2.6 и GLM-5.1.
V4-Flash. 284B параметров (13B активных). Цена 0,14 $ / 0,28 $ за миллион токенов — дешевле GPT-5.4 Nano.
Эффективность. У Pro на контексте 1M токенов только 27% вычислений (FLOPs на токен) и 10% размера KV-cache относительно V3.2. Модели реально быстрее, не только дешевле.
Бенчмарки. Pro-Max (расширенный reasoning-режим того же Pro) обгоняет GPT-5.2 и Gemini-3.0-Pro, но уступает GPT-5.4 и Gemini-3.1-Pro — отставание от frontier (верхнего эшелона моделей) около 3–6 месяцев.
Доступ. Платный API deepseek.com, OpenRouter; веса бесплатно на HuggingFace под лицензией MIT.
Что именно вышло
DeepSeek в последний раз обновляли линейку в декабре 2025 — тогда вышли V3.2 и V3.2 Speciale. Сейчас представили первый выпуск серии V4 — две preview-модели.
- DeepSeek-V4-Pro — 1,6 триллиона параметров всего, 49 миллиардов активных
- DeepSeek-V4-Flash — 284 миллиарда всего, 13 миллиардов активных
Обе модели — Mixture of Experts (MoE — архитектура, в которой на каждый токен активируется лишь часть «экспертов», а не все параметры сразу) с контекстом 1 миллион токенов и лицензией MIT (без ограничений на коммерческое использование). V4-Pro теперь крупнейшая open-weights-модель в мире: больше Kimi K2.6 (1,1T), GLM-5.1 (754B) и более чем вдвое больше DeepSeek V3.2 (685B). Веса уже лежат на HuggingFace: Pro — 865 ГБ, Flash — 160 ГБ (размер файлов в нативной precision, как их опубликовала DeepSeek).
Сколько стоит
Чтобы было видно масштаб, вот как V4 смотрится на фоне текущих frontier-моделей. Цены — в долларах за миллион токенов, формат input / output. Малые модели (Flash / Nano / Haiku / Flash-Lite) используют для массовых быстрых задач — классификации, простых диалогов, ботов; крупные (Pro / Sonnet / Gemini Pro / Opus) — для сложного reasoning и больших контекстов.
Малые модели
- DeepSeek V4 Flash — 0,14 $ / 0,28 $
- GPT-5.4 Nano — 0,20 $ / 1,25 $
- Gemini 3.1 Flash-Lite — 0,25 $ / 1,50 $
- Gemini 3 Flash Preview — 0,50 $ / 3 $
- GPT-5.4 Mini — 0,75 $ / 4,50 $
- Claude Haiku 4.5 — 1 $ / 5 $
Крупные модели
- DeepSeek V4 Pro — 1,74 $ / 3,48 $
- Gemini 3.1 Pro — 2 $ / 12 $
- GPT-5.4 — 2,50 $ / 15 $
- Claude Sonnet 4.6 — 3 $ / 15 $
- Claude Opus 4.7 — 5 $ / 25 $
- GPT-5.5 — 5 $ / 30 $
Flash — самая дешёвая из малых моделей, дешевле даже GPT-5.4 Nano. Pro — самая дешёвая среди крупных frontier-моделей, причём output у неё стоит всего в 2 раза больше input, тогда как у Gemini 3.1 Pro — в 6 раз, у GPT-5.4 — в 6 раз, у Claude Sonnet 4.6 — в 5 раз. Для задач с длинными ответами (генерация отчётов, перевод, код) разница в итоге получается драматичная.
Почему так дёшево
В DeepSeek подчёркивают: дело не только в ценовой политике — модели реально эффективнее по вычислениям на длинном контексте. При этом у Pro даже больше активных параметров, чем у V3.2 (49B против 37B), — и всё равно обходится дешевле по FLOPs. Из их paper:
В сценарии контекста в 1 миллион токенов DeepSeek-V4-Pro, несмотря на большее число активных параметров, достигает лишь 27% FLOPs на токен (в эквиваленте FP8) и 10% размера KV-cache относительно DeepSeek-V3.2. Flash с меньшим числом активных параметров ещё эффективнее: 10% FLOPs и 7% KV-cache при том же 1M-контексте по сравнению с V3.2.
Перевод с инженерного: для того же 1M-контекста V4-Pro требует примерно в 4 раза меньше вычислений и в 10 раз меньше памяти под KV-cache (KV-cache — это то, что модель держит в памяти, чтобы не пересчитывать уже обработанную часть контекста на каждый новый токен). У Flash выигрыш ещё больше. Значит, DeepSeek может предложить цену, которую конкуренты без такой же архитектуры просто не смогут повторить.
Бенчмарки: почти frontier
Собственная оценка DeepSeek для расширенного режима Pro-Max — того же Pro, только с увеличенным бюджетом на reasoning-токены:
Через расширение reasoning-токенов DeepSeek-V4-Pro-Max показывает превосходство над GPT-5.2 и Gemini-3.0-Pro на стандартных reasoning-бенчмарках. Тем не менее, её показатели чуть уступают GPT-5.4 и Gemini-3.1-Pro — это указывает на отставание от frontier примерно на 3–6 месяцев.
Тактика видна: не гнаться за первым местом, закрывать разрыв в качестве разрывом в цене. Для большинства продуктовых задач «почти frontier за треть цены» — уже достаточный аргумент.
Как попробовать
- API deepseek.com — прямой доступ через официальный кабинет. На момент публикации сервис из России работает напрямую, но для оплаты нужна банковская карта, принимающая USD или CNY.
- OpenRouter — V4 уже в списке моделей, через него можно платить без прямой привязки к китайскому биллингу. Саймон Уиллисон (ML-блогер, автор инструмента LLM CLI) для теста использовал
llm-openrouter. - Open weights на HuggingFace — модели лежат под MIT на deepseek-ai. Flash в нативной precision, как его опубликовала DeepSeek, весит 160 ГБ; в квантованном виде (Q4/Q5) — около 60–80 ГБ, что уже умещается в MacBook Pro M5 со 128 ГБ RAM через MLX или llama.cpp.
- Unsloth-квантизации — команда Unsloth обычно публикует квантованные версии популярных моделей на huggingface.co/unsloth в течение нескольких дней после релиза.
Что это значит для разработчиков
- Используете DeepSeek V3.2? Прогоните свои тесты через V4 — цены в API ниже, контекст тот же 1M токенов.
- Считаете бюджет на LLM в продукте? Flash за 0,14 $ входит в нижнюю ступень как реальная альтернатива GPT-5.4 Nano и Gemini 3.1 Flash-Lite.
- Работаете с open weights локально? V4-Pro устанавливает новый рекорд по размеру открытой модели (1,6T), но потребует серьёзного железа.
- Нужно frontier-качество по нижней цене? Pro за 1,74 $ против GPT-5.4 за 2,50 $ при сопоставимых бенчмарках в reasoning.
FAQ
Можно ли использовать DeepSeek V4 в коммерческом продукте?
Да. Обе модели выпущены под лицензией MIT — никаких ограничений на коммерческое использование, включая fine-tune и распространение.
Работает ли API DeepSeek из России?
На момент публикации API deepseek.com доступен из РФ напрямую — китайские LLM-сервисы не заблокированы. Open weights на HuggingFace скачиваются свободно. Для оплаты API нужна карта, принимающая USD или CNY; альтернатива — доступ через OpenRouter.
На каком железе реально запустить Flash локально?
В нативной precision (как Flash опубликована на HuggingFace) — 160 ГБ, это Mac Studio M4 Ultra или серверы с двумя A100/H100. В квантованной Q4/Q5 — 60–80 ГБ, вписывается в MacBook Pro M5 со 128 ГБ RAM через MLX или llama.cpp.
Можно ли запустить Pro локально?
Практически нет. 865 ГБ в нативной precision требуют multi-GPU-сервер (8× H100 и больше) или стриминг активных экспертов с SSD — что превращает inference в минутные задержки. Даже в квантованной Q4 получится около 300–400 ГБ, что по-прежнему за пределами одного десктопа. Разумнее использовать Pro через API или OpenRouter.
Чем Pro отличается от Pro-Max?
Pro — стандартный inference. Pro-Max — тот же Pro с увеличенным бюджетом reasoning-токенов, по логике близкий к GPT-5.4-thinking. Именно Pro-Max DeepSeek сравнивают в reasoning-бенчмарках. В обычной работе Pro тратит меньше вычислений и стоит столько же.
Когда ждать стабильный релиз, не preview?
DeepSeek сроки не объявляли. По опыту линейки V3 (V3 → V3.1 → V3.2) preview-модели обычно обновляются несколько раз перед стабильным релизом — ждать можно месяцы, а не недели.
Что изменилось на рынке
V4 — это не про первое место на бенчмарках, а про баланс: открытые веса, контекст 1M и рекордно низкая цена в своих нишах. Для большинства задач, где не нужен абсолютный frontier, Flash и Pro делают выбор очевидным. Для OpenAI, Anthropic и Google — ещё один сигнал, что удерживать маржу на нижних ступенях своего прайса всё сложнее.