Сравнение гибридных языковых моделей класса 9B для промышленного инференса

Обзор и сравнение гибридных языковых моделей класса 9B для промышленного инференса

Обложка: Сравнение гибридных языковых моделей класса 9B для промышленного инференса

Выбор языковой модели с 8–9 млрд параметров для задач промышленного инференса — инженерная задача, требующая учёта нескольких факторов. Модель должна работать на ограниченном парке ускорителей, обеспечивать приемлемую задержку и показывать достаточное качество на таких задачах, как чат-боты, саммаризация документов, генерация кода и аналитика длинных контекстов. Классический подход — использование проверенной плотной модели Llama 3.1 8B — даёт стабильный результат, однако упирается в расход памяти на KV‑кеш, что ограничивает число одновременно обслуживаемых запросов.

Альтернативой выступают гибридные архитектуры, в которых традиционное внимание чередуется с более экономичными механизмами: Mamba‑2, Gated DeltaNet. Разработчики этих моделей заявляют о радикальном снижении потребления памяти и повышении пропускной способности без потери качества. В данном материале рассматриваются три открытые гибридные модели — NVIDIA Nemotron‑Nano‑9B‑v2, Bamba‑9B‑v2 (IBM) и Qwen3.5‑9B (Alibaba) — и сравниваются с референсной плотной моделью Llama 3.1 8B.

Методика моделирования

Моделирование проводилось для одного ускорителя NVIDIA H200 с 141 ГБ видеопамяти при типичной нагрузке: 4096 входных токенов и до 256 выходных. Рассчитывались следующие метрики: память на один экземпляр с учётом весов, оверхеда и KV‑кеша (Instance VRAM); полное время ответа (E2E Latency); пропускная способность одного экземпляра в запросах в секунду (RPS per replica); требуемый объём памяти на единицу пропускной способности (VRAM/RPS); максимальное число параллельных запросов, ограниченное исключительно памятью. Расчёты верифицировались с помощью расширенного симулятора InferSim и по данным публичных бенчмарков.

Результаты

Результаты моделирования относительно референсной Llama 3.1 8B

Особенности производительности моделей

Разница на порядок по KV-cashe у Nemotron обусловлена архитектурой. Модель содержит 56 слоёв, из которых лишь четыре используют полноценное внимание с KV‑кешем, а остальные 52 — сверхбыстрые Mamba‑2‑блоки. Mamba‑2 работает как рекуррентная сеть: вместо хранения растущей таблицы ключей и значений для каждого токена она обновляет компактное скрытое состояние фиксированного размера. В результате для запроса длиной 4096 + 256 токенов KV‑кеш Nemotron занимает около 68 МБ — примерно в восемь раз меньше, чем у Llama. Именно поэтому модель способна удерживать в памяти почти 2000 одновременных запросов; узким местом становится не память, а вычислительная мощность GPU.

Архитектура Qwen3.5 построена на чередовании Gated DeltaNet и Gated Attention. Большинство слоёв использует механизм линейного внимания, который подобно Mamba‑2 оперирует скрытым состоянием постоянного размера, не порождая тяжёлого KV‑кеша. Однако у этого подхода есть обратная сторона: Gated DeltaNet работает последовательно, послойно обновляя внутреннее состояние, и плохо утилизирует матричные вычисления GPU. На коротких дистанциях классический Attention с его эффективным матричным умножением способен загрузить видеокарту почти полностью, тогда как GDN‑слои проигрывают в чистой скорости. В результате TTFT у Qwen3.5 для 4096 токенов составляет 1.86 с против 1.32 с у Llama. На очень длинных контекстах (100K токенов и выше) ситуация меняется: классический KV‑кеш становится тормозом, а Gated DeltaNet продолжает работать с прежней эффективностью.

О качестве и специализации моделей

Каждая из рассмотренных моделей имеет собственную нишу, определяемую не только скоростью, но и метриками качества.

Llama 3.1 8B — референсная плотная модель. Показывает 69.4% на MMLU и 72.6% на HumanEval. Это проверенный универсал для задач, где важна предсказуемость и стабильность, а не максимальная производительность.

Nemotron‑Nano‑9B‑v2 позиционируется как математик и кодер. По данным NVIDIA, модель достигает 72.1% на AIME25, 97.8% на MATH500, 64.0% на GPQA Diamond и 71.1% на LiveCodeBench. Эти результаты делают её сильнейшим вариантом для задач, требующих точных вычислений и генерации корректного кода.

Qwen3.5‑9B является универсальным «эрудитом». Модель превосходит GPT‑OSS‑120B по MMLU‑Pro (82.5%) и GPQA Diamond (81.7%), а также показывает 83.2% на HMMT. Высокое качество на широком спектре тестов позволяет использовать её в сценариях, где важны широкий кругозор и точность ответов.

Bamba‑9B‑v2 — быстрый универсал, превосходящий Llama 3.1 8B по среднему баллу OpenLLM v2. Она не специализируется на одной задаче, но обеспечивает хорошее качество при заметно более высокой скорости.

Рекомендации

  • Для чат-ботов и потоковой обработки с высокой пропускной способностью оптимален Nemotron‑Nano‑9B‑v2 — он в полтора раза быстрее Llama и примерно на 30% эффективнее использует память (VRAM/RPS 45.8 против 65.0 ГБ·с).
  • Для саммаризации, аналитики документов и агентных систем, где во главе угла широкий кругозор и качество ответа, лучше подходит Qwen3.5‑9B.
  • Bamba‑9B‑v2 занимает промежуточную позицию: она даёт заметный прирост скорости при сопоставимом с Llama объёме памяти и может использоваться как универсальный инструмент.

Заключение

Большие языковые модели по‑прежнему требуют значительных вычислительных ресурсов. Однако прогресс в архитектурах — Mamba‑2, Gated DeltaNet — шаг за шагом снижает стоимость владения: на одном H200 теперь можно обслужить заметно больше клиентов, чем год назад. Выбор модели перестаёт быть гаданием по маркетинговым обещаниям и превращается в инженерную задачу с чёткими метриками.

Автор продолжает калибровку симулятора на реальных замерах и готов делиться обновлёнными данными. Читатели, имеющие опыт промышленного развёртывания этих или аналогичных моделей, приглашаются к обсуждению.