Ollama перешёл на Apple MLX — инференс LLM на Mac стал вдвое быстрее

Ollama v0.7 заменил llama.cpp на Apple MLX для Mac с Apple Silicon. Инференс Llama 3.1 8B ускорился вдвое — до 100 токенов/сек на M4 Max.

Обложка: Ollama перешёл на Apple MLX — инференс LLM на Mac стал вдвое быстрее

Если вы запускаете LLM локально на Mac — Ollama 0.19 может удвоить скорость инференса. 30 марта 2026 года команда Ollama объявила о переходе на фреймворк Apple MLX в качестве бэкенда для Apple Silicon — вместо llama.cpp, который использовался ранее.

Ollama — один из самых популярных инструментов для запуска больших языковых моделей на локальном железе. Новая версия 0.19 использует MLX — фреймворк Apple для машинного обучения, оптимизированный под унифицированную память Apple Silicon. Результат: до 2x ускорения на генерации токенов и значительный прирост на обработке длинных промптов.

Ключевые выводы

— Ollama 0.19 переходит на Apple MLX вместо llama.cpp для Apple Silicon

— Скорость генерации токенов вырастает до 2x, особенно на MoE-моделях

— Снижается потребление памяти благодаря оптимизации под унифицированную архитектуру

— В превью поддерживается одна модель: Qwen3.5-35B-A3B в формате NVFP4

— Требуется Mac с Apple Silicon и минимум 32 ГБ унифицированной памяти

MLX — это фреймворк машинного обучения от Apple, спроектированный специально под унифицированную архитектуру памяти Apple Silicon. В отличие от llama.cpp, который использует Metal Performance Shaders как универсальный GPU-слой, MLX работает с унифицированной памятью напрямую — без накладных расходов на копирование данных между CPU и GPU.

Что изменилось в Ollama 0.19

До версии 0.19 Ollama на macOS использовал llama.cpp с GPU-ускорением через Metal. Это работало, но Metal Performance Shaders — универсальная абстракция, не оптимизированная под специфику Apple Silicon.

Новый MLX-бэкенд даёт три ключевых преимущества:

  • Прямая работа с унифицированной памятью — нет копирования данных между CPU и GPU (они делят одну физическую память на Apple Silicon)
  • Оптимизированные Metal compute-шейдеры — MLX использует шейдеры, настроенные именно под ядра GPU Apple
  • Эффективная маршрутизация MoE — модели с архитектурой Mixture of Experts (как Qwen3.5-35B-A3B) получают наибольший прирост

Бенчмарки: насколько быстрее

Два ключевых показателя производительности LLM: prefill (обработка входного промпта — чем быстрее, тем меньше ждать первого токена ответа) и decode (генерация токенов — определяет скорость «печати» ответа).

Ollama опубликовала сравнение на модели Qwen3.5-35B-A3B — MoE-модели с 35 миллиардами параметров и 3 миллиардами активных. Официальные графики показывают существенный прирост MLX над llama.cpp на всех чипах Apple Silicon.

На чипах M5/M5 Pro/M5 Max с новыми GPU Neural Accelerators Ollama показывает до 1851 токена/с на prefill и 134 токена/с на decode — при использовании квантования int4 (не NVFP4, который используется в основном превью).

Сравнение MLX и llama.cpp на Gemma 3

Для оценки разницы между MLX и llama.cpp можно посмотреть на независимые бенчмарки LM Studio (который уже использует MLX) против Ollama 0.18 (llama.cpp) на Mac Studio M3 Ultra:

  • Gemma 3 1B: 149 → 237 токенов/с (+59%)
  • Gemma 3 4B: 92 → 134 токена/с (+46%)
  • Gemma 3 27B: 24 → 33 токена/с (+38%)

Это сравнение разных продуктов (LM Studio vs Ollama), но оно демонстрирует преимущество MLX-бэкенда над llama.cpp. С переходом Ollama на MLX разрыв должен сократиться.

MoE-модели получают больший прирост (~2x), чем плотные модели (~40–60%). Это связано с тем, что маршрутизация экспертов — дорогая операция через универсальные GPU-абстракции, но эффективная в MLX.

Оптимизация памяти

MLX оптимизирован под унифицированную память Apple Silicon, что снижает накладные расходы на управление памятью по сравнению с llama.cpp. Официальный блог Ollama отмечает «lower memory utilization» — точные цифры зависят от модели и квантования.

Ollama 0.19 также улучшил систему кэширования:

  • Переиспользование KV-кэша (Key-Value cache — промежуточные вычисления модели) между сессиями — меньше повторных вычислений при общем системном промпте
  • Умные чекпоинты — снимки кэша в оптимальных точках промпта для ускорения повторных запросов
  • Улучшенное вытеснение — общие префиксы живут дольше, даже когда старые ветки разговора удаляются

NVFP4: новый формат квантования

Ollama 0.19 использует формат квантования NVFP4 от NVIDIA вместо привычного Q4_K_M (GGUF). Квантование (quantization) — это сжатие весов модели для уменьшения потребления памяти и ускорения вычислений. Ключевые отличия NVFP4:

  • Сохраняет точность модели при снижении нагрузки на memory bandwidth
  • Обеспечивает паритет качества с облачными провайдерами — те же веса, что и при инференсе на серверах с NVFP4
  • Открывает путь к моделям, оптимизированным через инструменты NVIDIA

Как попробовать

Требования: Mac с Apple Silicon (M1 и новее) и минимум 32 ГБ унифицированной памяти.

			# Обновить Ollama до 0.19
brew upgrade ollama

# Запустить модель напрямую
ollama run qwen3.5:35b-a3b-coding-nvfp4

# Или через новую команду launch (интеграция с инструментами)
ollama launch claude --model qwen3.5:35b-a3b-coding-nvfp4
ollama launch openclaw --model qwen3.5:35b-a3b-coding-nvfp4

# Подробный вывод с информацией о памяти
ollama run --verbose qwen3.5:35b-a3b-coding-nvfp4
		

Команда ollama launch — новинка версии 0.19, она запускает модель с интеграцией в конкретный инструмент (Claude, OpenClaw). Флаг --verbose теперь показывает пиковое потребление памяти при использовании MLX-движка.

Ограничения превью

  • Поддерживается только одна модель: Qwen3.5-35B-A3B в формате NVFP4
  • Требуется 32+ ГБ унифицированной памяти
  • Импорт кастомных файнтюнов пока недоступен (планируется)
  • Не все архитектуры моделей поддержаны — список будет расширяться
  • MLX работает только на Apple Silicon — для Intel Mac и других платформ Ollama продолжит использовать llama.cpp
Частые вопросы
1
Что такое MLX и чем он лучше llama.cpp на Mac?

MLX — фреймворк Apple для машинного обучения, спроектированный под унифицированную память Apple Silicon. В отличие от llama.cpp, который использует Metal как универсальную GPU-абстракцию, MLX работает с памятью напрямую, без копирования данных между CPU и GPU. Это даёт заметный прирост скорости, особенно на MoE-моделях и при обработке длинных промптов.

2
Какие Mac поддерживаются?

Все Mac с Apple Silicon (M1 и новее). Наибольший прирост получают M5, M5 Pro и M5 Max благодаря новым GPU Neural Accelerators. Для превью-модели Qwen3.5-35B-A3B нужно минимум 32 ГБ унифицированной памяти. На Mac с Intel MLX не работает — там Ollama продолжит использовать llama.cpp.

3
Нужно ли мне что-то менять в настройках?

Нет. Достаточно обновить Ollama до версии 0.19 — MLX-бэкенд включается автоматически при запуске поддерживаемых моделей на Apple Silicon. Существующие модели на llama.cpp продолжат работать как раньше.

4
Когда будут поддержаны другие модели?

Ollama планирует расширять поддержку архитектур в следующих версиях. В превью доступна только Qwen3.5-35B-A3B в формате NVFP4. Кастомные файнтюны на поддерживаемых архитектурах получат упрощённый импорт в будущих релизах.

5
MLX заменяет llama.cpp полностью?

Нет. MLX используется только на Apple Silicon. На Windows, Linux и Intel Mac Ollama продолжает использовать llama.cpp. Даже на Apple Silicon llama.cpp остаётся доступным для моделей, которые ещё не поддержаны MLX-бэкендом.

Выводы

Переход Ollama на MLX — важный шаг для экосистемы локального ИИ на Mac. Ускорение инференса и оптимизация памяти делают запуск моделей уровня 35B на MacBook Pro с 32 ГБ комфортным — без облачных API и подписок.

Пока это превью с одной моделью, но направление очевидно: Apple Silicon получает нативную оптимизацию вместо универсальных абстракций. Для разработчиков, использующих локальные LLM для кодинга, это повод обновить Ollama уже сейчас.