Ollama перешёл на Apple MLX — инференс LLM на Mac стал вдвое быстрее
Ollama v0.7 заменил llama.cpp на Apple MLX для Mac с Apple Silicon. Инференс Llama 3.1 8B ускорился вдвое — до 100 токенов/сек на M4 Max.
Новости TprogerЕсли вы запускаете LLM локально на Mac — Ollama 0.19 может удвоить скорость инференса. 30 марта 2026 года команда Ollama объявила о переходе на фреймворк Apple MLX в качестве бэкенда для Apple Silicon — вместо llama.cpp, который использовался ранее.
Ollama — один из самых популярных инструментов для запуска больших языковых моделей на локальном железе. Новая версия 0.19 использует MLX — фреймворк Apple для машинного обучения, оптимизированный под унифицированную память Apple Silicon. Результат: до 2x ускорения на генерации токенов и значительный прирост на обработке длинных промптов.
Ключевые выводы
— Ollama 0.19 переходит на Apple MLX вместо llama.cpp для Apple Silicon
— Скорость генерации токенов вырастает до 2x, особенно на MoE-моделях
— Снижается потребление памяти благодаря оптимизации под унифицированную архитектуру
— В превью поддерживается одна модель: Qwen3.5-35B-A3B в формате NVFP4
— Требуется Mac с Apple Silicon и минимум 32 ГБ унифицированной памяти
MLX — это фреймворк машинного обучения от Apple, спроектированный специально под унифицированную архитектуру памяти Apple Silicon. В отличие от llama.cpp, который использует Metal Performance Shaders как универсальный GPU-слой, MLX работает с унифицированной памятью напрямую — без накладных расходов на копирование данных между CPU и GPU.
Что изменилось в Ollama 0.19
До версии 0.19 Ollama на macOS использовал llama.cpp с GPU-ускорением через Metal. Это работало, но Metal Performance Shaders — универсальная абстракция, не оптимизированная под специфику Apple Silicon.
Новый MLX-бэкенд даёт три ключевых преимущества:
- Прямая работа с унифицированной памятью — нет копирования данных между CPU и GPU (они делят одну физическую память на Apple Silicon)
- Оптимизированные Metal compute-шейдеры — MLX использует шейдеры, настроенные именно под ядра GPU Apple
- Эффективная маршрутизация MoE — модели с архитектурой Mixture of Experts (как Qwen3.5-35B-A3B) получают наибольший прирост
Бенчмарки: насколько быстрее
Два ключевых показателя производительности LLM: prefill (обработка входного промпта — чем быстрее, тем меньше ждать первого токена ответа) и decode (генерация токенов — определяет скорость «печати» ответа).
Ollama опубликовала сравнение на модели Qwen3.5-35B-A3B — MoE-модели с 35 миллиардами параметров и 3 миллиардами активных. Официальные графики показывают существенный прирост MLX над llama.cpp на всех чипах Apple Silicon.
На чипах M5/M5 Pro/M5 Max с новыми GPU Neural Accelerators Ollama показывает до 1851 токена/с на prefill и 134 токена/с на decode — при использовании квантования int4 (не NVFP4, который используется в основном превью).
Сравнение MLX и llama.cpp на Gemma 3
Для оценки разницы между MLX и llama.cpp можно посмотреть на независимые бенчмарки LM Studio (который уже использует MLX) против Ollama 0.18 (llama.cpp) на Mac Studio M3 Ultra:
- Gemma 3 1B: 149 → 237 токенов/с (+59%)
- Gemma 3 4B: 92 → 134 токена/с (+46%)
- Gemma 3 27B: 24 → 33 токена/с (+38%)
Это сравнение разных продуктов (LM Studio vs Ollama), но оно демонстрирует преимущество MLX-бэкенда над llama.cpp. С переходом Ollama на MLX разрыв должен сократиться.
MoE-модели получают больший прирост (~2x), чем плотные модели (~40–60%). Это связано с тем, что маршрутизация экспертов — дорогая операция через универсальные GPU-абстракции, но эффективная в MLX.
Оптимизация памяти
MLX оптимизирован под унифицированную память Apple Silicon, что снижает накладные расходы на управление памятью по сравнению с llama.cpp. Официальный блог Ollama отмечает «lower memory utilization» — точные цифры зависят от модели и квантования.
Ollama 0.19 также улучшил систему кэширования:
- Переиспользование KV-кэша (Key-Value cache — промежуточные вычисления модели) между сессиями — меньше повторных вычислений при общем системном промпте
- Умные чекпоинты — снимки кэша в оптимальных точках промпта для ускорения повторных запросов
- Улучшенное вытеснение — общие префиксы живут дольше, даже когда старые ветки разговора удаляются
NVFP4: новый формат квантования
Ollama 0.19 использует формат квантования NVFP4 от NVIDIA вместо привычного Q4_K_M (GGUF). Квантование (quantization) — это сжатие весов модели для уменьшения потребления памяти и ускорения вычислений. Ключевые отличия NVFP4:
- Сохраняет точность модели при снижении нагрузки на memory bandwidth
- Обеспечивает паритет качества с облачными провайдерами — те же веса, что и при инференсе на серверах с NVFP4
- Открывает путь к моделям, оптимизированным через инструменты NVIDIA
Как попробовать
Требования: Mac с Apple Silicon (M1 и новее) и минимум 32 ГБ унифицированной памяти.
Команда ollama launch — новинка версии 0.19, она запускает модель с интеграцией в конкретный инструмент (Claude, OpenClaw). Флаг --verbose теперь показывает пиковое потребление памяти при использовании MLX-движка.
Ограничения превью
- Поддерживается только одна модель: Qwen3.5-35B-A3B в формате NVFP4
- Требуется 32+ ГБ унифицированной памяти
- Импорт кастомных файнтюнов пока недоступен (планируется)
- Не все архитектуры моделей поддержаны — список будет расширяться
- MLX работает только на Apple Silicon — для Intel Mac и других платформ Ollama продолжит использовать llama.cpp
Частые вопросы
Что такое MLX и чем он лучше llama.cpp на Mac?
MLX — фреймворк Apple для машинного обучения, спроектированный под унифицированную память Apple Silicon. В отличие от llama.cpp, который использует Metal как универсальную GPU-абстракцию, MLX работает с памятью напрямую, без копирования данных между CPU и GPU. Это даёт заметный прирост скорости, особенно на MoE-моделях и при обработке длинных промптов.
Какие Mac поддерживаются?
Все Mac с Apple Silicon (M1 и новее). Наибольший прирост получают M5, M5 Pro и M5 Max благодаря новым GPU Neural Accelerators. Для превью-модели Qwen3.5-35B-A3B нужно минимум 32 ГБ унифицированной памяти. На Mac с Intel MLX не работает — там Ollama продолжит использовать llama.cpp.
Нужно ли мне что-то менять в настройках?
Нет. Достаточно обновить Ollama до версии 0.19 — MLX-бэкенд включается автоматически при запуске поддерживаемых моделей на Apple Silicon. Существующие модели на llama.cpp продолжат работать как раньше.
Когда будут поддержаны другие модели?
Ollama планирует расширять поддержку архитектур в следующих версиях. В превью доступна только Qwen3.5-35B-A3B в формате NVFP4. Кастомные файнтюны на поддерживаемых архитектурах получат упрощённый импорт в будущих релизах.
MLX заменяет llama.cpp полностью?
Нет. MLX используется только на Apple Silicon. На Windows, Linux и Intel Mac Ollama продолжает использовать llama.cpp. Даже на Apple Silicon llama.cpp остаётся доступным для моделей, которые ещё не поддержаны MLX-бэкендом.
Выводы
Переход Ollama на MLX — важный шаг для экосистемы локального ИИ на Mac. Ускорение инференса и оптимизация памяти делают запуск моделей уровня 35B на MacBook Pro с 32 ГБ комфортным — без облачных API и подписок.
Пока это превью с одной моделью, но направление очевидно: Apple Silicon получает нативную оптимизацию вместо универсальных абстракций. Для разработчиков, использующих локальные LLM для кодинга, это повод обновить Ollama уже сейчас.