AMD выпустила Lemonade — open-source сервер для локального ИИ с поддержкой GPU и NPU

AMD представила Lemonade — open-source C++ сервер для локального запуска ИИ-моделей. Поддерживает GPU, NPU и CPU, совместим с OpenAI API и устанавливается за минуту.

Обложка: AMD выпустила Lemonade — open-source сервер для локального ИИ с поддержкой GPU и NPU

Запустить LLM на своём компьютере — задача с десятком подводных камней: выбор движка, настройка под железо, совместимость с приложениями. AMD предлагает решить всё это одной командой.

Lemonade — open-source сервер для локального запуска ИИ-моделей от AMD. Написан на C++ (серверный бинарник ~2 МБ), автоматически настраивается под GPU, NPU и CPU, совместим с OpenAI API. Проект набирает обороты на Hacker News (120+ баллов за несколько часов) и нацелен на то, чтобы сделать локальный ИИ таким же простым, как облачный.

Ключевые выводы
  • Lemonade — open-source сервер локального ИИ от AMD, написанный на C++ (бинарник ~2 МБ)
  • Автоматически конфигурирует бэкенды для GPU (Radeon), NPU (Ryzen AI) и CPU
  • Совместим с OpenAI API — любое приложение, работающее с OpenAI, подключается заменой endpoint
  • Мультимодальный: текст, изображения, распознавание речи, синтез речи
  • Работает на Windows, Linux и macOS (бета), установка за минуту

Lemonade — не новый проект (первые версии появились в 2025 году), но версия 10.0, вышедшая в марте 2026, добавила поддержку NPU на Linux через FastFlowLM — и именно это привлекло внимание сообщества.

Что умеет Lemonade

Lemonade — это локальный сервер, который принимает запросы по OpenAI-совместимому API и маршрутизирует их к оптимальному бэкенду:

  • Текстовая генерация — через llama.cpp, Ryzen AI SW, FastFlowLM
  • Генерация изображений — через stablediffusion.cpp
  • Распознавание речи — через whisper.cpp
  • Синтез речи — через Kokoro
  • Vision — мультимодальные модели с анализом изображений

Можно запускать несколько моделей одновременно — ограничение только в доступной оперативной памяти.

Зачем NPU и при чём тут AMD

NPU (Neural Processing Unit) — специализированный процессор для ИИ-задач, встроенный в чипы AMD Ryzen AI 300 и 400 серий. В отличие от GPU, NPU потребляет значительно меньше энергии и работает тихо — идеально для фоновых ИИ-задач на ноутбуке.

До Lemonade 10.0 NPU на Ryzen AI работал только под Windows. Теперь через FastFlowLM 0.9.35 доступна поддержка Linux с контекстом до 256 000 токенов. Это делает Ryzen AI реальной альтернативой для разработчиков, которые работают на Linux.

OpenAI API: подключение за минуту

Главное преимущество Lemonade — совместимость с OpenAI API. Если приложение уже работает с OpenAI, переключение на локальный Lemonade сводится к замене endpoint:

			# Было:
OPENAI_API_BASE=https://api.openai.com/v1

# Стало:
OPENAI_API_BASE=http://localhost:8000/v1
		

Это уже работает с:

  • VS Code — через расширения (Continue и другие)
  • Continue — автодополнение кода
  • n8n — автоматизация рабочих процессов
  • OpenWebUI — веб-интерфейс для чатов с моделями

Установка и запуск

Установщики доступны для Windows (MSI), Linux (DEB, RPM, AppImage, Snap, AUR) и macOS (бета):

			# Windows: скачать MSI с lemonade-server.ai
# Linux (Ubuntu):
wget https://github.com/lemonade-sdk/lemonade/releases/latest/download/lemonade.deb
sudo dpkg -i lemonade.deb
lemonade-server run llama3
		

Lemonade автоматически определит доступное железо (GPU, NPU, CPU) и настроит оптимальный бэкенд. Для тех, кто предпочитает графический интерфейс, есть десктоп-приложение с менеджером моделей, встроенным чатом и контролем сервера.

Чем Lemonade отличается от Ollama и LM Studio

  • Поддержка NPU — Lemonade единственный из крупных проектов поддерживает AMD Ryzen AI NPU нативно
  • Мультимодальность — не только текст, но и изображения, речь, транскрипция в одном сервере
  • Множество движков — llama.cpp, FastFlowLM, whisper.cpp, stablediffusion.cpp, Kokoro под одним API
  • AMD-оптимизация — enterprise-тестирование на Ryzen и Radeon, но работает и на других платформах
  • 2 МБ бинарник — легковесный C++ сервер, не Electron-приложение
Часто задаваемые вопросы
1
Что такое Lemonade?

Lemonade — это open-source сервер от AMD для локального запуска ИИ-моделей (LLM, генерация изображений, распознавание речи). Написан на C++, совместим с OpenAI API и автоматически настраивается под GPU, NPU и CPU. Работает на Windows, Linux и macOS.

2
Lemonade работает только на AMD?

Нет. Lemonade оптимизирован для AMD Ryzen AI (NPU) и Radeon (GPU), но работает и на других платформах через llama.cpp и CPU-бэкенды. Поддержка NPU — уникальная функция для AMD Ryzen AI 300 и 400 серий.

3
Чем Lemonade лучше Ollama?

Lemonade предлагает нативную поддержку NPU (для AMD Ryzen AI), мультимодальность (текст + изображения + речь в одном сервере) и множество движков под одним API. Ollama поддерживает текст и vision, но не умеет генерировать изображения, распознавать и синтезировать речь — Lemonade всё это делает в одном сервере.

4
Как установить Lemonade?

Установка через скачивание с lemonade-server.ai (MSI/DEB/AppImage) или pip install lemonade-sdk для SDK. Также есть десктоп-приложение с графическим интерфейсом. Сервер автоматически определяет доступное железо и настраивает бэкенды.

5
Какие модели поддерживает Lemonade?

Любые GGUF-модели через llama.cpp, а также модели, оптимизированные для Ryzen AI NPU. Встроенный менеджер моделей позволяет скачивать и переключать модели в один клик.

Выводы

Lemonade — ставка AMD на то, что локальный ИИ станет стандартом. Проект решает реальную проблему: фрагментацию экосистемы локального запуска моделей. Один сервер, один API, автонастройка под железо — и текст, и картинки, и речь.

Для разработчиков на AMD Ryzen AI особенно интересна поддержка NPU на Linux — до Lemonade 10.0 этой возможности не было. Проект open-source и активно развивается сообществом.

Скачать: lemonade-server.ai | Исходники: GitHub | Сообщество: Discord