Компания Reka AI выпустила Reka Edge — легковесную мультимодальную модель на 7B параметров для распознавания изображений, анализа видео и детекции объектов. Модель специально оптимизирована для работы на edge-устройствах: смартфонах, дронах, роботах и камерах наблюдения.
При своём размере Reka Edge в ряде бенчмарков приближается к Gemini 3 Pro, а в видеопонимании и tool-use обходит все open-weight модели сопоставимого размера — Qwen 3.5 9B и Cosmos Reason2 8B.
Главное: Reka Edge — vision-language модель на 7B параметров: 6,4B языковая база + 660M ConvNeXt V2 vision-энкодер. Тратит всего 331 токен на изображение 1024×1024 (Qwen 3.5 9B — 1041). На RTX 3090 выдаёт 500+ токенов/с. Бесплатна для коммерческого использования при выручке до $1 млн/год.
Что под капотом
Архитектура Reka Edge состоит из двух компонентов:
- ConvNeXt V2 vision-энкодер (657M параметров) — свёрточная сеть для обработки изображений и потокового видео
- Transformer backbone (6,4B параметров) — обучен с нуля для рассуждений и генерации текста
Ключевая особенность — жёсткая экономия контекста. Модель генерирует всего 64 токена на один тайл изображения. Это значит, что на картинку 1024×1024 уходит 331 токен — втрое меньше, чем у конкурентов:
- Reka Edge — 331 токен
- Cosmos Reason2 8B — 1 063 токена
- Qwen 3.5 9B — 1 041 токен
- Gemini 3 Pro — 1 094 токена
Меньше токенов = быстрее инференс и ниже стоимость. Reka Edge обрабатывает 5,46 изображений в секунду — это в 2 раза быстрее, чем Qwen 3.5 9B и Cosmos Reason2 8B. Time to First Token — всего 0,52 секунды.
Бенчмарки: 7B против флагманов
Основные результаты:
- MLVU (видеопонимание): 74,3 — значительно опережает Qwen 3.5 9B (52,4) и Cosmos Reason2 8B (37,9). Для сравнения, у Gemini 3 Pro — 80,7
- VQA-v2: 88,4 — почти на уровне Gemini 3 Pro (89,8)
- RefCOCO (детекция объектов): 93,1 / 86,7 — на уровне Qwen 3.5 9B (93,6 / 88,8)
- Mobile Actions (tool-use): 88,4 — сопоставимо с Gemini 3 Pro (89,4)
- VideoHallucer (галлюцинации): 59,6 — лучший среди open-weight моделей своего размера
Где запускать
Модель запускается на удивительно скромном железе:
- Mac на Apple Silicon — от 24 ГБ памяти (рекомендуется 32 ГБ+)
- NVIDIA GPU — от RTX 3090 (24 ГБ VRAM), префил ~500 токенов/с
- NVIDIA Jetson — AGX Orin и Thor для edge-деплоя
- С 4-bit квантизацией — потребление памяти падает с 13 ГБ до 5 ГБ при сохранении 98% качества
Для серверного деплоя есть плагин для vLLM. Установка — три команды:
Лицензия и доступ
Reka Edge выпущена с открытыми весами. Модель можно использовать в коммерческих проектах бесплатно, если годовая выручка не превышает $1 млн. Для крупных компаний — корпоративная лицензия.
FAQ
Что умеет Reka Edge?
Распознавание изображений (VQA), анализ видео, детекция и локализация объектов по текстовому описанию, а также tool-use для автономных агентов. Модель принимает изображения, видео и текст на вход, генерирует текст на выходе.
Можно ли запустить на ноутбуке?
Да, если это Mac с Apple Silicon и минимум 24 ГБ RAM. На Windows/Linux нужна видеокарта с 24 ГБ VRAM. С 4-bit квантизацией модель занимает всего 5 ГБ — что открывает запуск на ещё более скромных конфигурациях, включая смартфоны.
Чем Reka Edge лучше Qwen 3.5 9B?
Reka Edge значительно быстрее (в 2 раза по throughput), экономнее по токенам (331 vs 1041 на изображение) и существенно превосходит Qwen в видеопонимании (MLVU 74,3 vs 52,4). При этом модель меньше — 7B против 9B параметров.
Источники: Reka AI Blog, Hugging Face, GitHub