Вышла Reka Edge — 7B vision-модель, которая видит почти как Gemini 3 Pro

Обложка: Вышла Reka Edge — 7B vision-модель, которая видит почти как Gemini 3 Pro

Компания Reka AI выпустила Reka Edge — легковесную мультимодальную модель на 7B параметров для распознавания изображений, анализа видео и детекции объектов. Модель специально оптимизирована для работы на edge-устройствах: смартфонах, дронах, роботах и камерах наблюдения.

При своём размере Reka Edge в ряде бенчмарков приближается к Gemini 3 Pro, а в видеопонимании и tool-use обходит все open-weight модели сопоставимого размера — Qwen 3.5 9B и Cosmos Reason2 8B.

Главное: Reka Edge — vision-language модель на 7B параметров: 6,4B языковая база + 660M ConvNeXt V2 vision-энкодер. Тратит всего 331 токен на изображение 1024×1024 (Qwen 3.5 9B — 1041). На RTX 3090 выдаёт 500+ токенов/с. Бесплатна для коммерческого использования при выручке до $1 млн/год.

Что под капотом

Архитектура Reka Edge состоит из двух компонентов:

  • ConvNeXt V2 vision-энкодер (657M параметров) — свёрточная сеть для обработки изображений и потокового видео
  • Transformer backbone (6,4B параметров) — обучен с нуля для рассуждений и генерации текста

Ключевая особенность — жёсткая экономия контекста. Модель генерирует всего 64 токена на один тайл изображения. Это значит, что на картинку 1024×1024 уходит 331 токен — втрое меньше, чем у конкурентов:

  • Reka Edge — 331 токен
  • Cosmos Reason2 8B — 1 063 токена
  • Qwen 3.5 9B — 1 041 токен
  • Gemini 3 Pro — 1 094 токена

Меньше токенов = быстрее инференс и ниже стоимость. Reka Edge обрабатывает 5,46 изображений в секунду — это в 2 раза быстрее, чем Qwen 3.5 9B и Cosmos Reason2 8B. Time to First Token — всего 0,52 секунды.

Бенчмарки: 7B против флагманов

Таблица бенчмарков Reka Edge: сравнение с Cosmos Reason2 8B, Qwen 3.5 9B и Gemini 3 Pro по VQA-v2, MLVU, MMVU, RefCOCO, VideoHallucer и Mobile Actions
Результаты бенчмарков Reka Edge в сравнении с конкурентами. Источник: reka.ai

Основные результаты:

  • MLVU (видеопонимание): 74,3 — значительно опережает Qwen 3.5 9B (52,4) и Cosmos Reason2 8B (37,9). Для сравнения, у Gemini 3 Pro — 80,7
  • VQA-v2: 88,4 — почти на уровне Gemini 3 Pro (89,8)
  • RefCOCO (детекция объектов): 93,1 / 86,7 — на уровне Qwen 3.5 9B (93,6 / 88,8)
  • Mobile Actions (tool-use): 88,4 — сопоставимо с Gemini 3 Pro (89,4)
  • VideoHallucer (галлюцинации): 59,6 — лучший среди open-weight моделей своего размера

Где запускать

Модель запускается на удивительно скромном железе:

  • Mac на Apple Silicon — от 24 ГБ памяти (рекомендуется 32 ГБ+)
  • NVIDIA GPU — от RTX 3090 (24 ГБ VRAM), префил ~500 токенов/с
  • NVIDIA Jetson — AGX Orin и Thor для edge-деплоя
  • С 4-bit квантизацией — потребление памяти падает с 13 ГБ до 5 ГБ при сохранении 98% качества

Для серверного деплоя есть плагин для vLLM. Установка — три команды:

			# Установка плагина
uv sync
# Скачать веса (~14 ГБ)
hf download RekaAI/reka-edge-2603 --local-dir ./models/reka-edge-2603
# Запуск сервера
bash ./serve.sh ./models/reka-edge-2603
		

Лицензия и доступ

Reka Edge выпущена с открытыми весами. Модель можно использовать в коммерческих проектах бесплатно, если годовая выручка не превышает $1 млн. Для крупных компаний — корпоративная лицензия.

FAQ

Что умеет Reka Edge?

Распознавание изображений (VQA), анализ видео, детекция и локализация объектов по текстовому описанию, а также tool-use для автономных агентов. Модель принимает изображения, видео и текст на вход, генерирует текст на выходе.

Можно ли запустить на ноутбуке?

Да, если это Mac с Apple Silicon и минимум 24 ГБ RAM. На Windows/Linux нужна видеокарта с 24 ГБ VRAM. С 4-bit квантизацией модель занимает всего 5 ГБ — что открывает запуск на ещё более скромных конфигурациях, включая смартфоны.

Чем Reka Edge лучше Qwen 3.5 9B?

Reka Edge значительно быстрее (в 2 раза по throughput), экономнее по токенам (331 vs 1041 на изображение) и существенно превосходит Qwen в видеопонимании (MLVU 74,3 vs 52,4). При этом модель меньше — 7B против 9B параметров.

Источники: Reka AI Blog, Hugging Face, GitHub