PrismML выпустила 1-bit Bonsai — LLM на 8B параметров, которая весит 1 ГБ и работает на смартфоне

Стартап из Калтеха представил первые коммерчески жизнеспособные 1-битные LLM. Флагман Bonsai 8B занимает 1,15 ГБ, конкурирует с Llama 3 8B и работает на iPhone.

Обложка: PrismML выпустила 1-bit Bonsai — LLM на 8B параметров, которая весит 1 ГБ и работает на смартфоне

LLM на 8 миллиардов параметров, которая занимает 1,15 ГБ и выдаёт 368 токенов в секунду на RTX 4090 — это не опечатка.

PrismML — стартап из Калтеха, поддержанный Khosla Ventures, Cerberus и Google — представил семейство 1-bit Bonsai: первые коммерчески жизнеспособные языковые модели, где каждый параметр закодирован одним битом. Модели доступны под лицензией Apache 2.0.

Ключевые выводы
  • 1-bit Bonsai 8B — LLM на 8,2 млрд параметров с 1-битными весами, занимает 1,15 ГБ (в 14 раз меньше обычной 8B-модели)
  • На бенчмарках конкурирует с Llama 3 8B и Qwen3 8B, при этом работает в 8 раз быстрее и потребляет в 4-5 раз меньше энергии
  • Запускается на iPhone 17 Pro Max (44 ток/с), M4 Pro (131 ток/с), RTX 4090 (368 ток/с)
  • Также выпущены Bonsai 4B (~0,5 ГБ) и Bonsai 1.7B (0,24 ГБ)
  • Лицензия Apache 2.0, модели доступны на Hugging Face

Последние годы развитие ИИ шло по пути увеличения моделей: больше параметров, больше GPU, больше энергии. Это дало мощные модели, но привязало их к дата-центрам. PrismML предлагает альтернативу — не наращивать размер, а концентрировать интеллект: максимум полезной работы на гигабайт модели.

Что значит «1-битная модель»

В стандартных LLM каждый вес (параметр) хранится в 16-битном числе с плавающей точкой (FP16). В 1-bit Bonsai 8B все веса — эмбеддинги, слои внимания, MLP-слои и LM head — закодированы одним битом. Нет «escape hatches» с повышенной точностью — это настоящая 1-битная модель от начала до конца.

Результат: модель с 8,2 млрд параметров занимает 1,15 ГБ вместо ~16 ГБ. Это уменьшение в 14 раз — не за счёт обрезки слоёв или дистилляции, а за счёт принципиально иного способа кодирования весов.

Производительность: бенчмарки и скорость

PrismML измерял Bonsai 8B на стандартном наборе бенчмарков: IFEval, GSM8K, HumanEval+, BFCL, MuSR, MMLU-Redux.

  • По средним оценкам бенчмарков — конкурирует с Llama 3 8B, Qwen3 8B и другими лидерами класса 8B
  • Intelligence density (плотность интеллекта, по собственной метрике PrismML): 1,06/ГБ у Bonsai против 0,10/ГБ у Qwen3 8B — разница в 10,6 раз
  • Скорость: 131 ток/с на M4 Pro, 368 ток/с на RTX 4090, 44 ток/с на iPhone 17 Pro Max
  • Энергоэффективность: 0,074 мВт·ч/токен на M4 Pro — в 4-5 раз лучше FP16-аналогов

На длинных агентных задачах преимущество ещё заметнее: в демо PrismML Bonsai 8B обработал 50 тикетов за то же время, что обычная 8B-модель — 6.

Три модели семейства

PrismML выпустил три модели разного размера:

  • 1-bit Bonsai 8B — 8,2 млрд параметров, 1,15 ГБ. Флагман: рассуждения, вызов функций, генерация кода
  • 1-bit Bonsai 4B — ~0,5 ГБ, 132 ток/с на M4 Pro. Баланс скорости и точности
  • 1-bit Bonsai 1.7B — 0,24 ГБ, 130 ток/с на iPhone 17 Pro Max. Ультралёгкая модель для мобильных устройств

Все три модели сдвигают Парето-фронт «интеллект vs размер» влево — то есть дают больше возможностей при меньшем объёме.

Зачем это нужно: от дата-центров к устройствам

1-битные модели открывают класс задач, для которых облачные LLM не подходят:

  • Приватность — данные не покидают устройство
  • Латентность — нет задержки на сетевой запрос
  • Автономность — работает офлайн, без интернета
  • Стоимость — не нужен облачный GPU
  • Роботика и встраиваемые системы — запуск на edge-устройствах с ограниченной памятью
Будущее ИИ определит не тот, кто построит самый большой дата-центр, а тот, кто сможет доставить максимум интеллекта на единицу энергии и стоимости.
Vinod KhoslaОснователь Khosla Ventures, инвестор PrismML

Перспектива: специализированное железо

Текущие результаты получены на стандартном потребительском железе, оптимизированном для FP16-арифметики. PrismML отмечает, что выигрыш пока идёт в основном за счёт уменьшения footprint — полноценная оптимизация 1-битного инференса на уровне железа ещё впереди.

В 1-битных моделях умножения в линейных слоях можно заменить сложениями. Специализированные чипы для 1-битного инференса могут дать ещё один порядок ускорения.

Энергия стала главным узким местом для масштабирования ИИ-датацентров. PrismML фундаментально меняет уравнение «мощность/вычисления».
Amir SalekCerberus Ventures, основатель программы TPU в Google

Как попробовать

Модели доступны на Hugging Face под лицензией Apache 2.0. Поддерживаются:

  • Apple (Mac, iPhone, iPad) — через MLX
  • NVIDIA GPU — через llama.cpp CUDA
  • Whitepaper с техническими деталями обучения и оценки доступен на сайте PrismML
Часто задаваемые вопросы
1
Что такое 1-битная LLM?

В стандартных LLM каждый вес модели хранится в 16-битном числе (FP16), занимая 2 байта. В 1-битной модели каждый вес закодирован одним битом (0 или 1). Это уменьшает размер модели в ~14 раз и позволяет запускать её на устройствах с ограниченной памятью — смартфонах, ноутбуках, встраиваемых системах.

2
Насколько 1-bit Bonsai 8B хуже обычных 8B-моделей?

По бенчмаркам (IFEval, GSM8K, HumanEval+, BFCL, MuSR, MMLU-Redux) Bonsai 8B конкурирует с Llama 3 8B и Qwen3 8B. Разница в точности небольшая, но модель в 14 раз меньше, в 8 раз быстрее и потребляет в 4-5 раз меньше энергии. Это компромисс, но коммерчески жизнеспособный.

3
На каком железе запускается Bonsai 8B?

На любом устройстве с 1,15+ ГБ свободной памяти. Протестировано: iPhone 17 Pro Max (44 ток/с), MacBook с M4 Pro (131 ток/с), RTX 4090 (368 ток/с). Работает через MLX (Apple) и llama.cpp CUDA (NVIDIA).

4
Чем Bonsai отличается от квантизации (GPTQ, GGUF)?

Квантизация сжимает уже обученную модель, обычно до 4-8 бит, с потерей качества. Bonsai — это модель, обученная с нуля в 1-битном представлении. Все слои нативно 1-битные, нет «escape hatches» с повышенной точностью. Подход фундаментально другой.

5
Где скачать модели?

Все три модели (8B, 4B, 1.7B) доступны на Hugging Face под лицензией Apache 2.0: huggingface.co/prism-ml. Поддерживаются форматы MLX и llama.cpp CUDA.

Выводы

Мы годами разрабатывали математическую теорию, необходимую для сжатия нейронной сети без потери способности к рассуждению. 1-бит — не конечная точка, а отправная.
Babak HassibiCEO PrismML, профессор Калтеха

1-bit Bonsai — первая серьёзная заявка на то, что 1-битные модели могут быть не компромиссом, а полноценным продуктом. Если результаты бенчмарков подтвердятся независимыми исследователями, это изменит экономику запуска LLM: модель класса 8B, которая помещается в гигабайт и работает на смартфоне, — это другой рынок.

Скачать модели: Hugging Face | Подробности: блог PrismML