Стартап из Caltech выпустил 1-битные LLM — 8 млрд параметров в 1 ГБ работают на iPhone

PrismML вышла из стелс-режима и представила 1-bit Bonsai — семейство языковых моделей, где каждый параметр закодирован одним битом. 8B модель занимает 1,15 ГБ и генерирует 131 токен/с на MacBook.

Обложка: Стартап из Caltech выпустил 1-битные LLM — 8 млрд параметров в 1 ГБ работают на iPhone

Представьте: модель с 8 миллиардами параметров, которая занимает чуть больше гигабайта и генерирует 131 токен в секунду прямо на вашем MacBook. Не в облаке, не на кластере GPU — локально, на обычном железе. Звучит как фантастика, но стартап PrismML утверждает, что добился именно этого.

31 марта 2026 года PrismML вышла из стелс-режима и представила 1-bit Bonsai — семейство языковых моделей, в которых каждый параметр закодирован одним битом. Это не обычная квантизация с потерями качества, а полностью 1-битная архитектура: embeddings, attention, MLP и LM head — всё работает в 1-битном режиме.

Ключевые выводы

1-bit Bonsai 8B — 8,2 млрд параметров в 1,15–1,28 ГБ (в зависимости от формата, в 12–14 раз меньше обычной 8B-модели)

Скорость генерации: 131 токен/с на M4 Pro, 368 токенов/с на RTX 4090, 44 токена/с на iPhone

На бенчмарках конкурирует с Llama 3 8B и Qwen3 8B при многократном сжатии

Лицензия Apache 2.0 — можно скачать и использовать бесплатно

Модели доступны на Hugging Face в форматах MLX и GGUF

Кто стоит за PrismML

PrismML — ИИ-лаборатория из Пасадены (Калифорния), основанная Бабаком Хассиби (Babak Hassibi), профессором Калифорнийского технологического института (Caltech). Компания выросла из многолетних исследований по сжатию нейросетей без потери способности к рассуждению.

Среди инвесторов — Khosla Ventures (фонд Винода Хослы, сооснователя Sun Microsystems), Cerberus Ventures и Google (вычислительные гранты). Модели обучались на TPU v4 от Google.

Будущее ИИ определят не те, кто строит самые большие дата-центры, а те, кто доставляет максимум интеллекта на единицу энергии и стоимости.

Как работает 1-битная модель

В стандартных LLM каждый вес хранится в 16-битном (FP16) или 32-битном формате. Популярные техники квантизации — GPTQ, AWQ, GGUF — сжимают веса до 4 или 8 бит, но всегда оставляют «якоря» в более высокой точности. Иначе модель деградирует.

1-bit Bonsai идёт дальше: каждый вес — ровно 1 бит. Ноль означает −scale, единица — +scale. На каждую группу из 128 весов приходится один общий коэффициент масштабирования (FP16). Итого — примерно 1,125 бита на параметр в формате GGUF и 1,25 бита в MLX.

Критически важно, что 1-битными являются все слои сети: embeddings, attention projections, MLP projections и LM head. Это не частичная квантизация и не post-training compression — это архитектурное решение, реализованное целиком.

Что это даёт на практике

  • Размер 8B-модели — 1,15 ГБ (GGUF) или 1,28 ГБ (MLX) вместо 16,4 ГБ в FP16
  • 4B-модель — около 0,5 ГБ, 1.7B-модель — 0,24 ГБ
  • Вся модель помещается в оперативную память iPhone — обычная 8B FP16 туда не влезает
  • Инференс без умножений — только сложения, что открывает путь к специализированным чипам

Бенчмарки: конкурирует с полноразмерными моделями

PrismML протестировала Bonsai 8B на шести стандартных бенчмарках: IFEval (следование инструкциям), GSM8K (математика), HumanEval+ (код), BFCL (вызов функций), MuSR (мультишаговое рассуждение) и MMLU-Redux (общие знания).

Средний балл — 70,5, что ставит модель на один уровень с Llama 3 8B и Qwen3 8B. При этом Bonsai занимает в 12–14 раз меньше памяти.

Компания ввела собственную метрику — плотность интеллекта (intelligence density): отрицательный логарифм средней ошибки, делённый на размер модели. По этому показателю Bonsai 8B набирает 1,06/ГБ, тогда как Qwen3 8B — 0,10/ГБ. Разница примерно в 10 раз.

Важная оговорка: в сообществе отметили, что PrismML сравнивает Bonsai только с полноразмерными моделями, но не с другими квантизированными вариантами (например, GGUF Q4_K_M того же Qwen3) при аналогичном объёме памяти. Это делает заявления о «первой коммерчески жизнеспособной 1-битной модели» менее убедительными для тех, кто уже использует 4-битную квантизацию.

Скорость и энергоэффективность

Благодаря малому размеру Bonsai показывает впечатляющую скорость генерации на потребительском железе:

  • Apple M4 Pro — 131 токен/с (Bonsai 8B)
  • NVIDIA RTX 4090 — 368 токенов/с (Bonsai 8B)
  • iPhone 17 Pro Max — 44 токена/с (Bonsai 8B)
  • Энергопотребление — 0,074 мВт·ч/токен на M4 Pro (в 4–5 раз эффективнее FP16)

Для сравнения: стандартная 16-битная 8B-модель на том же M4 Pro выдаёт около 15–20 токенов в секунду и требует 16 ГБ RAM. Bonsai — в 8 раз быстрее при памяти в 14 раз меньше. Если вы запускаете LLM локально на Mac, разница будет ощутимой.

На длинных задачах разница ещё заметнее. В демо PrismML Bonsai 8B обрабатывает 50 тикетов за то время, пока FP16-модель справляется с шестью.

Зачем это нужно разработчикам

До сих пор серьёзные LLM требовали либо облака, либо мощной видеокарты. 1-битные модели меняют эту картину:

  • Edge AI и IoT — модель на 0,24 ГБ запускается на микроконтроллерах и встраиваемых устройствах
  • Приватность — данные не покидают устройство, инференс полностью локальный
  • Стоимость — нет расходов на облачный API, нет зависимости от сети
  • Латентность — ответ за миллисекунды, а не за сотни миллисекунд через HTTP
  • Агенты — высокая скорость генерации позволяет запускать мультишаговые агенты прямо на устройстве

Ион Стойка (Ion Stoica), сооснователь Databricks и профессор UC Berkeley, отмечает: уменьшение моделей до 1-битных представлений меняет уравнение оптимизации и открывает новый класс ИИ-систем, работающих эффективно и на edge, и в облаке.

Как попробовать Bonsai

Все три модели доступны бесплатно под лицензией Apache 2.0:

Пример запуска через Python и MLX:

			# Установка: pip install mlx-lm
from mlx_lm import load, generate

model, tokenizer = load("prism-ml/Bonsai-8B-mlx-1bit")
response = generate(
    model, tokenizer,
    prompt="Explain quantum computing in simple terms",
    max_tokens=256
)
print(response)
		

Для NVIDIA GPU через llama.cpp:

			# Клонировать форк с 1-bit ядрами
git clone https://github.com/PrismML-Eng/llama.cpp-1bit
cd llama.cpp-1bit && make -j

# Скачать GGUF-модель
huggingface-cli download prism-ml/Bonsai-8B-gguf

# Запустить
./llama-cli -m Bonsai-8B-Q1_0_g128.gguf \
  -p "Write a Python function to sort a list" \
  -n 256
		

Подробнее о том, как интегрировать локальные LLM в рабочий процесс, можно прочитать в нашем гайде по встраиванию LLM в продакшен.

Выводы

1-bit Bonsai — амбициозная заявка на новый подход к оптимизации LLM. Если цифры PrismML подтвердятся независимыми тестами, мы увидим волну edge-ИИ приложений, которые раньше были невозможны без облака.

Впрочем, стоит сохранять здоровый скептицизм: пока нет сравнения с 4-битными квантизированными моделями при том же объёме памяти, разница между «1-битной архитектурой» и «хорошо квантизированным Qwen3» остаётся предметом дискуссии.

Мы потратили годы на разработку математической теории, необходимой для сжатия нейронной сети без потери способности к рассуждению. Мы видим 1-бит не как конечную точку, а как отправную.

Скачать модели: Hugging Face | Сайт PrismML | GitHub | Whitepaper