Стартап из Caltech выпустил 1-битные LLM — 8 млрд параметров в 1 ГБ работают на iPhone
PrismML вышла из стелс-режима и представила 1-bit Bonsai — семейство языковых моделей, где каждый параметр закодирован одним битом. 8B модель занимает 1,15 ГБ и генерирует 131 токен/с на MacBook.
Новости TprogerПредставьте: модель с 8 миллиардами параметров, которая занимает чуть больше гигабайта и генерирует 131 токен в секунду прямо на вашем MacBook. Не в облаке, не на кластере GPU — локально, на обычном железе. Звучит как фантастика, но стартап PrismML утверждает, что добился именно этого.
31 марта 2026 года PrismML вышла из стелс-режима и представила 1-bit Bonsai — семейство языковых моделей, в которых каждый параметр закодирован одним битом. Это не обычная квантизация с потерями качества, а полностью 1-битная архитектура: embeddings, attention, MLP и LM head — всё работает в 1-битном режиме.
Ключевые выводы
1-bit Bonsai 8B — 8,2 млрд параметров в 1,15–1,28 ГБ (в зависимости от формата, в 12–14 раз меньше обычной 8B-модели)
Скорость генерации: 131 токен/с на M4 Pro, 368 токенов/с на RTX 4090, 44 токена/с на iPhone
На бенчмарках конкурирует с Llama 3 8B и Qwen3 8B при многократном сжатии
Лицензия Apache 2.0 — можно скачать и использовать бесплатно
Модели доступны на Hugging Face в форматах MLX и GGUF
Кто стоит за PrismML
PrismML — ИИ-лаборатория из Пасадены (Калифорния), основанная Бабаком Хассиби (Babak Hassibi), профессором Калифорнийского технологического института (Caltech). Компания выросла из многолетних исследований по сжатию нейросетей без потери способности к рассуждению.
Среди инвесторов — Khosla Ventures (фонд Винода Хослы, сооснователя Sun Microsystems), Cerberus Ventures и Google (вычислительные гранты). Модели обучались на TPU v4 от Google.
Будущее ИИ определят не те, кто строит самые большие дата-центры, а те, кто доставляет максимум интеллекта на единицу энергии и стоимости.
Как работает 1-битная модель
В стандартных LLM каждый вес хранится в 16-битном (FP16) или 32-битном формате. Популярные техники квантизации — GPTQ, AWQ, GGUF — сжимают веса до 4 или 8 бит, но всегда оставляют «якоря» в более высокой точности. Иначе модель деградирует.
1-bit Bonsai идёт дальше: каждый вес — ровно 1 бит. Ноль означает −scale, единица — +scale. На каждую группу из 128 весов приходится один общий коэффициент масштабирования (FP16). Итого — примерно 1,125 бита на параметр в формате GGUF и 1,25 бита в MLX.
Критически важно, что 1-битными являются все слои сети: embeddings, attention projections, MLP projections и LM head. Это не частичная квантизация и не post-training compression — это архитектурное решение, реализованное целиком.
Что это даёт на практике
- Размер 8B-модели — 1,15 ГБ (GGUF) или 1,28 ГБ (MLX) вместо 16,4 ГБ в FP16
- 4B-модель — около 0,5 ГБ, 1.7B-модель — 0,24 ГБ
- Вся модель помещается в оперативную память iPhone — обычная 8B FP16 туда не влезает
- Инференс без умножений — только сложения, что открывает путь к специализированным чипам
Бенчмарки: конкурирует с полноразмерными моделями
PrismML протестировала Bonsai 8B на шести стандартных бенчмарках: IFEval (следование инструкциям), GSM8K (математика), HumanEval+ (код), BFCL (вызов функций), MuSR (мультишаговое рассуждение) и MMLU-Redux (общие знания).
Средний балл — 70,5, что ставит модель на один уровень с Llama 3 8B и Qwen3 8B. При этом Bonsai занимает в 12–14 раз меньше памяти.
Компания ввела собственную метрику — плотность интеллекта (intelligence density): отрицательный логарифм средней ошибки, делённый на размер модели. По этому показателю Bonsai 8B набирает 1,06/ГБ, тогда как Qwen3 8B — 0,10/ГБ. Разница примерно в 10 раз.
Важная оговорка: в сообществе отметили, что PrismML сравнивает Bonsai только с полноразмерными моделями, но не с другими квантизированными вариантами (например, GGUF Q4_K_M того же Qwen3) при аналогичном объёме памяти. Это делает заявления о «первой коммерчески жизнеспособной 1-битной модели» менее убедительными для тех, кто уже использует 4-битную квантизацию.
Скорость и энергоэффективность
Благодаря малому размеру Bonsai показывает впечатляющую скорость генерации на потребительском железе:
- Apple M4 Pro — 131 токен/с (Bonsai 8B)
- NVIDIA RTX 4090 — 368 токенов/с (Bonsai 8B)
- iPhone 17 Pro Max — 44 токена/с (Bonsai 8B)
- Энергопотребление — 0,074 мВт·ч/токен на M4 Pro (в 4–5 раз эффективнее FP16)
Для сравнения: стандартная 16-битная 8B-модель на том же M4 Pro выдаёт около 15–20 токенов в секунду и требует 16 ГБ RAM. Bonsai — в 8 раз быстрее при памяти в 14 раз меньше. Если вы запускаете LLM локально на Mac, разница будет ощутимой.
На длинных задачах разница ещё заметнее. В демо PrismML Bonsai 8B обрабатывает 50 тикетов за то время, пока FP16-модель справляется с шестью.
Зачем это нужно разработчикам
До сих пор серьёзные LLM требовали либо облака, либо мощной видеокарты. 1-битные модели меняют эту картину:
- Edge AI и IoT — модель на 0,24 ГБ запускается на микроконтроллерах и встраиваемых устройствах
- Приватность — данные не покидают устройство, инференс полностью локальный
- Стоимость — нет расходов на облачный API, нет зависимости от сети
- Латентность — ответ за миллисекунды, а не за сотни миллисекунд через HTTP
- Агенты — высокая скорость генерации позволяет запускать мультишаговые агенты прямо на устройстве
Ион Стойка (Ion Stoica), сооснователь Databricks и профессор UC Berkeley, отмечает: уменьшение моделей до 1-битных представлений меняет уравнение оптимизации и открывает новый класс ИИ-систем, работающих эффективно и на edge, и в облаке.
Как попробовать Bonsai
Все три модели доступны бесплатно под лицензией Apache 2.0:
- Bonsai 8B MLX — для Apple Silicon (Mac, iPhone, iPad)
- Bonsai 8B GGUF — для llama.cpp (NVIDIA CUDA + Metal)
- Google Colab — попробовать в браузере без установки
- GitHub репозиторий с демо и примерами
Пример запуска через Python и MLX:
Для NVIDIA GPU через llama.cpp:
Подробнее о том, как интегрировать локальные LLM в рабочий процесс, можно прочитать в нашем гайде по встраиванию LLM в продакшен.
Выводы
1-bit Bonsai — амбициозная заявка на новый подход к оптимизации LLM. Если цифры PrismML подтвердятся независимыми тестами, мы увидим волну edge-ИИ приложений, которые раньше были невозможны без облака.
Впрочем, стоит сохранять здоровый скептицизм: пока нет сравнения с 4-битными квантизированными моделями при том же объёме памяти, разница между «1-битной архитектурой» и «хорошо квантизированным Qwen3» остаётся предметом дискуссии.
Мы потратили годы на разработку математической теории, необходимой для сжатия нейронной сети без потери способности к рассуждению. Мы видим 1-бит не как конечную точку, а как отправную.
Скачать модели: Hugging Face | Сайт PrismML | GitHub | Whitepaper