Caveman: плагин для Claude Code, который экономит 75% токенов через «пещерный» стиль

Плагин Caveman заставляет ИИ-ассистента отвечать как пещерный человек — только суть. Средняя экономия output-токенов составляет 65–75%, а научное исследование 2026 года подтвердило, что краткость повышает точность моделей.

Обложка: Caveman: плагин для Claude Code, который экономит 75% токенов через «пещерный» стиль

Каждый раз, когда ИИ-ассистент объясняет вам очевидное в трёх абзацах, вы платите за это токенами. Output-токены дороже input, а модели вроде Claude и GPT-4 любят добавлять вводные фразы, повторять вопрос и объяснять то, о чём вас не спрашивали. Разработчики, которые активно используют ИИ в работе, тратят на это сотни долларов в месяц.

Плагин Caveman решает эту проблему радикально: он заставляет ИИ-ассистента отвечать как пещерный человек — только самое необходимое. Никакого «The reason your component is re-rendering is likely because...» — только «New object ref each render. Wrap in useMemo.» По данным автора, в среднем экономия составляет 75% output-токенов. На Hacker News проект набрал 797 очков, на GitHub — 2,8K звёзд за несколько дней.

Ключевые выводы
  • Caveman сокращает output-токены в среднем на 65–75%, не затрагивая «мышление» модели
  • Работает как плагин для Claude Code и OpenAI Codex через одну команду установки
  • Три уровня сжатия: Lite, Full и Ultra — под разные задачи
  • Научное исследование марта 2026 года подтвердило, что краткость ответов повышает точность моделей на 26 п.п.

До и после: как выглядят ответы

Вот реальный пример ответа на вопрос о повторном рендеринге React-компонента. Обычный режим — 69 токенов:

			The reason your React component is re-rendering is likely because
you're creating a new object reference on each render cycle.
When you pass an inline object as a prop, React sees it as a new
reference every time, which triggers a re-render even if the values
are the same. Consider using useMemo or moving the object outside
the component to maintain a stable reference.
		

Тот же вопрос с Caveman — 19 токенов:

			New object ref each render.
Inline object prop = new ref = re-render.
Wrap in useMemo.
		

Смысл тот же, шум убран. Девиз проекта: «Why use many token when few do trick.»

Бенчмарки на реальных задачах

Автор замерил расход токенов на десяти типичных задачах через Claude API. Результаты:

  • Объяснить баг с повторным рендером React: 1180 → 159 токенов (−87%)
  • Исправить middleware для токена авторизации: 704 → 121 (−83%)
  • Настроить пул соединений PostgreSQL: 2347 → 380 (−84%)
  • Объяснить git rebase vs merge: 702 → 292 (−58%)
  • Рефакторинг callback → async/await: 387 → 301 (−22%)
  • Архитектура: микросервисы vs монолит: 446 → 310 (−30%)
  • Ревью PR на безопасность: 678 → 398 (−41%)
  • Docker multi-stage build: 1042 → 290 (−72%)
  • Отладка race condition в PostgreSQL: 1200 → 232 (−81%)
  • Реализовать React error boundary: 3454 → 456 (−87%)
  • Среднее: 1214 → 294 токена (−65%)

Наибольший эффект там, где модель обычно «разогревается» перед ответом: объяснения, отладка, архитектурные обсуждения. На задачах с конкретным кодом (рефакторинг, ревью) выигрыш скромнее — модель и так пишет по делу.

Три уровня сжатия

Caveman предлагает три режима работы — в зависимости от задачи и допустимого уровня «дикости» ответов:

  • Lite — убирает вводные фразы и повторения, сохраняет связный текст. Подходит для объяснений и документации.
  • Full — сокращает до ключевых утверждений, телеграфный стиль. Оптимален для отладки и код-ревью.
  • Ultra — максимальная экономия, ответы из 2–5 слов на пункт. Для быстрых уточнений и одностроковых подсказок.

Наука подтверждает: меньше слов — лучше ответ

В марте 2026 года вышла статья «Brevity Constraints Reverse Performance Hierarchies in Language Models», в которой исследователи проверили, как ограничения длины ответа влияют на качество. Вывод неожиданный: принудительное сокращение ответов улучшило точность моделей на 26 процентных пунктов. Авторы объясняют это тем, что при жёстком лимите модель вынуждена сразу формулировать суть, а не «думать вслух» в ответе.

Важно понимать: Caveman влияет только на output-токены — то, что модель пишет вам в ответ. Thinking-токены (внутренние рассуждения Claude) плагин не трогает. Как говорит сам проект: «Caveman no make brain smaller. Caveman make mouth smaller.»

Как установить

Плагин устанавливается одной командой через npx skills:

			npx skills add JuliusBrussee/caveman
		

После установки плагин подключается к Claude Code или Codex и начинает работать автоматически. Уровень сжатия можно переключать в настройках или через аргументы команды.

Часто задаваемые вопросы
1
Влияет ли Caveman на качество ответов?

На простых технических задачах качество не страдает — модель отвечает точнее и по делу. На сложных архитектурных вопросах уровень Ultra может срезать нужный контекст, поэтому для таких задач рекомендуется Lite или Full. Исследование марта 2026 года показало, что краткость даже повышает точность на 26 п.п.

2
Затрагивает ли плагин thinking-токены?

Нет. Caveman работает только с output-токенами — финальным ответом модели. Внутренние рассуждения (thinking) модели остаются нетронутыми. Это означает, что «мозг» модели работает в полную силу, просто отвечает лаконичнее.

3
Какие ИИ-ассистенты поддерживаются?

На момент публикации плагин работает с Claude Code и OpenAI Codex. Проект активно развивается — следите за обновлениями в репозитории на GitHub.

4
Плагин бесплатный?

Да, Caveman — проект с открытым исходным кодом, распространяется бесплатно. Платите только за токены API тех моделей, которые используете — и именно их Caveman помогает экономить.

Caveman — редкий случай, когда оптимизация расходов не требует компромисса по качеству. Если вы платите за API Claude или GPT-4 и используете ИИ-ассистента для рутинных задач разработки, плагин окупится быстро. Средняя экономия 65% означает, что при счёте $100/месяц вы начнёте тратить $35. А пещерный стиль ответов — это просто побочный эффект, к которому привыкаешь за час работы.

Рекомендуем