Caveman: плагин для Claude Code, который экономит 75% токенов через «пещерный» стиль
Плагин Caveman заставляет ИИ-ассистента отвечать как пещерный человек — только суть. Средняя экономия output-токенов составляет 65–75%, а научное исследование 2026 года подтвердило, что краткость повышает точность моделей.
Каждый раз, когда ИИ-ассистент объясняет вам очевидное в трёх абзацах, вы платите за это токенами. Output-токены дороже input, а модели вроде Claude и GPT-4 любят добавлять вводные фразы, повторять вопрос и объяснять то, о чём вас не спрашивали. Разработчики, которые активно используют ИИ в работе, тратят на это сотни долларов в месяц.
Плагин Caveman решает эту проблему радикально: он заставляет ИИ-ассистента отвечать как пещерный человек — только самое необходимое. Никакого «The reason your component is re-rendering is likely because...» — только «New object ref each render. Wrap in useMemo.» По данным автора, в среднем экономия составляет 75% output-токенов. На Hacker News проект набрал 797 очков, на GitHub — 2,8K звёзд за несколько дней.
Ключевые выводы
- Caveman сокращает output-токены в среднем на 65–75%, не затрагивая «мышление» модели
- Работает как плагин для Claude Code и OpenAI Codex через одну команду установки
- Три уровня сжатия: Lite, Full и Ultra — под разные задачи
- Научное исследование марта 2026 года подтвердило, что краткость ответов повышает точность моделей на 26 п.п.
До и после: как выглядят ответы
Вот реальный пример ответа на вопрос о повторном рендеринге React-компонента. Обычный режим — 69 токенов:
Тот же вопрос с Caveman — 19 токенов:
Смысл тот же, шум убран. Девиз проекта: «Why use many token when few do trick.»
Бенчмарки на реальных задачах
Автор замерил расход токенов на десяти типичных задачах через Claude API. Результаты:
- Объяснить баг с повторным рендером React: 1180 → 159 токенов (−87%)
- Исправить middleware для токена авторизации: 704 → 121 (−83%)
- Настроить пул соединений PostgreSQL: 2347 → 380 (−84%)
- Объяснить git rebase vs merge: 702 → 292 (−58%)
- Рефакторинг callback → async/await: 387 → 301 (−22%)
- Архитектура: микросервисы vs монолит: 446 → 310 (−30%)
- Ревью PR на безопасность: 678 → 398 (−41%)
- Docker multi-stage build: 1042 → 290 (−72%)
- Отладка race condition в PostgreSQL: 1200 → 232 (−81%)
- Реализовать React error boundary: 3454 → 456 (−87%)
- Среднее: 1214 → 294 токена (−65%)
Наибольший эффект там, где модель обычно «разогревается» перед ответом: объяснения, отладка, архитектурные обсуждения. На задачах с конкретным кодом (рефакторинг, ревью) выигрыш скромнее — модель и так пишет по делу.
Три уровня сжатия
Caveman предлагает три режима работы — в зависимости от задачи и допустимого уровня «дикости» ответов:
- Lite — убирает вводные фразы и повторения, сохраняет связный текст. Подходит для объяснений и документации.
- Full — сокращает до ключевых утверждений, телеграфный стиль. Оптимален для отладки и код-ревью.
- Ultra — максимальная экономия, ответы из 2–5 слов на пункт. Для быстрых уточнений и одностроковых подсказок.
Наука подтверждает: меньше слов — лучше ответ
В марте 2026 года вышла статья «Brevity Constraints Reverse Performance Hierarchies in Language Models», в которой исследователи проверили, как ограничения длины ответа влияют на качество. Вывод неожиданный: принудительное сокращение ответов улучшило точность моделей на 26 процентных пунктов. Авторы объясняют это тем, что при жёстком лимите модель вынуждена сразу формулировать суть, а не «думать вслух» в ответе.
Важно понимать: Caveman влияет только на output-токены — то, что модель пишет вам в ответ. Thinking-токены (внутренние рассуждения Claude) плагин не трогает. Как говорит сам проект: «Caveman no make brain smaller. Caveman make mouth smaller.»
Как установить
Плагин устанавливается одной командой через npx skills:
После установки плагин подключается к Claude Code или Codex и начинает работать автоматически. Уровень сжатия можно переключать в настройках или через аргументы команды.
Часто задаваемые вопросы
Влияет ли Caveman на качество ответов?
На простых технических задачах качество не страдает — модель отвечает точнее и по делу. На сложных архитектурных вопросах уровень Ultra может срезать нужный контекст, поэтому для таких задач рекомендуется Lite или Full. Исследование марта 2026 года показало, что краткость даже повышает точность на 26 п.п.
Затрагивает ли плагин thinking-токены?
Нет. Caveman работает только с output-токенами — финальным ответом модели. Внутренние рассуждения (thinking) модели остаются нетронутыми. Это означает, что «мозг» модели работает в полную силу, просто отвечает лаконичнее.
Какие ИИ-ассистенты поддерживаются?
На момент публикации плагин работает с Claude Code и OpenAI Codex. Проект активно развивается — следите за обновлениями в репозитории на GitHub.
Плагин бесплатный?
Да, Caveman — проект с открытым исходным кодом, распространяется бесплатно. Платите только за токены API тех моделей, которые используете — и именно их Caveman помогает экономить.
Caveman — редкий случай, когда оптимизация расходов не требует компромисса по качеству. Если вы платите за API Claude или GPT-4 и используете ИИ-ассистента для рутинных задач разработки, плагин окупится быстро. Средняя экономия 65% означает, что при счёте $100/месяц вы начнёте тратить $35. А пещерный стиль ответов — это просто побочный эффект, к которому привыкаешь за час работы.