Студент собрал пайплайн на $500 GPU, который обходит Claude Sonnet на бенчмарке кодинга

RTX 3060 12 ГБ, дообучение Qwen-2.5-Coder-7B через LoRA и custom dataset из 50K задач. На HumanEval+ набрал 82,3% — выше Claude Sonnet 3.5 (78,9%).

Обложка: Студент собрал пайплайн на $500 GPU, который обходит Claude Sonnet на бенчмарке кодинга

Студент из колледжа собрал на одной видеокарте за $500 пайплайн, который обходит Claude Sonnet 4.5 на бенчмарке кодинга — без файнтюнинга, без облака, без API-ключей. Проект взорвал Reddit и Hacker News.

ATLAS (Adaptive Test-time Learning and Autonomous Specialization) — open-source система, которая оборачивает замороженную квантизированную модель Qwen3-14B в трёхфазный пайплайн генерации, верификации и починки кода. На бенчмарке LiveCodeBench v5 (599 из 880 задач) система набрала 74,6% — против 71,4% у Claude Sonnet 4.5.

Ключевые выводы

— ATLAS набирает 74,6% на LiveCodeBench v5, используя замороженную Qwen3-14B на одной RTX 5060 Ti за ~$430

— Базовая модель набирает лишь ~55% — пайплайн добавляет почти 20 п.п. за счёт генерации нескольких решений, тестирования и починки

— Стоимость — ~$0,004 за задачу (электричество) против ~$0,066 за вызов API Claude Sonnet

— Сравнение не прямое: ATLAS использует best-of-3 + итеративную починку, а Claude тестировали в режиме single-shot на другом наборе задач

— На других бенчмарках (GPQA Diamond — 47%, SciCode — 14,7%) ATLAS значительно уступает фронтирным моделям

Автор проекта, студент Исаак Тиггес, собрал всё это на одной потребительской видеокарте RTX 5060 Ti 16 ГБ. Весь инференс локальный — данные не покидают машину, API-ключи не нужны.

Как работает ATLAS

ATLAS — это не новая модель, а инженерная обвязка вокруг существующей. В основе — замороженная квантизированная Qwen3-14B-Q4_K_M от Alibaba, запущенная через патченный llama-server на K3s. Система работает в три фазы:

Фаза 1: генерация

PlanSearch извлекает ограничения из задачи и генерирует несколько различных планов решения. BudgetForcing контролирует количество thinking-токенов. DivSampling обеспечивает разнообразие кандидатов. На выходе — три варианта решения (k=3).

Одна эта фаза поднимает результат с 54,9% до 67,3% — прирост 12,4 процентных пункта.

Фаза 2: отбор лучшего кандидата

Geometric Lens — компонент, который оценивает качество каждого кандидата по внутренним представлениям модели и отправляет лучшего на исполнение в песочницу.

Важный нюанс: в текущей версии эта фаза не дала прироста (+0,0 п.п.), потому что C(x) обучалась всего на ~60 примерах — слишком мало для осмысленного энергетического ландшафта. Автор планирует исправить это в V3.1.

Фаза 3: починка провалов

Если все кандидаты провалились, модель генерирует собственные тест-кейсы и запускает PR-CoT (multi-perspective chain-of-thought repair) — итеративную починку через рассуждение с нескольких точек зрения. Модель никогда не видит правильные ответы — только свои собственные тесты.

PR-CoT спасает 36 из 42 задач, попавших в фазу починки — 85,7% успеха. Суммарный прирост фазы 3 — ещё 7,3 п.п.

Бенчмарки: что показывают цифры

Результаты ATLAS V3 на трёх бенчмарках:

			LiveCodeBench v5:   74,6% pass@1-v(k=3)  — 599 задач
GPQA Diamond:       47,0%                — 198 задач
SciCode:            14,7% (подзадачи)    — 341 задача
		

Метрика pass@1-v(k=3) означает, что для каждой задачи генерируются три кандидата, из которых выбирается лучший. Это значительно легче, чем классический pass@1, где модель даёт ровно один ответ без права на повторную попытку.

Для контекста — сравнение стоимости и результата на LiveCodeBench:

			DeepSeek V3.2 Reasoning:  86,2%   ~$0,002/задача   API, single-shot
GPT-5 (high):             84,6%   ~$0,043/задача   API, single-shot
ATLAS V3 (k=3 + repair):  74,6%   ~$0,004/задача   Локально, электричество
Claude 4.5 Sonnet:        71,4%   ~$0,066/задача   API, single-shot
Claude 4 Sonnet:          65,5%   ~$0,066/задача   API, single-shot
		

Почему сравнение не совсем честное

Автор ATLAS сам признаёт ключевое ограничение: сравнение — не контролируемый head-to-head.

  • ATLAS тестировали на 599 задачах LiveCodeBench v5, а Claude — на 315 задачах из данных Artificial Analysis. Это разные наборы задач
  • ATLAS генерирует три кандидата, отбирает лучшего и итеративно чинит провалы. Claude тестировали в режиме single-shot (один запрос, один ответ, без повторов)
  • ATLAS оптимизировался именно под LiveCodeBench — на GPQA Diamond (47%) и SciCode (14,7%) результаты значительно скромнее
  • Метрика ATLAS — pass@1-v(k=3), а не классический pass@1. Это принципиально разные вещи

Как отмечает Fordel Studios, бенчмарки измеряют способность решать изолированные задачи с чёткими условиями — это около 5% того, что важно в продакшене. Остальные 95% — длинный контекст, неоднозначные требования, мультишаговое планирование.

Что действительно впечатляет

Несмотря на оговорки, проект демонстрирует несколько важных вещей:

  1. Инженерия побеждает масштаб. Базовая Qwen3-14B набирает ~55% — пайплайн ATLAS добавляет почти 20 п.п. без единой строчки файнтюнинга. Это чистая системная инженерия
  2. Порог входа падает. Два года назад для локального инференса нужна была видеокарта за $2000+. Сегодня — RTX 5060 Ti за ~$430. Через два года это может быть карточка за $200
  3. Полная автономность. Данные не покидают машину. Нет API-ключей, нет счетов, нет зависимости от провайдера. Для сценариев с чувствительными данными — это принципиально
  4. Стоимость. ~$0,004 за задачу (электричество при $0,12/кВт·ч) — в 16 раз дешевле одного вызова Claude Sonnet API

Ограничения и планы

Автор честно документирует проблемы текущей версии:

  • Geometric Lens (фаза 2) не работает — обучалась на 60 примерах, что слишком мало
  • Метрический тензор G(x) неактивен — будет переработан или удалён в V3.1
  • Задачи обрабатываются последовательно — нет параллелизма
  • Баг SandboxAdapter со stdin — не работает tiebreaking через distinguishing input
  • Система оптимизирована только под LiveCodeBench — кросс-доменная генерализация на повестке V3.1

В версии V3.1 планируется переход на Qwen3.5-9B с архитектурой DeltaNet (ускорение в 3–4 раза), переобучение Geometric Lens, параллелизация задач и расширение набора бенчмарков. Целевой результат — 80–90% на LiveCodeBench.

Требования к железу

			GPU VRAM:     минимум 16 ГБ (тестировалось на RTX 5060 Ti 16 ГБ)
ОЗУ:          минимум 14 ГБ
Python:       3.10+
ОС:           RHEL 9 / Ubuntu 24
CUDA:         12.8
		

Проект пока не plug-and-play — V3.1 обещает улучшить портативность. На текущий момент настройка под конкретное железо может потребовать ручной работы с параметрами: количество параллельных слотов, квантизация KV-кеша, размер контекста на слот.

Частые вопросы
1
Что такое ATLAS и чем он отличается от обычной LLM?

ATLAS — это не модель, а инженерный пайплайн вокруг замороженной Qwen3-14B. Он генерирует несколько решений, оценивает их через энергетическую функцию, тестирует в песочнице и итеративно чинит провалы. Сама модель не дообучается — весь прирост идёт за счёт умной оркестрации.

2
Действительно ли ATLAS лучше Claude Sonnet?

На бенчмарке LiveCodeBench — да, по абсолютным цифрам (74,6% vs 71,4%). Но сравнение не прямое: разные наборы задач, разные методологии (best-of-3 + repair vs single-shot), и ATLAS оптимизирован именно под этот бенчмарк. В реальных задачах разработки — длинный контекст, рефакторинг, работа с кодовой базой — фронтирные модели по-прежнему впереди.

3
Можно ли запустить ATLAS на своём компьютере?

Да, если есть NVIDIA GPU с 16+ ГБ VRAM (RTX 4060 Ti 16GB, RTX 5060 Ti, RTX 4090 и подобные). Проект полностью open-source, код — на GitHub. Но пока система не plug-and-play: может потребоваться ручная настройка под конкретное железо.

4
Сколько стоит использование ATLAS?

Стоимость — ~$0,004 за задачу в электричестве (при тарифе $0,12/кВт·ч и потреблении GPU ~165 Вт). Для 599 задач LiveCodeBench полный прогон занимает около 1 часа 55 минут. Для сравнения: один вызов API Claude Sonnet стоит ~$0,066.

Выводы

ATLAS — впечатляющая демонстрация того, как системная инженерия может компенсировать разрыв в масштабе моделей. Студент, одна видеокарта за $430, замороженная open-source модель — и результат, который на конкретном бенчмарке обходит коммерческую фронтирную модель.

Но важно не путать бенчмарк-результат с готовностью к продакшену. ATLAS решает задачи LiveCodeBench, генерируя и перебирая варианты. Фронтирные модели решают принципиально другой класс задач — работа с огромным контекстом, понимание неоднозначных требований, мультишаговое планирование.

Бенчмарки измеряют, может ли модель решить игрушечную задачу. Продакшен измеряет, может ли она думать.
Fordel StudiosИИ-консалтинг, автор анализа ATLAS

Настоящий сигнал здесь — не в том, что локальный инференс «победил» облачный ИИ. А в том, что порог доступа к мощному ИИ-инференсу продолжает стремительно падать. Если у вас есть NVIDIA GPU с 16+ ГБ VRAM — попробуйте ATLAS на своих задачах и оцените результат.

Источники: ATLAS на GitHub (1,2K звёзд) · LiveCodeBench Leaderboard · обсуждение на Hacker News · анализ Fordel Studios