Студент собрал пайплайн на $500 GPU, который обходит Claude Sonnet на бенчмарке кодинга
RTX 3060 12 ГБ, дообучение Qwen-2.5-Coder-7B через LoRA и custom dataset из 50K задач. На HumanEval+ набрал 82,3% — выше Claude Sonnet 3.5 (78,9%).
Новости Tproger, отредактировано
Студент из колледжа собрал на одной видеокарте за $500 пайплайн, который обходит Claude Sonnet 4.5 на бенчмарке кодинга — без файнтюнинга, без облака, без API-ключей. Проект взорвал Reddit и Hacker News.
ATLAS (Adaptive Test-time Learning and Autonomous Specialization) — open-source система, которая оборачивает замороженную квантизированную модель Qwen3-14B в трёхфазный пайплайн генерации, верификации и починки кода. На бенчмарке LiveCodeBench v5 (599 из 880 задач) система набрала 74,6% — против 71,4% у Claude Sonnet 4.5.
Ключевые выводы
— ATLAS набирает 74,6% на LiveCodeBench v5, используя замороженную Qwen3-14B на одной RTX 5060 Ti за ~$430
— Базовая модель набирает лишь ~55% — пайплайн добавляет почти 20 п.п. за счёт генерации нескольких решений, тестирования и починки
— Стоимость — ~$0,004 за задачу (электричество) против ~$0,066 за вызов API Claude Sonnet
— Сравнение не прямое: ATLAS использует best-of-3 + итеративную починку, а Claude тестировали в режиме single-shot на другом наборе задач
— На других бенчмарках (GPQA Diamond — 47%, SciCode — 14,7%) ATLAS значительно уступает фронтирным моделям
Автор проекта, студент Исаак Тиггес, собрал всё это на одной потребительской видеокарте RTX 5060 Ti 16 ГБ. Весь инференс локальный — данные не покидают машину, API-ключи не нужны.
Как работает ATLAS
ATLAS — это не новая модель, а инженерная обвязка вокруг существующей. В основе — замороженная квантизированная Qwen3-14B-Q4_K_M от Alibaba, запущенная через патченный llama-server на K3s. Система работает в три фазы:
Фаза 1: генерация
PlanSearch извлекает ограничения из задачи и генерирует несколько различных планов решения. BudgetForcing контролирует количество thinking-токенов. DivSampling обеспечивает разнообразие кандидатов. На выходе — три варианта решения (k=3).
Одна эта фаза поднимает результат с 54,9% до 67,3% — прирост 12,4 процентных пункта.
Фаза 2: отбор лучшего кандидата
Geometric Lens — компонент, который оценивает качество каждого кандидата по внутренним представлениям модели и отправляет лучшего на исполнение в песочницу.
Важный нюанс: в текущей версии эта фаза не дала прироста (+0,0 п.п.), потому что C(x) обучалась всего на ~60 примерах — слишком мало для осмысленного энергетического ландшафта. Автор планирует исправить это в V3.1.
Фаза 3: починка провалов
Если все кандидаты провалились, модель генерирует собственные тест-кейсы и запускает PR-CoT (multi-perspective chain-of-thought repair) — итеративную починку через рассуждение с нескольких точек зрения. Модель никогда не видит правильные ответы — только свои собственные тесты.
PR-CoT спасает 36 из 42 задач, попавших в фазу починки — 85,7% успеха. Суммарный прирост фазы 3 — ещё 7,3 п.п.
Бенчмарки: что показывают цифры
Результаты ATLAS V3 на трёх бенчмарках:
Метрика pass@1-v(k=3) означает, что для каждой задачи генерируются три кандидата, из которых выбирается лучший. Это значительно легче, чем классический pass@1, где модель даёт ровно один ответ без права на повторную попытку.
Для контекста — сравнение стоимости и результата на LiveCodeBench:
Почему сравнение не совсем честное
Автор ATLAS сам признаёт ключевое ограничение: сравнение — не контролируемый head-to-head.
- ATLAS тестировали на 599 задачах LiveCodeBench v5, а Claude — на 315 задачах из данных Artificial Analysis. Это разные наборы задач
- ATLAS генерирует три кандидата, отбирает лучшего и итеративно чинит провалы. Claude тестировали в режиме single-shot (один запрос, один ответ, без повторов)
- ATLAS оптимизировался именно под LiveCodeBench — на GPQA Diamond (47%) и SciCode (14,7%) результаты значительно скромнее
- Метрика ATLAS — pass@1-v(k=3), а не классический pass@1. Это принципиально разные вещи
Как отмечает Fordel Studios, бенчмарки измеряют способность решать изолированные задачи с чёткими условиями — это около 5% того, что важно в продакшене. Остальные 95% — длинный контекст, неоднозначные требования, мультишаговое планирование.
Что действительно впечатляет
Несмотря на оговорки, проект демонстрирует несколько важных вещей:
- Инженерия побеждает масштаб. Базовая Qwen3-14B набирает ~55% — пайплайн ATLAS добавляет почти 20 п.п. без единой строчки файнтюнинга. Это чистая системная инженерия
- Порог входа падает. Два года назад для локального инференса нужна была видеокарта за $2000+. Сегодня — RTX 5060 Ti за ~$430. Через два года это может быть карточка за $200
- Полная автономность. Данные не покидают машину. Нет API-ключей, нет счетов, нет зависимости от провайдера. Для сценариев с чувствительными данными — это принципиально
- Стоимость. ~$0,004 за задачу (электричество при $0,12/кВт·ч) — в 16 раз дешевле одного вызова Claude Sonnet API
Ограничения и планы
Автор честно документирует проблемы текущей версии:
- Geometric Lens (фаза 2) не работает — обучалась на 60 примерах, что слишком мало
- Метрический тензор G(x) неактивен — будет переработан или удалён в V3.1
- Задачи обрабатываются последовательно — нет параллелизма
- Баг SandboxAdapter со stdin — не работает tiebreaking через distinguishing input
- Система оптимизирована только под LiveCodeBench — кросс-доменная генерализация на повестке V3.1
В версии V3.1 планируется переход на Qwen3.5-9B с архитектурой DeltaNet (ускорение в 3–4 раза), переобучение Geometric Lens, параллелизация задач и расширение набора бенчмарков. Целевой результат — 80–90% на LiveCodeBench.
Требования к железу
Проект пока не plug-and-play — V3.1 обещает улучшить портативность. На текущий момент настройка под конкретное железо может потребовать ручной работы с параметрами: количество параллельных слотов, квантизация KV-кеша, размер контекста на слот.
Частые вопросы
Что такое ATLAS и чем он отличается от обычной LLM?
ATLAS — это не модель, а инженерный пайплайн вокруг замороженной Qwen3-14B. Он генерирует несколько решений, оценивает их через энергетическую функцию, тестирует в песочнице и итеративно чинит провалы. Сама модель не дообучается — весь прирост идёт за счёт умной оркестрации.
Действительно ли ATLAS лучше Claude Sonnet?
На бенчмарке LiveCodeBench — да, по абсолютным цифрам (74,6% vs 71,4%). Но сравнение не прямое: разные наборы задач, разные методологии (best-of-3 + repair vs single-shot), и ATLAS оптимизирован именно под этот бенчмарк. В реальных задачах разработки — длинный контекст, рефакторинг, работа с кодовой базой — фронтирные модели по-прежнему впереди.
Можно ли запустить ATLAS на своём компьютере?
Да, если есть NVIDIA GPU с 16+ ГБ VRAM (RTX 4060 Ti 16GB, RTX 5060 Ti, RTX 4090 и подобные). Проект полностью open-source, код — на GitHub. Но пока система не plug-and-play: может потребоваться ручная настройка под конкретное железо.
Сколько стоит использование ATLAS?
Стоимость — ~$0,004 за задачу в электричестве (при тарифе $0,12/кВт·ч и потреблении GPU ~165 Вт). Для 599 задач LiveCodeBench полный прогон занимает около 1 часа 55 минут. Для сравнения: один вызов API Claude Sonnet стоит ~$0,066.
Выводы
ATLAS — впечатляющая демонстрация того, как системная инженерия может компенсировать разрыв в масштабе моделей. Студент, одна видеокарта за $430, замороженная open-source модель — и результат, который на конкретном бенчмарке обходит коммерческую фронтирную модель.
Но важно не путать бенчмарк-результат с готовностью к продакшену. ATLAS решает задачи LiveCodeBench, генерируя и перебирая варианты. Фронтирные модели решают принципиально другой класс задач — работа с огромным контекстом, понимание неоднозначных требований, мультишаговое планирование.
Бенчмарки измеряют, может ли модель решить игрушечную задачу. Продакшен измеряет, может ли она думать.
Настоящий сигнал здесь — не в том, что локальный инференс «победил» облачный ИИ. А в том, что порог доступа к мощному ИИ-инференсу продолжает стремительно падать. Если у вас есть NVIDIA GPU с 16+ ГБ VRAM — попробуйте ATLAS на своих задачах и оцените результат.
Источники: ATLAS на GitHub (1,2K звёзд) · LiveCodeBench Leaderboard · обсуждение на Hacker News · анализ Fordel Studios