Перетяжка, Премия ТПрогер, 13.11
Перетяжка, Премия ТПрогер, 13.11
Перетяжка, Премия ТПрогер, 13.11

Какую AI-модель выбрать для программирования в декабре 2025

Спойлер: лидер не всегда очевиден, а самая быстрая модель обходит топовые решения по скорости в 4 раза

207 открытий1К показов
Какую AI-модель выбрать для программирования в декабре 2025

Мы проанализировали публичный лидерборд Bash Only, отзывы разработчиков на Reddit и собственный опыт работы в Cursor, чтобы составить честный рейтинг моделей. Спойлер: лидер не всегда очевиден, а самая быстрая модель обходит топовые решения по скорости в 4 раза.

Проблема с бенчмарками

С оценкой кодовых моделей есть фундаментальная проблема. Компании публикуют впечатляющие цифры — 75-81% на SWE-bench Verified — но тестируют в оптимальных для себя условиях: собственные агенты, собственные настройки, собственный harness. Воспроизвести эти результаты независимо невозможно.

Какую AI-модель выбрать для программирования в декабре 2025 1
SWE-bench Verified: self-reported данные компаний vs публичный лидерборд (7 декабря 2025)

Anthropic прямо признаёт это в своей документации: когда они улучшили тестовое окружение, GPT-5.1 показал только 48,6% на Terminal-Bench — а не те цифры, что заявляет OpenAI. В чужом сетапе модели резко теряют в производительности.

Какую AI-модель выбрать для программирования в декабре 2025 2
SWE-bench Verified: данные компаний vs публичный Bash Only лидерборд (декабрь 2025)

На графике видно расхождение между заявлениями компаний (синие столбцы) и публичным лидербордом Bash Only (зелёные столбцы). Разница составляет 6-10 процентных пунктов — это существенно.

Интересные наблюдения:

  • Gemini 3 Pro в публичном тесте почти догоняет Opus 4.5 (74% vs 74.6%), хотя по заявлениям Google разница должна быть больше
  • GPT-5.1 Codex Max в Bash Only уступает Claude Sonnet 4.5, несмотря на громкие заявления OpenAI
  • Claude Opus 4.5 лидирует в обоих рейтингах, но отрыв от конкурентов в независимом тесте меньше

Что такое Bash Only и почему это важно

Публичный лидерборд SWE-bench Bash Only на swebench.com даёт более честную картину. Все модели запускаются через одинаковый mini-SWE-agent с обычным bash-окружением. Никаких специальных оптимизаций, никакого подбора промптов под конкретную модель.

Но даже это не совсем то, что получится в реальной работе. В Cursor, Windsurf или других AI IDE — своя интеграция, свой контекст, свои системные промпты. Результаты будут отличаться.

Итоговый рейтинг

На основе субъективного опыта, отзывов разработчиков на Reddit и форумах, а также публичных бенчмарков — вот комплексный рейтинг моделей для использования в Cursor.

Какую AI-модель выбрать для программирования в декабре 2025 3
Итоговый рейтинг AI-моделей для Cursor — комплексная оценка на основе бенчмарков и практики

Комплексная оценка учитывает три фактора:

  • Self-reported — заявления компаний (показывает потенциал модели)
  • Bash Only — независимый публичный тест (показывает реальность)
  • Практика — отзывы разработчиков о реальном использовании

Обзор моделей

1. Claude Opus 4.5 — для сложных задач

Комплексная оценка: 82%

Флагман Anthropic, выпущенный 24 ноября 2025. Лидирует и в self-reported тестах (80.9%), и в независимом Bash Only (74.6%).

Когда использовать

  • Проектирование архитектуры
  • Глубокий рефакторинг legacy-кода
  • Отладка запутанных багов
  • Задачи, где важно качество, а не скорость

Особенности

  • Самая дорогая модель ($75 за 1M токенов вывода)
  • Самая медленная (~45 tok/s)
  • Выдаёт наиболее продуманные, структурированные решения
  • Хорошо понимает контекст больших кодовых баз

Рекомендация

Использовать для 20% задач, где критично качество.

2. GPT-5.1 Codex Max — попробуй бесплатно

Комплексная оценка: 79%

Специализированная версия от OpenAI для агентных задач. Главная фича — технология compaction: модель умеет работать с миллионами токенов через несколько контекстных окон.

Когда использовать

  • Код, который сразу идёт в продакшен
  • Работа с edge cases
  • Длительные сессии рефакторинга
  • Прямо сейчас — пока бесплатно

Особенности

  • Бесплатна в Cursor до 11 декабря 2025
  • По отзывам, выдаёт наиболее "деплоябельный" код — меньше лишнего, лучше обработка граничных случаев
  • В независимых тестах показывает себя хуже, чем в заявлениях OpenAI (68% vs 77.9%)

Рекомендация

Обязательно попробовать в оставшиеся дни бесплатного периода. Субъективно код получается чуть чище, чем у Opus.

3. Gemini 3 Pro — сюрприз рейтинга

Комплексная оценка: 77%

Неожиданно сильный результат от Google. 74% на Bash Only — почти на уровне Opus 4.5, при значительно меньшей цене.

Когда использовать

  • Быстрое прототипирование
  • Фронтенд и UI/UX задачи
  • Когда важен баланс цены и качества
  • Работа в экосистеме Google

Особенности

  • Быстрый (~100 tok/s)
  • Дешёвый ($21 за 1M токенов)
  • Отлично справляется с визуальными задачами
  • Код может требовать доработки для продакшена

Рекомендация

Отличный выбор для прототипов и MVP.

4. Claude Sonnet 4.5 — рабочая лошадка

Комплексная оценка: 75%

Младшая версия Opus, но с важным преимуществом: 70.6% на Bash Only — обходит даже Opus 4 и GPT-5.1 в этом независимом тесте.

Когда использовать

  • Ежедневная рутинная работа
  • Когда нужен баланс скорости и качества
  • Большой объём типовых задач
  • Ограниченный бюджет

Особенности

  • Хорошая скорость (~120 tok/s)
  • Умеренная цена ($25 за 1M токенов)
  • Стабильные, предсказуемые результаты
  • Хорошо работает с правильно структурированным контекстом

Рекомендация

Основная модель для 60-70% повседневных задач.

5. Cursor Composer — максимальная скорость

Комплексная оценка: 73%

Собственная модель Cursor, выпущенная 28 октября 2025. Обучена с reinforcement learning на реальных кодовых базах.

Когда использовать

  • TDD-циклы с быстрой итерацией
  • Интерактивная отладка
  • Когда критична скорость отклика
  • Мелкие правки и доработки

Особенности

  • 250 tok/s — в 4 раза быстрее конкурентов
  • Большинство задач выполняет менее чем за 30 секунд
  • Самая дешёвая модель ($10 за 1M токенов)
  • Публичных бенчмарков нет, но на практике работает хорошо

Рекомендация

Идеальна для этапа исполнения в связке с reasoning-моделью.

7. GPT-5.1 — базовая версия

Комплексная оценка: 71%

Универсальная модель OpenAI для широкого спектра задач. Контекст 400K токенов, выход до 128K.

Когда использовать

  • Универсальные задачи без специфики
  • Когда не нужны специализированные возможности
  • Работа с большим контекстом

Особенности

  • 76.3% по заявлениям OpenAI, ~66% в Bash Only
  • Средняя скорость и цена
  • Хорошая работа с длинным контекстом

Рекомендация

Запасной вариант, когда другие модели недоступны.

Скорость генерации

Какую AI-модель выбрать для программирования в декабре 2025 4
Скорость генерации кода в Cursor — Composer в 4 раза быстрее конкурентов

Скорость критична для интерактивной работы. Cursor Composer генерирует код в 4-5 раз быстрее самых медленных моделей. Это особенно заметно при частых мелких правках и TDD-циклах.

Claude Opus 4.5 — самая медленная модель. Это осознанный trade-off: больше времени на "размышление" = более качественный код. Но для быстрой итерации это неудобно.

Стоимость

Какую AI-модель выбрать для программирования в декабре 2025 5
Стоимость AI-моделей — цена за 1 миллион токенов вывода (декабрь 2025)

Разброс цен значительный — от $10 до $75 за миллион токенов вывода. Claude Opus 4.5 стоит в 7.5 раз дороже Cursor Composer.

Важно: GPT-5.1 Codex Max бесплатна до 11 декабря в Cursor. Это отличная возможность протестировать топовую модель без затрат.

Качество vs Скорость

Какую AI-модель выбрать для программирования в декабре 2025 6

Этот график помогает выбрать модель под конкретные приоритеты:

  • Правый верхний угол (быстро и качественно) — идеал, но пока недостижим. Ближе всего Gemini 3 Pro.
  • Левый верхний угол (качественно, но медленно) — Claude Opus 4.5. Для задач, где скорость не критична.
  • Правый нижний угол (быстро, но менее точно) — Cursor Composer. Для быстрой итерации с последующей проверкой.

Рекомендуемый workflow

Главный совет, который даёт максимальный буст продуктивности: разделять стадии планирования и реализации.

Этап 1: Планирование

Используй reasoning-модель (Claude Opus 4.5, o3) для:

  • Анализа задачи
  • Проектирования архитектуры
  • Разбиения на подзадачи
  • Продумывания edge cases

Этап 2: Реализация

Передай план быстрой модели (Cursor Composer, Claude Sonnet 4.5, GPT-5.1) для:

  • Генерации кода по готовому плану
  • Быстрой итерации
  • Мелких правок

Cursor 2.0 поддерживает это нативно — можно настроить разные модели для разных режимов работы.

Сводная таблица

Какую AI-модель выбрать для программирования в декабре 2025 7

Выводы

  1. Не доверяй заявлениям компаний вслепую — реальные результаты в независимых тестах Bash Only на 6-10% ниже self-reported данных.
  2. Комбинируй модели для максимальной продуктивности — reasoning-модель (Claude Opus 4.5) для планирования архитектуры, быстрая модель (Cursor Composer, Claude Sonnet 4.5) для реализации. Cursor 2.0 поддерживает это нативно.
  3. GPT-5.1 Codex Max стоит попробовать прямо сейчас — бесплатна в Cursor до 11 декабря 2025. По отзывам, выдаёт лучший код с лучшей обработкой граничных случаев.
  4. Gemini 3 Pro — недооценённая звезда — 74% на Bash Only (почти на уровне Opus 4.5) при цене втрое ниже ($21 vs $75 за 1M токенов). Отличный выбор для прототипов и MVP.
  5. Cursor Composer — король скорости — 250 tok/s против 45-120 tok/s у конкурентов. Идеален для TDD-циклов и быстрой итерации. Самая дешёвая модель ($10 за 1M токенов).
  6. Claude Opus 4.5 остаётся лидером для сложных задач — 80.9% в self-reported и 74.6% в Bash Only. Дорого ($75) и медленно (45 tok/s), но для архитектурных решений и отладки запутанных багов — лучший выбор.
Следите за новыми постами
Следите за новыми постами по любимым темам
207 открытий1К показов