OpenAI отказалась от SWE-bench Verified: бенчмарк сломан

Бенчмарк, по которому полтора года меряли LLM, признан сломанным самой OpenAI. 60% «нерешаемых» задач — баги тестов. Чем мерить кодинг теперь — разбираем.

Обложка: OpenAI отказалась от SWE-bench Verified: бенчмарк сломан

Если вы оцениваете LLM по показателю SWE-bench Verified — это число больше ни о чём не говорит. OpenAI официально объявила, что больше не публикует результаты на бенчмарке, который полтора года был основным мерилом «способности модели писать код». Их аудит показал: из 138 «нерешаемых» задач, которые проверяли вручную, 54% оказались сломаны на уровне теста — модель отвечает правильно, но проверка засчитывает ошибку. А поскольку 138 — это сложнейшая часть Verified, OpenAI оценивает: на полном бенчмарке доля сломанных задач превышает 60%. Плюс к этому — контаминация: данные бенчмарка попали в обучающие выборки frontier-моделей.

Аудит провела команда Frontier Evals в OpenAI; среди подписавших пост — Миа Глезе (VP of Research). Команда призывает индустрию переключиться на SWE-bench Pro, построенный на приватных репозиториях. Деталь, важная для контекста: на Pro лидерборде OpenAI не на первом месте — лидируют другие frontier-лаборатории.

Кратко
  • OpenAI прекращает публиковать результаты на SWE-bench Verified
  • Поводы: 60%+ нерешаемых задач — баги тестов, не модели
  • В аудит вошли 138 задач из Verified-набора из 500 задач
  • Контаминация: GPT-5.2, Claude Opus 4.5, Gemini 3 Flash могли видеть задачи на трейне
  • Модели воспроизводят gold patches verbatim из одного Task ID
  • Замена: SWE-bench Pro на приватных репозиториях, длиннее задачи (1–4+ часа)
  • Кто авторы решения: Миа Глезе, Оливия Уоткинс — оригинальные авторы Verified

Почему SWE-bench Verified больше не работает

Чтобы понять масштаб, нужен контекст. SWE-bench Verified — это выверенный набор задач из SWE-bench от Princeton-команды: 500 задач, отобранных в 2024 году примерно сотней экспертных software engineer'ов. Каждую задачу пересматривали независимо три эксперта. Это была попытка зафиксировать честный «золотой стандарт» оценки кодинг-агентов: дано описание GitHub-issue, дай патч, прогони тесты — passed/failed. Простой, повторяемый, легко сравнимый между моделями.

Полтора года это работало. Все frontier-релизы рапортовали о SWE-bench Verified, и метрика стала де-факто индустриальным KPI. Но к концу 2025 — началу 2026 модели достигли 80%+ и началась 0,1%-«игра шахмат»: каждый новый релиз показывал прирост на доли процента, и это уже мало о чём говорило.

Проблема 1: тесты неисправны

OpenAI взяла подмножество в 138 задач (~27,6% от Verified), которые модели часто проваливали, и поручила людям-инженерам перепроверить их вручную. В больше чем половине найденная проблема — не у модели, а у теста:

  • 49 тестов слишком узкие — проверяют конкретное название аргумента или функции, не упомянутое в задаче. Модель выбрала разумное альтернативное имя — тест fail.
  • 26 тестов слишком широкие — проверяют фичи, которых в описании задачи вообще нет. Модель решает поставленную задачу — тест fail, потому что ожидает дополнительную нерелевантную функциональность.

Итого: 75 из 138 проверенных задач (54%) — фундаментально кривые. С учётом того, что эти 138 — самые сложные из 500, оценка «больше 60% нерешаемых задач» относится именно к остатку, который не решали лучшие модели. То есть SWE-bench Verified для frontier-моделей измеряет уже не «может ли модель решить задачу», а «угадает ли модель, какое имя аргумента ожидает тест».

Если вы прошли тест — наверное, вы решили задачу хорошо. Но если вы тест провалили, это не значит, что ваша имплементация плохая. Мы принимаем только очень узкие версии решений и не покрываем всё пространство жизнеспособных хороших решений.
Миа ГлезеVP of Research, Frontier Evals, OpenAI

Проблема 2: тренировочная контаминация

Исходные задачи SWE-bench собирались из публичных GitHub-репозиториев — Django, Flask, scikit-learn и других популярных проектов. Когда OpenAI публиковала Verified, к данным прицеплялись canary-строки для отлова случаев обучения на тесте. Но первоисточник — открытые репы. Любая модель, обученная на дампе GitHub, в принципе видела эти задачи — только без явной разметки «это бенчмарк».

Команда OpenAI разработала отдельный contamination auditor — агента, которому дают Task ID из SWE-bench Verified и который пытается вытащить из целевой модели её знания о задаче. Результаты, по словам авторов:

  • GPT-5.2 — воспроизводит исходный gold patch verbatim из одного только Task ID
  • Claude Opus 4.5 — то же самое, на части задач
  • Gemini-семейство — частичная контаминация на ряде задач
  • Все остальные frontier-модели — следы знакомства с задачами в той или иной мере

Триггером, который запустил исследование, стал curious case: GPT-5.2 решал «нерешаемые» задачи. Чтение chain-of-thought показало: модель писала «мне кажется, в какой-то поздней версии этого репозитория добавили этот аргумент, попробую его». Аргумент не упоминался в задании, но был в тестах. Без контаминации вытащить такую деталь невозможно.

Что не так с прогрессом моделей

Когда benchmark разменивает четвёртый-пятый знак после запятой, он уже не измеряет то, ради чего создавался. Между Claude Opus 4.5 и 4.6 разница на SWE-bench Verified — 0,1 процентного пункта (вниз). Это шум, не сигнал. Между тем разработчики чувствуют качественную разницу при работе с моделями: agentic-цепочки, дизайн-решения, код-стиль, поддерживаемость. Но ни одну из этих метрик Verified не ловит.

Сейчас мы измеряем не то, что хотим — кодинг-способность агентов. А способность агента угадать, как назвать конкретную функцию.
Миа ГлезеVP of Research, Frontier Evals, OpenAI

Чем заменяют — SWE-bench Pro

SWE-bench Pro — бенчмарк Scale AI, который OpenAI начала рекомендовать как замену. Главные отличия:

  • Приватные репозитории. Задачи строятся на закрытых кодовых базах, недоступных для скрейпинга. Контаминация структурно невозможна.
  • Сложнее задачи. В Verified ~90% задач — для эксперта меньше часа. В Pro есть категории «1–4 часа» и «4+ часов».
  • Шире покрытие. Множество репозиториев и языков, разные типы проблем — не только Python-фичи.
  • Простор для роста. Pro не насыщен — даже у текущих SOTA моделей есть, куда улучшаться.

Любопытная деталь: на SWE-bench Pro лидерборде OpenAI не лидирует — лучше показывают себя модели других лабораторий. Команда Frontier Evals считает это разовой жертвой ради академической чистоты: индустрии нужен бенчмарк, которому можно доверять, даже если «свои» модели в нём не первые.

Куда пойдут coding-evals дальше

И SWE-bench Pro — не финал. По словам команды OpenAI, индустрия должна двигаться к более качественным метрикам:

  • Долгие задачи на часы и дни (не 15 минут)
  • Открытые design decisions, где у модели есть свобода выбора
  • Качество кода и поддерживаемость
  • Реальное product-building, а не abstract bug-fix
  • Реальные usage- и impact-метрики
  • Human-in-the-loop оценка, где нужны эксперты с domain knowledge

Шаблон, на который ориентируется команда — GDPval, бенчмарк, оценивающий, может ли LLM выполнять реальную «белые воротнички»-работу. В нём 44 профессии в 9 секторах экономики, и под каждую нанимались эксперты из отрасли для создания задач и rubric-оценки. Подход дорогой, но позволяет мерить нечёткие вещи вроде дизайн-вкуса.

FAQ
1
Это значит, что результаты GPT-5.2 на SWE-bench неактуальны?

Скорее «не сравнимы». Высокий процент решённых задач — это всё ещё что-то, но что именно — теперь неясно. Часть очков получена за угадывание имён аргументов, часть — благодаря контаминации. Если выбираете между моделями для своего сетапа — смотрите на SWE-bench Pro, на agentic-эвалы вроде Aider или просто прогоняйте на своём коде.

2
Можно ли «починить» SWE-bench Verified?

Можно — переразметить тесты, выкинуть кривые, добавить canaries. Но Princeton-авторы и OpenAI явно говорят: усилие непропорционально пользе. Лучше двигаться к новым бенчмаркам, чем чинить отживший. Сам набор, скорее всего, останется в обороте у академии как исторический baseline.

3
Что разработчику делать сегодня?

Перестать использовать SWE-bench Verified как единственный критерий выбора модели. Если важна автономность — смотрите на agentic-бенчмарки (Aider, OpenHands). Для замеров в своём проекте лучше всего работают приватные эвалы: набор репрезентативных задач из вашей кодовой базы, прогоняемых одним и тем же протоколом для всех моделей.

4
SWE-bench Pro — он публичный?

Только лидерборд и часть задач. Полный набор задач закрыт — это и есть гарантия, что индустрия не сможет на нём натренироваться. Тестировать модели на нём можно через Scale AI как сервис.

5
Контаминация — это намеренное cheating от лабораторий?

По словам Глезе и Уоткинс, в большинстве случаев — нет. Просто данные SWE-bench собирались с публичных GitHub-репов (Django, Flask, scikit-learn), которые входят в типичный pretraining-корпус любой большой модели. Задачи и решения вытаскиваются из коммитов и PR-обсуждений. Без явных canary-меток отфильтровать их сложно.

Что делать прямо сейчас

  1. Если у вас во внутренних метриках или маркетинге есть SWE-bench Verified — пометьте как deprecated. После публикации OpenAI коллеги в индустрии воспримут эти числа скептически.
  2. Перед апгрейдом модели в продакшене — прогоните её на 20–50 задач из вашей кодовой базы. Это надёжнее любого публичного бенчмарка.
  3. Для общей картины смотрите лидерборд SWE-bench Pro или агрегированные оценки Artificial Analysis.
  4. Для агентских сценариев (open-ended, multi-step) — добавьте Aider Polyglot Leaderboard в список своих метрик: он измеряет реальные multi-edit-задачи.
  5. Если строите свой бенчмарк — не публикуйте задачи. Публичный бенчмарк через год становится частью обучающих выборок и теряет силу.

Выводы

История SWE-bench Verified — это первый громкий случай, когда крупная ИИ-лаборатория публично отказывается от собственного flagship-бенчмарка из-за того, что он насыщен и контаминирован. Раньше так уходили старые бенчмарки (HumanEval, MBPP) — но они уходили тихо, без «официального некролога». Здесь — открытое признание: индустриальный KPI больше не работает, мы переключаемся.

Для пользователей это означает простое: считать ИИ-модели по одному числу больше нельзя. Нужен набор метрик — agentic, code-quality, real-world — и здравый скепсис к любому одиночному показателю, каким бы старым и уважаемым он ни был.

Источники: OpenAI: Why SWE-bench Verified no longer measures frontier coding capabilities, Latent Space: интервью с Миа Глезе и Оливией Уоткинс, SWE-bench Pro Leaderboard.