OpenAI отказалась от SWE-bench Verified: бенчмарк сломан
Бенчмарк, по которому полтора года меряли LLM, признан сломанным самой OpenAI. 60% «нерешаемых» задач — баги тестов. Чем мерить кодинг теперь — разбираем.
Новости TprogerЕсли вы оцениваете LLM по показателю SWE-bench Verified — это число больше ни о чём не говорит. OpenAI официально объявила, что больше не публикует результаты на бенчмарке, который полтора года был основным мерилом «способности модели писать код». Их аудит показал: из 138 «нерешаемых» задач, которые проверяли вручную, 54% оказались сломаны на уровне теста — модель отвечает правильно, но проверка засчитывает ошибку. А поскольку 138 — это сложнейшая часть Verified, OpenAI оценивает: на полном бенчмарке доля сломанных задач превышает 60%. Плюс к этому — контаминация: данные бенчмарка попали в обучающие выборки frontier-моделей.
Аудит провела команда Frontier Evals в OpenAI; среди подписавших пост — Миа Глезе (VP of Research). Команда призывает индустрию переключиться на SWE-bench Pro, построенный на приватных репозиториях. Деталь, важная для контекста: на Pro лидерборде OpenAI не на первом месте — лидируют другие frontier-лаборатории.
Кратко
- OpenAI прекращает публиковать результаты на SWE-bench Verified
- Поводы: 60%+ нерешаемых задач — баги тестов, не модели
- В аудит вошли 138 задач из Verified-набора из 500 задач
- Контаминация: GPT-5.2, Claude Opus 4.5, Gemini 3 Flash могли видеть задачи на трейне
- Модели воспроизводят gold patches verbatim из одного Task ID
- Замена: SWE-bench Pro на приватных репозиториях, длиннее задачи (1–4+ часа)
- Кто авторы решения: Миа Глезе, Оливия Уоткинс — оригинальные авторы Verified
Почему SWE-bench Verified больше не работает
Чтобы понять масштаб, нужен контекст. SWE-bench Verified — это выверенный набор задач из SWE-bench от Princeton-команды: 500 задач, отобранных в 2024 году примерно сотней экспертных software engineer'ов. Каждую задачу пересматривали независимо три эксперта. Это была попытка зафиксировать честный «золотой стандарт» оценки кодинг-агентов: дано описание GitHub-issue, дай патч, прогони тесты — passed/failed. Простой, повторяемый, легко сравнимый между моделями.
Полтора года это работало. Все frontier-релизы рапортовали о SWE-bench Verified, и метрика стала де-факто индустриальным KPI. Но к концу 2025 — началу 2026 модели достигли 80%+ и началась 0,1%-«игра шахмат»: каждый новый релиз показывал прирост на доли процента, и это уже мало о чём говорило.
Проблема 1: тесты неисправны
OpenAI взяла подмножество в 138 задач (~27,6% от Verified), которые модели часто проваливали, и поручила людям-инженерам перепроверить их вручную. В больше чем половине найденная проблема — не у модели, а у теста:
- 49 тестов слишком узкие — проверяют конкретное название аргумента или функции, не упомянутое в задаче. Модель выбрала разумное альтернативное имя — тест fail.
- 26 тестов слишком широкие — проверяют фичи, которых в описании задачи вообще нет. Модель решает поставленную задачу — тест fail, потому что ожидает дополнительную нерелевантную функциональность.
Итого: 75 из 138 проверенных задач (54%) — фундаментально кривые. С учётом того, что эти 138 — самые сложные из 500, оценка «больше 60% нерешаемых задач» относится именно к остатку, который не решали лучшие модели. То есть SWE-bench Verified для frontier-моделей измеряет уже не «может ли модель решить задачу», а «угадает ли модель, какое имя аргумента ожидает тест».
Если вы прошли тест — наверное, вы решили задачу хорошо. Но если вы тест провалили, это не значит, что ваша имплементация плохая. Мы принимаем только очень узкие версии решений и не покрываем всё пространство жизнеспособных хороших решений.
Проблема 2: тренировочная контаминация
Исходные задачи SWE-bench собирались из публичных GitHub-репозиториев — Django, Flask, scikit-learn и других популярных проектов. Когда OpenAI публиковала Verified, к данным прицеплялись canary-строки для отлова случаев обучения на тесте. Но первоисточник — открытые репы. Любая модель, обученная на дампе GitHub, в принципе видела эти задачи — только без явной разметки «это бенчмарк».
Команда OpenAI разработала отдельный contamination auditor — агента, которому дают Task ID из SWE-bench Verified и который пытается вытащить из целевой модели её знания о задаче. Результаты, по словам авторов:
- GPT-5.2 — воспроизводит исходный gold patch verbatim из одного только Task ID
- Claude Opus 4.5 — то же самое, на части задач
- Gemini-семейство — частичная контаминация на ряде задач
- Все остальные frontier-модели — следы знакомства с задачами в той или иной мере
Триггером, который запустил исследование, стал curious case: GPT-5.2 решал «нерешаемые» задачи. Чтение chain-of-thought показало: модель писала «мне кажется, в какой-то поздней версии этого репозитория добавили этот аргумент, попробую его». Аргумент не упоминался в задании, но был в тестах. Без контаминации вытащить такую деталь невозможно.
Что не так с прогрессом моделей
Когда benchmark разменивает четвёртый-пятый знак после запятой, он уже не измеряет то, ради чего создавался. Между Claude Opus 4.5 и 4.6 разница на SWE-bench Verified — 0,1 процентного пункта (вниз). Это шум, не сигнал. Между тем разработчики чувствуют качественную разницу при работе с моделями: agentic-цепочки, дизайн-решения, код-стиль, поддерживаемость. Но ни одну из этих метрик Verified не ловит.
Сейчас мы измеряем не то, что хотим — кодинг-способность агентов. А способность агента угадать, как назвать конкретную функцию.
Чем заменяют — SWE-bench Pro
SWE-bench Pro — бенчмарк Scale AI, который OpenAI начала рекомендовать как замену. Главные отличия:
- Приватные репозитории. Задачи строятся на закрытых кодовых базах, недоступных для скрейпинга. Контаминация структурно невозможна.
- Сложнее задачи. В Verified ~90% задач — для эксперта меньше часа. В Pro есть категории «1–4 часа» и «4+ часов».
- Шире покрытие. Множество репозиториев и языков, разные типы проблем — не только Python-фичи.
- Простор для роста. Pro не насыщен — даже у текущих SOTA моделей есть, куда улучшаться.
Любопытная деталь: на SWE-bench Pro лидерборде OpenAI не лидирует — лучше показывают себя модели других лабораторий. Команда Frontier Evals считает это разовой жертвой ради академической чистоты: индустрии нужен бенчмарк, которому можно доверять, даже если «свои» модели в нём не первые.
Куда пойдут coding-evals дальше
И SWE-bench Pro — не финал. По словам команды OpenAI, индустрия должна двигаться к более качественным метрикам:
- Долгие задачи на часы и дни (не 15 минут)
- Открытые design decisions, где у модели есть свобода выбора
- Качество кода и поддерживаемость
- Реальное product-building, а не abstract bug-fix
- Реальные usage- и impact-метрики
- Human-in-the-loop оценка, где нужны эксперты с domain knowledge
Шаблон, на который ориентируется команда — GDPval, бенчмарк, оценивающий, может ли LLM выполнять реальную «белые воротнички»-работу. В нём 44 профессии в 9 секторах экономики, и под каждую нанимались эксперты из отрасли для создания задач и rubric-оценки. Подход дорогой, но позволяет мерить нечёткие вещи вроде дизайн-вкуса.
FAQ
Это значит, что результаты GPT-5.2 на SWE-bench неактуальны?
Скорее «не сравнимы». Высокий процент решённых задач — это всё ещё что-то, но что именно — теперь неясно. Часть очков получена за угадывание имён аргументов, часть — благодаря контаминации. Если выбираете между моделями для своего сетапа — смотрите на SWE-bench Pro, на agentic-эвалы вроде Aider или просто прогоняйте на своём коде.
Можно ли «починить» SWE-bench Verified?
Можно — переразметить тесты, выкинуть кривые, добавить canaries. Но Princeton-авторы и OpenAI явно говорят: усилие непропорционально пользе. Лучше двигаться к новым бенчмаркам, чем чинить отживший. Сам набор, скорее всего, останется в обороте у академии как исторический baseline.
Что разработчику делать сегодня?
Перестать использовать SWE-bench Verified как единственный критерий выбора модели. Если важна автономность — смотрите на agentic-бенчмарки (Aider, OpenHands). Для замеров в своём проекте лучше всего работают приватные эвалы: набор репрезентативных задач из вашей кодовой базы, прогоняемых одним и тем же протоколом для всех моделей.
SWE-bench Pro — он публичный?
Только лидерборд и часть задач. Полный набор задач закрыт — это и есть гарантия, что индустрия не сможет на нём натренироваться. Тестировать модели на нём можно через Scale AI как сервис.
Контаминация — это намеренное cheating от лабораторий?
По словам Глезе и Уоткинс, в большинстве случаев — нет. Просто данные SWE-bench собирались с публичных GitHub-репов (Django, Flask, scikit-learn), которые входят в типичный pretraining-корпус любой большой модели. Задачи и решения вытаскиваются из коммитов и PR-обсуждений. Без явных canary-меток отфильтровать их сложно.
Что делать прямо сейчас
- Если у вас во внутренних метриках или маркетинге есть SWE-bench Verified — пометьте как deprecated. После публикации OpenAI коллеги в индустрии воспримут эти числа скептически.
- Перед апгрейдом модели в продакшене — прогоните её на 20–50 задач из вашей кодовой базы. Это надёжнее любого публичного бенчмарка.
- Для общей картины смотрите лидерборд SWE-bench Pro или агрегированные оценки Artificial Analysis.
- Для агентских сценариев (open-ended, multi-step) — добавьте Aider Polyglot Leaderboard в список своих метрик: он измеряет реальные multi-edit-задачи.
- Если строите свой бенчмарк — не публикуйте задачи. Публичный бенчмарк через год становится частью обучающих выборок и теряет силу.
Выводы
История SWE-bench Verified — это первый громкий случай, когда крупная ИИ-лаборатория публично отказывается от собственного flagship-бенчмарка из-за того, что он насыщен и контаминирован. Раньше так уходили старые бенчмарки (HumanEval, MBPP) — но они уходили тихо, без «официального некролога». Здесь — открытое признание: индустриальный KPI больше не работает, мы переключаемся.
Для пользователей это означает простое: считать ИИ-модели по одному числу больше нельзя. Нужен набор метрик — agentic, code-quality, real-world — и здравый скепсис к любому одиночному показателю, каким бы старым и уважаемым он ни был.
Источники: OpenAI: Why SWE-bench Verified no longer measures frontier coding capabilities, Latent Space: интервью с Миа Глезе и Оливией Уоткинс, SWE-bench Pro Leaderboard.