Перетяжка, Премия ТПрогер, 13.11
Перетяжка, Премия ТПрогер, 13.11
Перетяжка, Премия ТПрогер, 13.11

Исследование: 90% кода, написанного с вайб-кодингом, содержит уязвимости

Новости

То есть проблема обнаружится в 9 из 10 случаев

40 открытий356 показов
Исследование: 90% кода, написанного с вайб-кодингом, содержит уязвимости

По данным недавнего опроса, 75% разработчиков так или иначе используют вайб-кодинг. А многие компании — включая Anthropic — открыто говорят, что применяют его «в проде».

Но вместе с ростом популярности подхода, возник и главный вопрос: насколько безопасен код, который генерирует ИИ-агент?

Исследование показало: функционально — да, безопасно — нет

Ученые из Carnegie Mellon, Columbia и Johns Hopkins выпустили первое крупное исследование безопасности вайб-кодинга.

Они создали собственный бенчмарк SUSVIBES, состоящий из 200 настоящих задач с GitHub-проектов, где ранее были реальные уязвимости (77 видов CWE).

Каждая задача требует внедрения фичи в живой репозиторий размером в сотни тысяч строк. Это максимально приближено к реальной работе.

Далее они протестировали популярных агентов: SWE-Agent, OpenHands и Claude Code. Все они использовали самые свежие ИИ-модели вроде Claude 4 Sonnet, Gemini 2.5 Pro и Kimi K2.

Результаты оказались тревожными:

  • 61% решений от лучшей связки (SWE-Agent + Claude 4 Sonnet) — функционально корректны.
  • Но только 10,5% — безопасны.
  • Иными словами: около 90% рабочего кода, который агент считает «готовым», содержит уязвимости.

Аналогичная картина у всех других агентов и моделей: большинство результатов проходят функциональные тесты, но сыпятся на тестах безопасности.

Какие уязвимости генерируют ИИ-агенты

Исследователи обнаружили весь спектр проблем:

  • утечки данных и неправильная обработка паролей;
  • XSS и небезопасные URL-редиректы;
  • ошибки верификации сессий;
  • тайминг-атаки;
  • отсутствие проверки входных данных.

Что характерно, в реальных задачах агенты часто пишут код, который выглядит вполне логично. Но они все же упускают один-два критичных условия, создавая легко эксплуатируемые уязвимости.

На визуальных примерах в исследовании видно, что даже маленькие фрагменты вроде verify_password или URL-редиректа превращаются в брешь безопасности, если агент пропускает один шаг — например, нормализацию данных или сравнение времени выполнения.

Вывод

Исследователи подчеркивают: вайб-кодинг полезен для увеличения продуктивности, но категорически непригоден без ручного ревью безопасности.

Особенно это касается тех проектов, которые работают с данными пользователей, авторизацией, сессиями, API или любыми критичными процессами.

ИИ-агент может написать фичу, пройти тесты и выглядеть уверенно. Но с вероятностью около 80–90% там останется дыра, которая в реальной среде превратится в эксплойт.

Следите за новыми постами
Следите за новыми постами по любимым темам
40 открытий356 показов