Легендарную Super Mario Bros. превратили в бенчмарк для ИИ
Новости
Исследователи проверили, как ИИ проходит Super Mario Bros. Claude 3.7 справился лучше всех, а GPT-4o и Gemini 1.5 Pro показали слабые результаты
167 открытий1К показов

Исследователи из Hao AI Lab (Калифорнийский университет в Сан-Диего) решили проверить, насколько современные ИИ-модели способны пройти в Super Mario Bros.
Оказалось, что культовая игра 1985 года может стать одним из самых сложных испытаний для нейросетей.
Как ИИ учился играть в Марио?
Эксперимент проводился в эмуляторе с использованием специального фреймворка GamingAgent, который позволил моделям управлять персонажем.
Anthropic Claude 3.7 показал лучшие результаты, за ним следовал Claude 3.5, в то время как Google Gemini 1.5 Pro и OpenAI GPT-4o справились значительно хуже.
ИИ получал:
- Базовые инструкции, например: «Если рядом препятствие или враг, двигайся/прыгай влево, чтобы увернуться».
- Скриншоты игры для анализа ситуации.
- Необходимость генерировать управляющие команды на Python для управления персонажем.
В процессе эксперимента стало ясно, что игра требует сложного планирования.
Что интересно, модели, обладающие развитой логикой и пошаговым мышлением (OpenAI o1), показали худшие результаты, чем те, которые работают без строгой системы рассуждений.
Почему разумные модели справляются хуже?
По словам исследователей, проблема размышляющих моделей в том, что они слишком долго принимают решения — иногда на это уходят секунды. В Super Mario Bros. время реакции критично: задержка даже на долю секунды может привести к поражению.
Игр как тест для ИИ: показатель или иллюзия?
Игры уже много лет используются как тестовая среда для искусственного интеллекта. Но некоторые эксперты сомневаются, что успех в виртуальном мире отражает реальные достижения в развитии ИИ.
Как отметил Андрей Карпати, один из основателей OpenAI, сейчас наблюдается «кризис оценки ИИ»:
Я не знаю, какие метрики ИИ стоит учитывать. Честно говоря, мне сложно судить, насколько эти модели действительно хороши.
Несмотря на это, наблюдать за тем, как нейросети пытаются пройти Super Mario Bros, по крайней мере, увлекательно.
167 открытий1К показов