ИИ от Uber превзошёл человека в Montezuma’s Revenge

Name: ИИ от Uber превзошёл человека в Montezuma’s Revenge
Uploaded: 2018-11-29T19:36:44.000Z
Description: ИИ смог максимально набрать свыше 2 млн очков и 400 тысяч в среднем. Для сравнения, другие ИИ набирают порядка 10–17 тысяч очков.

Андрей Галадей

ИИ смог максимально набрать свыше 2 млн очков и 400 тысяч в среднем. Для сравнения, другие ИИ набирают порядка 10–17 тысяч очков.

Искусственный интеллект Go-Explore от компании Uber набрал в игре Montezuma’s Revenge большое количество очков, превосходящее на несколько порядков показатели других ИИ, а также живого игрока.

Что известно?

Сообщается, что Go-Explore набрал более 2 миллионов очков в игре Montezuma’s Revenge и дошёл до 159 уровня. Средние же его показатели составляют 400 тысяч баллов. Для сравнения, обычные ИИ-модели набирают в среднем 10 070, а максимально 17 500 очков. Для человека наибольший показатель равен 1 219 200.

Кроме того, в игре Pitfall ИИ Go-Explore также показал впечатляющие результаты. Средний балл системы составил более 21 000, что намного превосходит показатели человека в этой игре. Причём он набрал несколько очков с первой попытки, чего не могли добиться другие алгоритмы. В этой игре Go-Explore прошёл 40 уровней.

Разработчики заявили, что их алгоритм радикально отличается от других систем машинного обучения и превосходит все современные ИИ. Предполагается, что этот машинный интеллект станет основой для будущих «умных» роботов.

Как это работает?

Главным отличием Go-Explore является то, что этот ИИ умеет не только исследовать игровые пространства, но также определять в игре «перспективные места», которые содержат дополнительные награды. Определяя и запоминая их, в случае необходимости, ИИ возвращается к ним для получения дополнительных очков.

ИИ от Uber превзошёл человека в Montezuma’s Revenge 1

Другие системы, хотя и способны так же определять локации с бонусными очками, забывают о перспективных местах, пытаясь быстрее добраться до конца уровня. В случае же с Go-Explore, система сначала проводит разведку территории, а затем проходит уровни, собирая максимум наград.

В начале ноября 2018 года разработчики из OpenAI сообщили о результатах исследования машинного обучения с подкреплением, которое базируется на вознаграждении за правильные предсказания. Учёные представили метод тренировки ИИ-агентов RND (Random Network Distillation) без опоры на демонстрационные видео или другие обучающие материалы. Тестирование RND-агентов проводили на игре Montezuma’s Revenge.

971 открытий971 показов

Также рекомендуем

Как ИИ помогает изучать осознанные сновидения

Рассказываем о нейросети, которая позволяет исследовать осознанные сновидения с точки зрения науки, и как ИИ вносит свой вклад в науку.

Кто и зачем делает дипфейк-порно. 18+

Объясняем, кто, как и зачем делает порно дипфейки. Рассказываем, какой статус у порно дипфейков в законодательстве России.

Почему дата-сайентисту нужны ещё и графы

Разбираемся, что это такое, в анализе каких данных они нужны. А также рассматриваем, в каких задачах найдётся применение теории графов.

Как GPT-3 превратить в GPT-4

Рассказываем, как научить GPT-3 рисовать. По умолчанию эта функция недоступна в GPT-3, и воспользоваться ей можно только в GPT-4.