Написать пост

ИИ от Uber превзошёл человека в Montezuma’s Revenge

Аватар Андрей Галадей

ИИ смог максимально набрать свыше 2 млн очков и 400 тысяч в среднем. Для сравнения, другие ИИ набирают порядка 10–17 тысяч очков.

Обложка поста ИИ от Uber превзошёл человека в Montezuma’s Revenge

Искусственный интеллект Go-Explore от компании Uber набрал в игре Montezuma’s Revenge большое количество очков, превосходящее на несколько порядков показатели других ИИ, а также живого игрока.

Превью видео L_E3w_gHBOY

Что известно?

Сообщается, что Go-Explore набрал более 2 миллионов очков в игре Montezuma’s Revenge и дошёл до 159 уровня. Средние же его показатели составляют 400 тысяч баллов. Для сравнения, обычные ИИ-модели набирают в среднем 10 070, а максимально 17 500 очков. Для человека наибольший показатель равен 1 219 200.

Кроме того, в игре Pitfall ИИ Go-Explore также показал впечатляющие результаты. Средний балл системы составил более 21 000, что намного превосходит показатели человека в этой игре. Причём он набрал несколько очков с первой попытки, чего не могли добиться другие алгоритмы. В этой игре Go-Explore прошёл 40 уровней.

Разработчики заявили, что их алгоритм радикально отличается от других систем машинного обучения и превосходит все современные ИИ. Предполагается, что этот машинный интеллект станет основой для будущих «умных» роботов.

Как это работает?

Главным отличием Go-Explore является то, что этот ИИ умеет не только исследовать игровые пространства, но также определять в игре «перспективные места», которые содержат дополнительные награды. Определяя и запоминая их, в случае необходимости, ИИ возвращается к ним для получения дополнительных очков.

ИИ от Uber превзошёл человека в Montezuma’s Revenge 1

Другие системы, хотя и способны так же определять локации с бонусными очками, забывают о перспективных местах, пытаясь быстрее добраться до конца уровня. В случае же с Go-Explore, система сначала проводит разведку территории, а затем проходит уровни, собирая максимум наград.

В начале ноября 2018 года разработчики из OpenAI сообщили о результатах исследования машинного обучения с подкреплением, которое базируется на вознаграждении за правильные предсказания. Учёные представили метод тренировки ИИ-агентов RND (Random Network Distillation) без опоры на демонстрационные видео или другие обучающие материалы. Тестирование RND-агентов проводили на игре Montezuma’s Revenge.

Следите за новыми постами
Следите за новыми постами по любимым темам
971 открытий971 показов