Написать пост

OpenAI усовершенствовала метод машинного обучения, основанный на любопытстве

Аватар Екатерина Никитина

Он помогает ИИ-агенту эффективно проходить игру Montezuma’s Revenge без опоры на демонстрационные видео или доступа к дополнительным данным о механике игры.

Обложка поста OpenAI усовершенствовала метод машинного обучения, основанный на любопытстве

Команда OpenAI опубликовала результаты исследования машинного обучения с подкреплением, основанного на вознаграждении за правильные предсказания. Учёные представили метод тренировки ИИ-агентов RND (Random Network Distillation). При сохранении современных показателей эффективности он помогает модели проходить игру Montezuma’s Revenge лучше человека, причём без опоры на демонстрационные видео или доступа к дополнительным данным о механике игры.

Превью видео 40VZeFppDEM

Вызов Montezuma’s Revenge

В Montezuma’s Revenge игрок бродит по лабиринту, собирая сокровища, ключи к разным комнатам и избегая ловушек. Команда DeepMind также обучала ИИ справляться с этой игрой, но другим способом — с помощью YouTube-роликов, на которых Montezuma’s Revenge проходили люди. Нейросеть «просматривала» их и брала на вооружение выигрышные ходы и тактики.

OpenAI хотела, чтобы агенты справлялись самостоятельно, движимые внутренним мотивом исследовать окружающую среду. Однако обычные «любопытные» ИИ-агенты плохо справляются с задачей сбора целевых артефактов и решением загадок.

Проблема «любопытства»

В предыдущем исследовании команда OpenAI представила метод обучения с подкреплением за правильное предсказание будущего — реализация «любопытства». Однако у него обнаружились слабости. К примеру, ИИ-агент застывал перед экраном, на котором бессистемно менялись кадры. Модель не могла предсказать, что произойдёт дальше, поэтому оставалась прикованной к такому телевизору.

Эту проблему исследователи решили с помощью метода RND. Простыми словами, он заставляет ИИ «интересоваться» случайными предметами за пределами экрана и таким образом отвлекаться от телевизионного шума.

Системы вознаграждения RND

Исследователи OpenAI объединили внутреннюю систему подкреплений с внешней, которая основана на разновидности обучающего алгоритма Proximal Policy Optimization. Это мотивирует ИИ не только исследовать игровой мир, но и получать очки за сбор артефактов и избегание препятствий.

С помощью RND ИИ-агенты не только прошли первый уровень Montezuma’s Revenge, но и сделали это лучше человека. Они набирали около 10 тысяч очков за девять заходов, тогда как у людей средний показатель — 4 тысячи.

Учёные планируют развивать этот метод — анализировать способы, которыми ИИ исследует мир, комбинировать их, а также тренировать ИИ-агентов в средах, не предлагающих наград, и пробовать переносить этот опыт на целевые игры.

Искусственное «любопытство» развивает не только OpenAI. В октябре 2018 года несколько компаний и университетов начали разрабатывать самообучаемый ИИ — Curious Minded Machine. Они рассчитывают, что модель сама будет познавать мир, искать способы взаимодействия с объектами в нём, а в будущем — помогать человеку принимать более эффективные решения.

Следите за новыми постами
Следите за новыми постами по любимым темам
1К открытий1К показов