ИИ от Microsoft набрал идеальный счет в Ms. Pac-Man

Ms. Pac-Man

ИИ от Microsoft прошел все 256 уровней игры Ms. Pac-Man на Atari 2600 и набрал идеальный счет в 999 990 очков. Вместо того, чтобы обучать ИИ полному прохождению игры, исследователи разбили её на мелкие задачи, которые решала команда из 150 небольших нейронных сетей.

И как была устроена эта система?

Канадская фирма Maluuba, недавно приобретённая Microsoft, сделала упор на обучение с подкреплением. Это методика обучения ИИ, в которой алгоритм получает штрафы и вознаграждения за использование отрицательных и положительных результатов соответственно в качестве «учебного материала». Смысл в том, чтобы система сама понимала, какие действия ведут к более продуктивному результату. Такой же метод применялся в AlphaGo — нашумевшем ИИ от Google, который обыграл чемпионов мира в го.

Но в случае со сложными задачами обучение с подкреплением занимает очень много времени. Именно поэтому было принято решение разбить общую задачу на множество подзадач вроде избегания призраков или попадания в определённую часть лабиринта. Эти подзадачи решали сразу 150 нейронных сетей, работающие параллельно. Затем над ними установили «главного» ИИ, который координировал действия и принимал решения для достижения лучших результатов в игре. Он получал ответы от каждой подсети, анализировал их и принимал решения. К примеру, в ситуации, когда одна часть подсетей говорила: «Пойдем направо и съедим точку» — а другая: «Не пойдем, там привидение» — главная сеть принимала сторону второй группы. Команда разработчиков назвала свою систему «архитектурой гибридных вознаграждений» (Hybrid Reward Architecture).

Каковы дальнейшие планы Microsoft?

Полученный результат говорит сам за себя. Команда хочет использовать его, чтобы сделать ИИ более быстрым, надёжным и самодостаточным. Эта система, по мнению исследователей, может быть использована в продажах или в системах распознавания естественных языков. Интересно, сможет ли ИИ пройти Contra, не подглядывая в код Konami?

Источник: Engadget