ИИ от Microsoft набрал идеальный счет в Ms. Pac-Man

ИИ от Microsoft прошел все 256 уровней игры Ms. Pac-Man и набрал идеальный счет в 999 990 очков. Компания добилась этого при помощи нового способа обучения.

ИИ от Microsoft прошел все 256 уровней игры Ms. Pac-Man на Atari 2600 и набрал идеальный счет в 999 990 очков. Вместо того, чтобы обучать ИИ полному прохождению игры, исследователи разбили её на мелкие задачи, которые решала команда из 150 небольших нейронных сетей.

И как была устроена эта система?

Канадская фирма Maluuba, недавно приобретённая Microsoft, сделала упор на обучение с подкреплением. Это методика обучения ИИ, в которой алгоритм получает штрафы и вознаграждения за использование отрицательных и положительных результатов соответственно в качестве «учебного материала». Смысл в том, чтобы система сама понимала, какие действия ведут к более продуктивному результату. Такой же метод применялся в AlphaGo — нашумевшем ИИ от Google, который обыграл чемпионов мира в го.

Но в случае со сложными задачами обучение с подкреплением занимает очень много времени. Именно поэтому было принято решение разбить общую задачу на множество подзадач вроде избегания призраков или попадания в определённую часть лабиринта. Эти подзадачи решали сразу 150 нейронных сетей, работающие параллельно. Затем над ними установили «главного» ИИ, который координировал действия и принимал решения для достижения лучших результатов в игре. Он получал ответы от каждой подсети, анализировал их и принимал решения. К примеру, в ситуации, когда одна часть подсетей говорила: «Пойдем направо и съедим точку» — а другая: «Не пойдем, там привидение» — главная сеть принимала сторону второй группы. Команда разработчиков назвала свою систему «архитектурой гибридных вознаграждений» (Hybrid Reward Architecture).

Каковы дальнейшие планы Microsoft?

Полученный результат говорит сам за себя. Команда хочет использовать его, чтобы сделать ИИ более быстрым, надёжным и самодостаточным. Эта система, по мнению исследователей, может быть использована в продажах или в системах распознавания естественных языков. Интересно, сможет ли ИИ пройти Contra, не подглядывая в код Konami?

2К открытий2К показов

Также рекомендуем

Сотрудники Apple тестируют своего чат-бота

Apple разработала собственного чат-бота на основе языковой модели по типу ChatGPT. Тесты чат-бота уже ведутся сотрудниками компании.

Как создать приложение с нейросетью на базе LLM Alpaca: быстро и просто

Как быстро и просто создать приложение, основанное на языковой модели LLM Alpaca. Она похожа на ChatGPT и обучена на огромном объеме данных.

Качество кода снизилось из-за нейросетей

Исследование показало, что помощники, такие как Copilot, пишут код, который по качеству похож на «хаотичную работу неопытного аутсорсера».

Hugging Face и ServiceNow создали StarCoder — бесплатный аналог ИИ-помощника Copilot

Hugging Face и ServiceNow выложили в открытый доступ StarCoder — бесплатный помощник программиста, аналог GitHub Copilot.