Команда ботов от OpenAI обыграла игроков-любителей и полупрофессионалов в Dota 2

Наташа Маркова

OpenAI Five совершает до 170 действий в минуту и реагирует за 80 мс. Каждый день алгоритмы проживают 180 лет игрового времени.

OpenAI Five из пяти алгоритмов ИИ обыграла пять команд игроков в Dota 2 от любителей до полупрофессионалов, пишут разработчики в блоге компании. По их словам, раньше боты побеждали человека только в дуэлях.

Значение победы

Игра в Dota 2 требует расчета большего количества действий, чем игра в шахматы или го. Партия в шахматы заканчивается в среднем за 40 ходов, в го игроки делают до 150 ходов. В Dota 2 нужно принять в среднем 20 тысяч решений до завершения матча, и OpenAI анализирует каждый четвертый фрейм в нем.

Алгоритм различает 170 тысяч действий для каждого героя, а в течение одного наикратчайшего маневра он оценивает около 1000 возможных будущих решений. В шахматах требуется продумать 35 действий, в го — 250.

Соперники

Алгоритм соревновался с командами сотрудников OpenAI и Valve, а также с двумя любительскими и одной полупрофессиональной. Система выиграла в четырех случаях из пяти, еще один матч прошел вничью.

28 июня 2018 года разработчики проведут показательный матч против самых успешных игроков.

Навыки

OpenAI Five оценивает положение каждого юнита в драке, загоняет противников на свой хайграунд для защиты и зажимает его.
Боты готовят ловушки, как только команда людей предоставляет им пространство для маневра.
ИИ фокусируется на конкретном сопернике, оценивает его важность для вражеской команды и не жалеет ресурсов для его уничтожения. Алгоритм также жертвует членом своей команды или легкой линией, если это поможет получить ценную награду.
Боты преследуют и убивают даже тех противников, которых нет в их зоне видимости.
OpenAI Five быстрее переходит к средней стадии игры, поскольку нападает быстрее и эффективнее, чем соперники.
Система умеет отклоняться от заданной стратегии, если это нужно для быстрого достижения пика урона и получения преимущества.

OpenAI Five совершает 150–170 действий в минуту и реагирует в среднем за 80 мс.

Обучение

Для каждого бота используется раздельная LSTM-сеть с долгой краткосрочной памятью, которая анализирует окружающую среду и помогает боту избегать и обходить препятствия. Всю систему тренировали с помощью расширенной версии обучающего алгоритма Proximal Policy Optimization. Она работает на 256 графических картах и 128 тысячах процессоров.

Каждый день алгоритм проживает 180 лет игрового времени. Подобным массивом данных не обладает ни один из профессиональных игроков на планете. Каждый «агент» проводит 80 % игр против своей нынешней версии и 20 % против прошлой. Так разработчики стараются избегать проблем со стратегиями команды.

Недостатки

Боты учились медленнее, когда наградой была победа или поражение, а не убийство крипов, как в соревнованиях один на один.

Пока OpenAI Five умеет играть только ограниченным количеством героев, в ее арсенале есть Necrophos, Sniper, Viper, Crystal Maiden и Lich. Система не научилась вардить, не знает о Рошане, не пользуется невидимостью или сканом. Ей запрещено покупать Divine Rapier, Bottle, Quelling Blade, Boots of Travel, Tome of Knowledge и Infused Raindrop.

В апреле 2018 года китайская нейросеть Golaxy обыграла в го лучшего игрока в Китае Кэ Цзе. В 2017 году его же победила другая нейросеть — AlphaGo, разработанная Google.

3К открытий3К показов

Также рекомендуем

Обложка поста Как защитить конфиденциальные данные в ChatGPT

Как защитить конфиденциальные данные в ChatGPT

Рассказали, почему ChatGPT выдает конфиденциальные данные и какую личную информацию не стоит доверять нейросетям.

«Сбер» выпустил GigaChat — свой ответ ChatGPT

«Сбер» выпустил нейросеть GigaChat, которая умеет отвечать на вопросы, генерировать тексты, код и изображения. Прямо как ChatGPT.

Обложка поста GPT-4 теперь доступна всем пользователям API

GPT-4 теперь доступна всем пользователям API

OpenAI сообщила, что GPT-4 8k для чат-бота ChatGPT теперь доступна всем пользователям платного API, у которых есть хорошая история платежей.

Обложка поста GOODY-2 — самый ответственный бот и главный по отмазкам среди нейросетей

GOODY-2 — самый ответственный бот и главный по отмазкам среди нейросетей

Что бы вы у него ни спросили, Goody-2 найдет отмазку или уклонится от ответа. Даже если вы спросите, как дышать или почему щенки такие милые. Это тонкая сатира на ответы популярных Gemin и ChatGPT и, возможно, самый безопасный чат-бот.