Игра Яндекс Практикума
Игра Яндекс Практикума
Игра Яндекс Практикума

Команда ботов от OpenAI обыграла игроков-любителей и полупрофессионалов в Dota 2

Новости Отредактировано

OpenAI Five совершает до 170 действий в минуту и реагирует за 80 мс. Каждый день алгоритмы проживают 180 лет игрового времени.

3К открытий3К показов

OpenAI Five из пяти алгоритмов ИИ обыграла пять команд игроков в Dota 2 от любителей до полупрофессионалов, пишут разработчики в блоге компании. По их словам, раньше боты побеждали человека только в дуэлях.

Значение победы

Игра в Dota 2 требует расчета большего количества действий, чем игра в шахматы или го. Партия в шахматы заканчивается в среднем за 40 ходов, в го игроки делают до 150 ходов. В Dota 2 нужно принять в среднем 20 тысяч решений до завершения матча, и OpenAI анализирует каждый четвертый фрейм в нем.

Алгоритм различает 170 тысяч действий для каждого героя, а в течение одного наикратчайшего маневра он оценивает около 1000 возможных будущих решений. В шахматах требуется продумать 35 действий, в го — 250.

Превью видео eHipy_j29Xw

Соперники

Алгоритм соревновался с командами сотрудников OpenAI и Valve, а также с двумя любительскими и одной полупрофессиональной. Система выиграла в четырех случаях из пяти, еще один матч прошел вничью.

28 июня 2018 года разработчики проведут показательный матч против самых успешных игроков.

Навыки

  • OpenAI Five оценивает положение каждого юнита в драке, загоняет противников на свой хайграунд для защиты и зажимает его.
  • Боты готовят ловушки, как только команда людей предоставляет им пространство для маневра.
  • ИИ фокусируется на конкретном сопернике, оценивает его важность для вражеской команды и не жалеет ресурсов для его уничтожения. Алгоритм также жертвует членом своей команды или легкой линией, если это поможет получить ценную награду.
  • Боты преследуют и убивают даже тех противников, которых нет в их зоне видимости.
  • OpenAI Five быстрее переходит к средней стадии игры, поскольку нападает быстрее и эффективнее, чем соперники.
  • Система умеет отклоняться от заданной стратегии, если это нужно для быстрого достижения пика урона и получения преимущества.

OpenAI Five совершает 150–170 действий в минуту и реагирует в среднем за 80 мс.

Обучение

Для каждого бота используется раздельная LSTM-сеть с долгой краткосрочной памятью, которая анализирует окружающую среду и помогает боту избегать и обходить препятствия. Всю систему тренировали с помощью расширенной версии обучающего алгоритма Proximal Policy Optimization. Она работает на 256 графических картах и 128 тысячах процессоров.

Каждый день алгоритм проживает 180 лет игрового времени. Подобным массивом данных не обладает ни один из профессиональных игроков на планете. Каждый «агент» проводит 80 % игр против своей нынешней версии и 20 % против прошлой. Так разработчики стараются избегать проблем со стратегиями команды.

Недостатки

Боты учились медленнее, когда наградой была победа или поражение, а не убийство крипов, как в соревнованиях один на один.

Пока OpenAI Five умеет играть только ограниченным количеством героев, в ее арсенале есть Necrophos, Sniper, Viper, Crystal Maiden и Lich. Система не научилась вардить, не знает о Рошане, не пользуется невидимостью или сканом. Ей запрещено покупать Divine Rapier, Bottle, Quelling Blade, Boots of Travel, Tome of Knowledge и Infused Raindrop.

В апреле 2018 года китайская нейросеть Golaxy обыграла в го лучшего игрока в Китае Кэ Цзе. В 2017 году его же победила другая нейросеть — AlphaGo, разработанная Google.

Следите за новыми постами
Следите за новыми постами по любимым темам
3К открытий3К показов