Google обучила ИИ многозадачности в процессе интенсивной игровой сессии

Name: Google создала обучающую систему IMPALA для тренировки многозадачной нейронной сети
Uploaded: 2018-02-09T14:16:47.000Z
Description: Google придумала новый способ обучить ИИ многозадачности с помощью видеоигр. В подразделении DeepMind создали систему IMPALA, повышающую скорость обучения сети

Татьяна Кардашова

Google придумала новый способ обучить ИИ многозадачности с помощью видеоигр. В подразделении DeepMind создали систему IMPALA, повышающую скорость обучения сети

Компания DeepMind, являющаяся подразделением Google, предложила новый быстрый способ обучения нейронных сетей, совмещающий сложные алгоритмы и старые видеоигры. Команда DeepMind уверена, что машины способны обучаться так же, как люди.

Как это работает?

Для начала при помощи игры Quake III от компании ID Software и ALE (Arcade Learning Environment) с запущенными на ней 57 играми Atari был сгенерирован набор данных DMLab-30. На его основе исследователи разработали совершенно новую обучающую систему, которую назвали IMPALA (Importance Weighted Actor-Learner Architectures). Искусственный интеллект в этой системе передает тренировочные данные от группы «актеров» к группе «учеников» в процессе довольно быстрого прохождения игры.

Обычно нейронная сеть имитирует одного игрока — реального человека с геймпадом. Однако с IMPALA система система способна не только играть в десять раз быстрее, но и вести целую серию игр одновременно. Наглядно это можно представить так: группа из 30 и более игроков учится играть в Quake и управляется общим «мозгом», накапливающим весь игровой опыт.

На этом видео систему DMLab-30 тестирует человек:

А здесь — компьютер с использованием IMPALA:

Автономные машины принимают решения, исходя из заданных правил. Так, беспилотные автомобили сами решают, как изменить скорость, но не должны при этом намеренно врезаться в стены. Симуляция помогает автономной системе разобраться, какие решения допустимы. По этой причине проекты, занимающиеся усиленным глубоким обучением (deep reinforcement learning), сейчас критически важны.

Производительность

IMPALA решает также проблему масштабируемости. Нейронную сеть можно внедрять в автономные машины только после того, как она обработала миллиарды «фреймов» в тренировочной среде. Все это требует времени и ресурсов. Исследователи DeepMind утверждают, что если добавить достаточное количество CPU-актеров, то IMPALA может обрабатывать порядка 250 000 фреймов в секунду или 21 миллиард фреймов в день, что делает искусственный интеллект от DeepMind самым быстрым для решения данного типа задач.