Google Brain научили бота удлинять ноги ради эффективного решения задач

Google Brain

Исследователи из Google Brain провели серию экспериментов, в которой заставили виртуальных роботов модифицировать собственное строение для лучшего выполнения заданий.

Эксперименты

Учёные использовали систему обучения с положительным подкреплением. Процесс обучения аналогичен методу проб и ошибок, за исключением того, что боты вознаграждаются за хорошие стратегии и их реализации. Это мотивирует ботов искать нестандартные и непредсказуемые для человека решения.

Исследователи создали «ходока» из многоугольника с парой ног в среде OpenAI Gym, которая имитировала реальные природные условия и случайным образом генерировала ландшафт. Разработчики поставили перед ботом задачу пройти по местности и преодолеть препятствия, при этом толщину или размер ног разрешалось менять до 75% от изначальных значений.

В первом эксперименте бот преодолевал местность без препятствий и научился делать ноги толще и длиннее. В будущем он смог использовать ноги как пружины, перепрыгивая рельеф.

На местности с холмами и ямами бот использовал одну ногу как хвост, отталкиваясь от препятствий.

Учёные хотели побудить ходоков принимать необычные решения, которые необязательно были бы полезны для наилучшего решения задачи. Поэтому в следующем тесте агента награждали за уменьшение ног. Пересекая ровную местность, бот использовал всего 8% от изначального размера ног.

Выводы

Хотя система обучения с положительным подкреплением требует минимального вмешательства человека, повсеместно применять её нельзя. Вполне возможно, что требующего наименьших затрат решения может не существовать, и робот не решит поставленную задачу без участия инженеров.

Команда Google Brain считает, что систему можно использовать для проектирования аэродинамических форм, испытаний материалов, создания роботов или улучшения компьютерной графики.

В июле 2018 года исследователи из Google Brain описали метод атак для перепрограммирования генеративно-состязательной нейросети без необходимости определения желаемого результата. Злоумышленник добавляет к её параметрам помехи или данные, которые меняют исходные изображения. Попав в сеть, они используют имеющиеся навыки для решения новых задач.

Source: GitHub

Подобрали три теста для вас:
— А здесь можно применить блокчейн?
Серверы для котиков: выберите лучшее решение для проекта и проверьте себя.
Сложный тест по C# — проверьте свои знания.

Также рекомендуем: