Google Brain научили бота удлинять ноги ради эффективного решения задач

Исследователи проводили эксперименты в среде OpenAI Gym, которая имитировала реальные природные условия и случайным образом генерировала ландшафт.

Исследователи из Google Brain провели серию экспериментов, в которой заставили виртуальных роботов модифицировать собственное строение для лучшего выполнения заданий.

Эксперименты

Учёные использовали систему обучения с положительным подкреплением. Процесс обучения аналогичен методу проб и ошибок, за исключением того, что боты вознаграждаются за хорошие стратегии и их реализации. Это мотивирует ботов искать нестандартные и непредсказуемые для человека решения.

Исследователи создали «ходока» из многоугольника с парой ног в среде OpenAI Gym, которая имитировала реальные природные условия и случайным образом генерировала ландшафт. Разработчики поставили перед ботом задачу пройти по местности и преодолеть препятствия, при этом толщину или размер ног разрешалось менять до 75% от изначальных значений.

В первом эксперименте бот преодолевал местность без препятствий и научился делать ноги толще и длиннее. В будущем он смог использовать ноги как пружины, перепрыгивая рельеф.

На данный момент этот блок не поддерживается, но мы не забыли о нём!Наша команда уже занята его разработкой, он будет доступен в ближайшее время.

На местности с холмами и ямами бот использовал одну ногу как хвост, отталкиваясь от препятствий.

Учёные хотели побудить ходоков принимать необычные решения, которые необязательно были бы полезны для наилучшего решения задачи. Поэтому в следующем тесте агента награждали за уменьшение ног. Пересекая ровную местность, бот использовал всего 8% от изначального размера ног.

Выводы

Хотя система обучения с положительным подкреплением требует минимального вмешательства человека, повсеместно применять её нельзя. Вполне возможно, что требующего наименьших затрат решения может не существовать, и робот не решит поставленную задачу без участия инженеров.

Команда Google Brain считает, что систему можно использовать для проектирования аэродинамических форм, испытаний материалов, создания роботов или улучшения компьютерной графики.

В июле 2018 года исследователи из Google Brain описали метод атак для перепрограммирования генеративно-состязательной нейросети без необходимости определения желаемого результата. Злоумышленник добавляет к её параметрам помехи или данные, которые меняют исходные изображения. Попав в сеть, они используют имеющиеся навыки для решения новых задач.

888 открытий889 показов

Также рекомендуем

Что такое проект AutoGPT и почему столько разговоров о нем

Проект AutoGPT выпущен в апреле 2023 года и за 2 месяца стал одним из лидеров среди ИИ. Он использует OpenAI GPT и стремится улучшить её.

Как работает обучение без учителя

Метод обучения без учителя помогает работать с неразмеченными данными. Разбираемся, какие алгоритмы использовать для решения таких задач.

Unstable Diffusion — аналог Midjourney без цензуры

Unstable Diffusion — это нейросеть, которая создана на основе Stable Diffusion для генерации 18+ изображений девушек.

ChatGPT разобрала песни Егора Летова, ушедшего в тайгу

Попросили ChatGPT объяснить смысл песен Егора Летова от понятных до абсурдных и оценить их с точки зрения поэтического мастерства.