Google Brain научили бота удлинять ноги ради эффективного решения задач

Исследователи проводили эксперименты в среде OpenAI Gym, которая имитировала реальные природные условия и случайным образом генерировала ландшафт.

Исследователи из Google Brain провели серию экспериментов, в которой заставили виртуальных роботов модифицировать собственное строение для лучшего выполнения заданий.

Эксперименты

Учёные использовали систему обучения с положительным подкреплением. Процесс обучения аналогичен методу проб и ошибок, за исключением того, что боты вознаграждаются за хорошие стратегии и их реализации. Это мотивирует ботов искать нестандартные и непредсказуемые для человека решения.

Исследователи создали «ходока» из многоугольника с парой ног в среде OpenAI Gym, которая имитировала реальные природные условия и случайным образом генерировала ландшафт. Разработчики поставили перед ботом задачу пройти по местности и преодолеть препятствия, при этом толщину или размер ног разрешалось менять до 75% от изначальных значений.

В первом эксперименте бот преодолевал местность без препятствий и научился делать ноги толще и длиннее. В будущем он смог использовать ноги как пружины, перепрыгивая рельеф.

На данный момент этот блок не поддерживается, но мы не забыли о нём!Наша команда уже занята его разработкой, он будет доступен в ближайшее время.

На местности с холмами и ямами бот использовал одну ногу как хвост, отталкиваясь от препятствий.

Учёные хотели побудить ходоков принимать необычные решения, которые необязательно были бы полезны для наилучшего решения задачи. Поэтому в следующем тесте агента награждали за уменьшение ног. Пересекая ровную местность, бот использовал всего 8% от изначального размера ног.

Выводы

Хотя система обучения с положительным подкреплением требует минимального вмешательства человека, повсеместно применять её нельзя. Вполне возможно, что требующего наименьших затрат решения может не существовать, и робот не решит поставленную задачу без участия инженеров.

Команда Google Brain считает, что систему можно использовать для проектирования аэродинамических форм, испытаний материалов, создания роботов или улучшения компьютерной графики.

В июле 2018 года исследователи из Google Brain описали метод атак для перепрограммирования генеративно-состязательной нейросети без необходимости определения желаемого результата. Злоумышленник добавляет к её параметрам помехи или данные, которые меняют исходные изображения. Попав в сеть, они используют имеющиеся навыки для решения новых задач.

888 открытий889 показов

Также рекомендуем

У языковых моделей есть политические взгляды — исследование

Лингвисты выяснили, что у разных языковых моделей есть собственные политические взгляды. Они не меняются, даже если переобучать модели.

Ключи API для ChatGPT были слиты на Reddit

Пользователи Reddit стали массово делиться украденными ключами к API ChatGPT, на аккаунте которого оплачены токены на 150000 долларов.

Практика работы с файлами и базой данных в Laravel и ChatGPT

Рассказываем, как ChatGPT справилась с обработкой данных. Модель попросили взять данные из таблицы, перенести их в БД и экспортировать в csv.

OpenAI регистрирует торговую марку GPT-5

OpenAI подала заявку на регистрацию товарного знака GPT-5. Релиз новой версии GPT ожидают в декабре 2023 года.