Unity обновила плагин машинного обучения ML-Agents
Новости Отредактировано
Новая версия поддерживает средства Gym, дополнена средами марафонов, а также включает мета-обучение с возможностью тренировать несколько агентов.
986 открытий1К показов
Unity опубликовала обновленную версию плагина ML-Agents — инструмента с открытым кодом для обучения алгоритмов ИИ. Нововведения коснулись количества одновременно обучаемых агентов и их дискретных действий в различных средах. Также сотрудники предоставили ресурсы Unity в качестве платформы для исследований ИИ.
Поддержка средств Gym
Создавая плагин ML-Agents, сотрудники компании не хотели ограничиваться стандартными условиями в машинном обучении. Поэтому они разработали API на Python, добившись одновременного обучения нескольких агентов и «мозгов» в сложных условиях.
Более того, разработчикам поступали запросы о создании инструментов для взаимодействия со средой Unity. Учитывая пожелания, они ввели поддержку средств Gym. Благодаря этому любой разработчик, создав самостоятельно одну из сред для Unity, сможет загрузить остальные.
Среды марафонов
По словам Джо Бута (Joe Booth), он целый год пробовал иначе использовать среды Walker, Hopper, Humanoid, а также Ant из DeepMind Control Suite и OpenAI Gym. Итогом его попыток стала среда марафонов: перед агентами каждый раз ставится задача бежать быстрее и слаженнее. Джо считает, что подход позволит ИИ в будущем сымитировать движения людей из видео на YouTube.
Другие особенности
- Изменена область дискретных действий, позволяющая агентам выбирать несколько действий за раз. В предыдущих версиях они могли выполнять одно дискретное действие. В каждой ветви содержится различное фиксированное число действий, одно из которых агент выбирает по запросу. Например, в среде WallJump агент теперь может двигаться в определенном направлении и одновременно подпрыгнуть. В среде BananaCollector двигаться, развернуться и выстрелить лазером.
- Добавлена маскировка дискретных действий, ограничивающая агента от выполнения невозможных условий. Находясь в воздухе, к примеру, он не сможет подпрыгнуть. Невозможное условие настраивается для каждой ветви действий. По словам разработчиков, это сокращает количество необходимого кода. Также сотрудники доработали агента в среде GridWorld, ограничив его попытки войти в стену. Благодаря этому обучение происходило гораздо быстрее.
- Реализовано мета-обучение, доступное в среде WallJump и открывающее новые возможности обучения агентов. Сложность задач агента прямо пропорциональна его прогрессу при обычном обучении. С введением мета-обучения пользователь получает возможность создания сред для обучения сразу нескольких «мозгов». Причем для каждого из них план обучения настраивается отдельно, и в созданной среде агенты развиваются с различной скоростью.
Unity успешно сотрудничает с другими платформами, и в середине июля 2018 года расширение GitHub вышло из беты. Новая версия позволила загружать большие файлы в специализированное хранилище и содержала несколько улучшений для роста производительности. В то же время разработчики представили обновление инструмента ML-Agents, которое сделало возможным проведение обучения прямо из окна редактора.
986 открытий1К показов