Компания OpenAI, которая специализируется на исследованиях в области искусственного интеллекта, выпустила алгоритм с открытым исходным кодом — Hindsight Experience Replay (HER), который интерпретирует неудачи как успехи.
Различия в мышлении
Человек отличается от робота тем, что может учиться и на ошибках, и на победах. Мы узнаем, какие методы работают для достижения цели, а какие нет, а также накапливаем информацию о том, как потерпели неудачу, и можем применить эти знания в решении последующих задач.
Роботы могут использовать в обучении схожую технику проб и ошибок, где будут получать вознаграждения за любой результат, приближающий к цели.
Отличие Hindsight Experience Replay от других ИИ
Идея алгоритма Hindsight Experience Replay состоит в получении опыта в решении какой-то смежной задачи, если изначальная цель не была достигнута. Также ИИ учитывает и провалы, чтобы избежать повторных ошибок в будущем.
Каждое выполненное HER действие, даже если это неудача, воспринимается как частичный успех. Благодаря такому алгоритму задачи постоянно меняются в зависимости от полученного результата, а робот учится. В итоге первоначальные цели достигаются путем решения смежных задач.
Исследователи смоделировали робота, использующего данный алгоритм, и сравнили его с роботом без данной модификации:
Источник: IEEE Spectrum