Ученые из OpenAI создали алгоритм, который помогает роботам учиться на неудачном опыте

Аватар Варвара Белавина

Алгоритм, названный Hindsight Experience Replay, интерпретирует неудачи как своеобразные успехи. Такой подход ускоряет решение не только текущей задачи, но и расширяет спектр решаемых задач в целом.

Компания OpenAI, которая специализируется на исследованиях в области искусственного интеллекта, выпустила алгоритм с открытым исходным кодом — Hindsight Experience Replay (HER), который интерпретирует неудачи как успехи.

Различия в мышлении

Человек отличается от робота тем, что может учиться и на ошибках, и на победах. Мы узнаем, какие методы работают для достижения цели, а какие нет, а также накапливаем информацию о том, как потерпели неудачу, и можем применить эти знания в решении последующих задач.

Роботы могут использовать в обучении схожую технику проб и ошибок, где будут получать вознаграждения за любой результат, приближающий к цели.

Отличие Hindsight Experience Replay от других ИИ

Идея алгоритма Hindsight Experience Replay состоит в получении опыта в решении какой-то смежной задачи, если изначальная цель не была достигнута. Также ИИ учитывает и провалы, чтобы избежать повторных ошибок в будущем.

Каждое выполненное HER действие, даже если это неудача, воспринимается как частичный успех. Благодаря такому алгоритму задачи постоянно меняются в зависимости от полученного результата, а робот учится. В итоге первоначальные цели достигаются путем решения смежных задач.

Исследователи смоделировали робота, использующего данный алгоритм, и сравнили его с роботом без данной модификации:

Машинное обучение
Искусственный интеллект
1140