Ученые из OpenAI создали алгоритм, который помогает роботам учиться на неудачном опыте

Hindsight Experience Replay

Компания OpenAI, которая специализируется на исследованиях в области искусственного интеллекта, выпустила алгоритм с открытым исходным кодом — Hindsight Experience Replay (HER), который интерпретирует неудачи как успехи.

Различия в мышлении

Человек отличается от робота тем, что может учиться и на ошибках, и на победах. Мы узнаем, какие методы работают для достижения цели, а какие нет, а также накапливаем информацию о том, как потерпели неудачу, и можем применить эти знания в решении последующих задач.

Роботы могут использовать в обучении схожую технику проб и ошибок, где будут получать вознаграждения за любой результат, приближающий к цели.

Отличие Hindsight Experience Replay от других ИИ

Идея алгоритма Hindsight Experience Replay состоит в получении опыта в решении какой-то смежной задачи, если изначальная цель не была достигнута. Также ИИ учитывает и провалы, чтобы избежать повторных ошибок в будущем.

Каждое выполненное HER действие, даже если это неудача, воспринимается как частичный успех. Благодаря такому алгоритму задачи постоянно меняются в зависимости от полученного результата, а робот учится. В итоге первоначальные цели достигаются путем решения смежных задач.

Исследователи смоделировали робота, использующего данный алгоритм, и сравнили его с роботом без данной модификации:

Источник: IEEE Spectrum

Ещё интересное для вас:
Тест: что вы знаете о работе мозга?
Базовый чек-лист по SEO перед сдачей сайта заказчику
Что посмотреть и куда сходить разработчку — ближайшие события