DeepMind представила парадигму машинного обучения, не требующую большого объема входных данных
Новости
Искусственный интеллект сам учится складывать кубики в коробку.
3К открытий3К показов
DeepMind, дочерняя компания Google, опубликовала статью о новой парадигме обучения — Scheduled Auxiliary Control или SAC-X (запланированное вспомогательное управление). Исследователи создали модель, которая учится самостоятельно выполнять задание с нуля, без большого количества входных данных.
Алгоритм протестирован на компьютерных симуляциях, затем — с использованием реального оборудования.
Базовые навыки
Разработчики поставили основную задачу: сложить кубики в коробку. Успех ИИ в этом деле определяется владением ключевыми зрительно-моторными навыками — приближение к объекту, захват и подъем, открытие коробки и укладывание предметов внутрь.
Агент ИИ должен самостоятельно научиться координировать девять суставов механической руки, чтобы выполнить действия в правильной последовательности.
Парадигма SAC-X основана на идее, что для выполнения сложных задач ИИ должен сначала научиться исследовать доступную зону и овладеть набором базовых навыков. Помимо основного задания агент получает несколько вспомогательных, которые поощряют исследовать пространство в доступе сенсоров. Например, активировать тактильные сенсоры в пальцах, ощутить силу запястья, увеличить до максимума угол сустава в проприоцептивных датчиках или приблизиться к объекту в зоне видимости.
Вспомогательные промежуточные цели увеличивают шансы на понимание и выполнение более сложных заданий. Достижение каждой сопровождается сигналом о вознаграждении.
Эффективность данных
Агент самостоятельно выбирает следующую цель. Принять решение помогает модуль планирования, который также в процессе тренировки самосовершенствуется по алгоритму метаобучения. С планировщиком агент использует минимум входных данных с максимальной эффективностью.
3К открытий3К показов