DeepMind представила парадигму машинного обучения, не требующую большого объема входных данных

Исследователи DeepMind создали новый алгоритм обучения, для которого не нужно много входных данных. Перед выполнением основной задачи ИИ учится исследовать окружающее пространство и управлять манипулятором.

DeepMind, дочерняя компания Google, опубликовала статью о новой парадигме обучения — Scheduled Auxiliary Control или SAC-X (запланированное вспомогательное управление). Исследователи создали модель, которая учится самостоятельно выполнять задание с нуля, без большого количества входных данных.

Алгоритм протестирован на компьютерных симуляциях, затем — с использованием реального оборудования.

Базовые навыки

Разработчики поставили основную задачу: сложить кубики в коробку. Успех ИИ в этом деле определяется владением ключевыми зрительно-моторными навыками — приближение к объекту, захват и подъем, открытие коробки и укладывание предметов внутрь.

Агент ИИ должен самостоятельно научиться координировать девять суставов механической руки, чтобы выполнить действия в правильной последовательности.

Парадигма SAC-X основана на идее, что для выполнения сложных задач ИИ должен сначала научиться исследовать доступную зону и овладеть набором базовых навыков. Помимо основного задания агент получает несколько вспомогательных, которые поощряют исследовать пространство в доступе сенсоров. Например, активировать тактильные сенсоры в пальцах, ощутить силу запястья, увеличить до максимума угол сустава в проприоцептивных датчиках или приблизиться к объекту в зоне видимости.

Вспомогательные промежуточные цели увеличивают шансы на понимание и выполнение более сложных заданий. Достижение каждой сопровождается сигналом о вознаграждении.

Эффективность данных

Агент самостоятельно выбирает следующую цель. Принять решение помогает модуль планирования, который также в процессе тренировки самосовершенствуется по алгоритму метаобучения. С планировщиком агент использует минимум входных данных с максимальной эффективностью.

3К открытий3К показов

Также рекомендуем

Дата-аналитик и ML-инженер: разбираем обязанности специалистов

Рассказываем, чем занимается ML-инженер на примере задач в Дзене и разбираемся, как с этим связан дата-аналитик.

5 признаков, что вам пора в Data Science

Хотите в Data Science, но не знаете, какое направление выбрать? Собрали признаки, которые помогут определиться и выбрать профессию.

Roop — инструмент для создания дипфейков

Рассказали об инструменте для генерации дипфейков Roop, который позволяет заменить лицо на видео без предварительного обучения модели.

Маск обвиняет нейросети в новых ограничениях Twitter

Маск винит в ограничениях Twitter компании, пытающиеся получить данные для обучения моделей языка вроде ChatGPT, Microsoft Bing и Google Bard.