Написать пост

DeepMind представила новую архитектуру для нейросетей, работающих с числами

Аватар Екатерина Никитина

Она подразумевает создание модуля с предопределенными, потенциально полезными математическими функциями. Так нейросети лучше обучаются работе с числами.

Команда исследователей из DeepMind разработала новую архитектуру, позволяющую нейросетям эффективнее выполнять связанные с числами задачи. Она подразумевает создание модуля с описанными в нем основными математическими операциями. Модуль получил название нейронной арифметико-логической единицы (Neural Arithmetic Logic Unit, NALU) в честь арифметико-логических устройств из процессоров традиционной архитектуры.

Проблема высокого порядка

Ученые обратили внимание, что нейронные сети редко способны успешно обобщать понятия вне того дата-сета, на котором их тренировали. К примеру, при работе с числами модели плохо экстраполируют данные на величины высокого порядка. Изучив проблему, исследователи выяснили, что она распространяется также на другие арифметические функции.

Получается, что нейросети изучают числа так же, как и слова: составляя законченный словарь. Это мешает им качественно экстраполировать полученные знания на числа более высокого порядка. Наша задача — предложить новую архитектуру, которая позволит улучшить экстраполяцию данных.

Подход NALU

Структура с NALU предлагает предопределять набор основных, потенциально полезных математических функций (сложение, вычитание, деление и умножение). Впоследствии нейросеть сама решает, где эти функции лучше всего использовать, вместо того, чтобы выяснять с нуля, что она из себя представляет.

Проведенные тесты показали, что нейросети с новой архитектурой способны на обучение таким задачам, как отслеживание периодов времени, выполнение арифметических действий над изображениями чисел, подсчет объектов на картинке и исполнение компьютерного кода. Ученые подробно описали архитектуру и ее тестирование в статье на arXiv.

В марте 2018 года DeepMind представила новую парадигму обучения ИИ-моделей. В отличие от стандартных методов, она не требует большого набора входных данных: алгоритм учится выполнять задания самостоятельно, постепенно овладевая необходимыми навыками.

Машинное обучение
Нейронные сети
850