DeepMind представила новую архитектуру для нейросетей, работающих с числами

Команда исследователей из DeepMind разработала новую архитектуру, позволяющую нейросетям эффективнее выполнять связанные с числами задачи. Она подразумевает создание модуля с описанными в нем основными математическими операциями. Модуль получил название нейронной арифметико-логической единицы (Neural Arithmetic Logic Unit, NALU) в честь арифметико-логических устройств из процессоров традиционной архитектуры.

Проблема высокого порядка

Ученые обратили внимание, что нейронные сети редко способны успешно обобщать понятия вне того дата-сета, на котором их тренировали. К примеру, при работе с числами модели плохо экстраполируют данные на величины высокого порядка. Изучив проблему, исследователи выяснили, что она распространяется также на другие арифметические функции.

Получается, что нейросети изучают числа так же, как и слова: составляя законченный словарь. Это мешает им качественно экстраполировать полученные знания на числа более высокого порядка. Наша задача — предложить новую архитектуру, которая позволит улучшить экстраполяцию данных.

Эндрю Траск, ведущий исследователь проекта

Подход NALU

Структура с NALU предлагает предопределять набор основных, потенциально полезных математических функций (сложение, вычитание, деление и умножение). Впоследствии нейросеть сама решает, где эти функции лучше всего использовать, вместо того, чтобы выяснять с нуля, что она из себя представляет.

Проведенные тесты показали, что нейросети с новой архитектурой способны на обучение таким задачам, как отслеживание периодов времени, выполнение арифметических действий над изображениями чисел, подсчет объектов на картинке и исполнение компьютерного кода. Ученые подробно описали архитектуру и ее тестирование в статье на arXiv.

В марте 2018 года DeepMind представила новую парадигму обучения ИИ-моделей. В отличие от стандартных методов, она не требует большого набора входных данных: алгоритм учится выполнять задания самостоятельно, постепенно овладевая необходимыми навыками.

Источник: TechXplore

Подобрали три теста для вас:
— А здесь можно применить блокчейн?
Серверы для котиков: выберите лучшее решение для проекта и проверьте себя.
Сложный тест по C# — проверьте свои знания.

Также рекомендуем: