DeepMind представила новую архитектуру для нейросетей, работающих с числами
Новости
Она подразумевает создание модуля с предопределенными, потенциально полезными математическими функциями. Так нейросети лучше обучаются работе с числами.
852 открытий854 показов
Команда исследователей из DeepMind разработала новую архитектуру, позволяющую нейросетям эффективнее выполнять связанные с числами задачи. Она подразумевает создание модуля с описанными в нем основными математическими операциями. Модуль получил название нейронной арифметико-логической единицы (Neural Arithmetic Logic Unit, NALU) в честь арифметико-логических устройств из процессоров традиционной архитектуры.
Проблема высокого порядка
Ученые обратили внимание, что нейронные сети редко способны успешно обобщать понятия вне того дата-сета, на котором их тренировали. К примеру, при работе с числами модели плохо экстраполируют данные на величины высокого порядка. Изучив проблему, исследователи выяснили, что она распространяется также на другие арифметические функции.
Получается, что нейросети изучают числа так же, как и слова: составляя законченный словарь. Это мешает им качественно экстраполировать полученные знания на числа более высокого порядка. Наша задача — предложить новую архитектуру, которая позволит улучшить экстраполяцию данных.
Подход NALU
Структура с NALU предлагает предопределять набор основных, потенциально полезных математических функций (сложение, вычитание, деление и умножение). Впоследствии нейросеть сама решает, где эти функции лучше всего использовать, вместо того, чтобы выяснять с нуля, что она из себя представляет.
Проведенные тесты показали, что нейросети с новой архитектурой способны на обучение таким задачам, как отслеживание периодов времени, выполнение арифметических действий над изображениями чисел, подсчет объектов на картинке и исполнение компьютерного кода. Ученые подробно описали архитектуру и ее тестирование в статье на arXiv.
В марте 2018 года DeepMind представила новую парадигму обучения ИИ-моделей. В отличие от стандартных методов, она не требует большого набора входных данных: алгоритм учится выполнять задания самостоятельно, постепенно овладевая необходимыми навыками.
852 открытий854 показов