Google разработала многозадачную нейронную сеть MultiModel

MultiModel

Нейронные сети уже обучены выполнять различные задачи: генерировать комплименты, добавлять анимацию в видеоиграх и управлять роботами. Но зачастую такие системы хорошо выполняют только одну задачу, а попытки обучить систему нескольким задачам приводили к неудовлетворительным результатам.

Однако Google разработала систему, которая способна качественно решать восемь задач одновременно. Многозадачную систему машинного обучения назвали MultiModel. Она научилась распознавать объекты на изображениях, вставлять субтитры, распознавать речь, переводить между четырьмя парами языков с соблюдением правил грамматики и синтаксиса — и она делает всё это одновременно!

Как работает MultiModel?

Образом для модели служил человеческий мозг. Разные типы информации, например, визуальные и аудио-сигналы, обрабатываются различными областями человеческого мозга, но в итоге объединяются в одно целое, что позволяет человеку осознать поступающую информацию. Аналогично, MultiModel имеет небольшие подсети для обработки аудио, изображений и текста, которые подключены к центральной сети.

Производительность системы еще далека от совершенства, «однозадачные» системы пока показывают лучшие результаты. Однако есть пара интересных моментов. Отдельные подсети не только не мешали, но иногда и помогали друг другу.

Как сообщается в блоге компании:

Мы не только получили прирост производительности в многозадачном режиме, но и повысили качество выполнения отдельно стоящих задач. Но что самое удивительное, задачи, предназначенные для разных подсистем, могли дополнять друг друга: например, система распознавания изображений смогла улучшить выполнение задач, связанных с распознаванием языка.

MultiModel пока находится в стадии разработки и является частью open-source библиотеки Tensor2Tensor.

Источник: Engadget