Написать пост

В MIT создали нейросеть TRN, которая угадывает действия с объектами

Аватар Сергей Штукатуров

ИИ определяет манипуляции, происходящие с объектами на экране. Temporal Relation Network смогла даже предугадывать намерение совершить действие.

Обложка поста В MIT создали нейросеть TRN, которая угадывает действия с объектами

Сотрудники лаборатории искусственного интеллекта MIT рассказали о результатах тестирования Temporal Relation Network (TRN). Эта нейросеть изучает видеоролики и определяет, что происходит с объектами на записи с течением времени. Более того, система научилась прогнозировать некоторые события, узнав не само действие, а намерение его совершить.

Превью видео JBwSk6nJOyM

Принцип работы Temporal Relation Network

Обрабатывая видеозапись, TRN не анализирует каждый кадр, а выделяет базовые планы и группирует их в кластеры. После этого содержимое полученных кластеров проверяется на соответствие известным системе видам манипуляций. Учёным удалось добиться 95 % точности работы искусственного интеллекта. Temporal Relation Network смогла даже предугадывать события, например, обозначая действие как «собирается открыть книгу». Кроме того, если верить разработчикам, по балансу между точностью и производительностью их нейросеть превосходит известные аналоги.

Базовая структура разработки — свёрточная нейронная сеть, стандартное решение для систем распознавания образов. Для обучения создатели Temporal Relation Network использовали три датасета: самый крупный, Jester, содержащий 150 000 видео и 27 движений руками, а также Something-Something от компании TwentyBN и Charades, разработанный Университетом Карнеги — Меллона.

Планы развития

Созданная в MIT сеть распознаёт манипуляции, но не сами объекты. Разработчики собираются устранить этот недостаток в будущем. Кроме того, запланирована реализация концепции, названной «интуитивная физика». Как заявляют сотрудники института, это означает, что для объектов на видео ИИ будет определять физические свойства.

Нейронные сети обучают распознавать действия людей во благо обществу. В июне 2018 года учёные из Индии и Великобритании разработали ИИ, который обнаруживает насильственные действия в толпе. Он распознает удары, пинки, стрельбу, поножовщину, удушения и передает видео в режиме реального времени по мобильной связи.

Следите за новыми постами
Следите за новыми постами по любимым темам
1К открытий1К показов