Искусственный интеллект научили ориентироваться в Нью-Йорке

Компания Facebook обучила ИИ ориентированию, используя виртуальные изображения Нью-Йорка и диалоги людей в программе Talk The Walk.

Сотрудники отделения исследований искусственного интеллекта в Facebook (FAIR) создали программу Talk The Walk, которая научила компьютер ориентированию.

Цель программы

Специалисты компании считают, что ИИ сможет быть полезен в повседневной жизни, лишь когда полностью научится понимать человеческий язык. Для этого требуется обучение в жизненных ситуациях, а не тренировки ИИ на большом количестве текстовых данных. Talk The Walk была создана, чтобы понять, на сколько коммуникация, восприятие и действия могут повлиять на обучение машины человеческому языку.

Процесс обучения

5 районов Нью-Йорка (Адская кухня, Ист-Виллидж, Финансовый район и верхний Ист-Сайд, а также Вильямсбург в Бруклине) сняли на камеру с углом обзора 360°. Затем создали двух агентов ИИ: «туриста» и «гида», задав пункт назначения в виртуальных районах.

«Туристу» предстояло обрабатывать изображения и передавать «гиду» информацию о том, что видит первый. У «гида» в качестве информации была только 2D-карта с метками (например, «ресторан» или «бар»). Похожую задачу давали людям, в ходе которой с помощью сервиса Amazon Mechanical Turk записали более 10 тыс. диалогов успешного выполнения задания.

Искусственный интеллект научили ориентироваться в Нью-Йорке 1

Хотя ИИ обучался, используя эту базу данных, исследователи добавили вспомогательную возможность общения на машинном языке. Таким образом, «гид» и «турист» могли обмениваться исходными данными.

Выполнение задачи и результаты

ИИ определял местоположение при помощи технологии MASC (Masked Attention for Spatial Convolution). Она выбирала приоритетные ключевые слова из информации «гида», и «турист» лучше понимал, куда двигаться. Согласно исследованию, технология повысила эффективность поиска необходимой точки вдвое по сравнению с людьми (средним показателем были 44 действия и 8−9 реплик от каждого из участников). При этом, когда программа самостоятельно генерировала сообщения, а не использовала готовые фразы из диалогов, алгоритм выполнялся гораздо лучше.

Facebook — не единственная компания, которая предпринимает попытки обучить ИИ ориентированию. 4 июля 2018 года специалисты из DeepMind научили агентов играть в Quake III Arena, используя только картинку на экране и позитивный отклик при победе.

711 открытий711 показов

Также рекомендуем

Дайджест Tproger #3: Node.js 20, бот для торговли криптой, сторонние магазины в iOS17

Свежий дайджест Tproger. Что нового в Node.js 20, как Apple разрешила приложения не из AppStore и как прокачалась Midjourney.

Запреты на описание VPN и на использование Open Source — IT-новости

Составили подборку новостей из мира IT. Рассказываем о запрете статьей о VPN, об огранениях Open Source в РФ и о борьбе Google с торрентами.

Нейросети для рисования, если очень хочется красиво

Сделали подборку из рисующих нейросетей, причем у некоторых уже определяется своя специальность, будь то аватарки реальных людей или обложки постов

Windows 11 интегрирует Copilot и чат-бота Bing

Microsoft анонсировала внедрение ИИ в Windows 11: в операционную систему интегрируют языковую модель из Bing и ИИ-помощника Windows Copilot.