Google и MIT работают над ИИ, способным слышать и видеть одновременно

Google и MIT

Массачусетский технологический институт (MIT) и Google занимаются разработкой алгоритмов, которые дадут ИИ возможность воспринимать визуальную, текстовую и аудио-информацию для общения с людьми и повышения эффективности взаимодействия с окружающей средой.

Google сосредоточилась на распознавании речи и переводе

Совсем недавно компания представила многозадачную нейронную сеть MultiModel. Исследователи из Google заявляют:

Глубокое обучение дает отличные результаты во многих областях, от распознавания речи, и классификации изображений до перевода. Мы представляем единую модель для решения задач различного типа.

Они также отмечают, что новые алгоритмы потенциально могут упростить взаимное обучение между различными ИИ, что уменьшит участие человека в этом процессе.

Исследователи MIT углубились в область машинного зрения

Целью исследований было выявление способности алгоритмов идентифицировать данные и обмениваться ими с помощью человеческих чувств. Эксперимент проводился на уровне «раздражитель-реакция». Другими словами, на «органы чувств» подавался раздражитель, а система по четко заданной инструкции училась реагировать на них.

В результате ИИ научился распознавать различные формы входящей информации и реагировать на них соответствующим способом. Использовались звуки и изображения машин, людей и животных, а ИИ описывал их внешний вид и совершаемые действия.

Когда человек смотрит на фото своих близких и улыбается, кажется, что ничего сложного не происходит, однако в этот момент одновременно происходит большое количество процессов. Машина же на сегодняшний день может отреагировать только на один из раздражителей: например, либо распознать изображение, либо «услышать» звук. Будем надеяться, что исследователи из Google и MIT сделают шаг вперед в этой области.

Источник: The Stack