Дмитрий Александров

Google и MIT работают над ИИ, способным слышать и видеть одновременно

Исследователи из Google и MIT разрабатывают алгоритмы, которые помогут ИИ воспринимать визуальную, текстовую и звуковую информацию.

510

Массачусетский технологический институт (MIT) и Google занимаются разработкой алгоритмов, которые дадут ИИ возможность воспринимать визуальную, текстовую и аудио-информацию для общения с людьми и повышения эффективности взаимодействия с окружающей средой.

Google сосредоточилась на распознавании речи и переводе

Совсем недавно компания представила многозадачную нейронную сеть MultiModel. Исследователи из Google заявляют:

Они также отмечают, что новые алгоритмы потенциально могут упростить взаимное обучение между различными ИИ, что уменьшит участие человека в этом процессе.

Исследователи MIT углубились в область машинного зрения

Целью исследований было выявление способности алгоритмов идентифицировать данные и обмениваться ими с помощью человеческих чувств. Эксперимент проводился на уровне «раздражитель-реакция». Другими словами, на «органы чувств» подавался раздражитель, а система по четко заданной инструкции училась реагировать на них.

В результате ИИ научился распознавать различные формы входящей информации и реагировать на них соответствующим способом. Использовались звуки и изображения машин, людей и животных, а ИИ описывал их внешний вид и совершаемые действия.

Когда человек смотрит на фото своих близких и улыбается, кажется, что ничего сложного не происходит, однако в этот момент одновременно происходит большое количество процессов. Машина же на сегодняшний день может отреагировать только на один из раздражителей: например, либо распознать изображение, либо «услышать» звук. Будем надеяться, что исследователи из Google и MIT сделают шаг вперед в этой области.

510