Google и MIT работают над ИИ, способным слышать и видеть одновременно
Исследователи из Google и MIT разрабатывают алгоритмы, которые помогут ИИ воспринимать визуальную, текстовую и звуковую информацию.
Массачусетский технологический институт (MIT) и Google занимаются разработкой алгоритмов, которые дадут ИИ возможность воспринимать визуальную, текстовую и аудио-информацию для общения с людьми и повышения эффективности взаимодействия с окружающей средой.
Google сосредоточилась на распознавании речи и переводе
Совсем недавно компания представила многозадачную нейронную сеть MultiModel. Исследователи из Google заявляют:
Они также отмечают, что новые алгоритмы потенциально могут упростить взаимное обучение между различными ИИ, что уменьшит участие человека в этом процессе.
Исследователи MIT углубились в область машинного зрения
Целью исследований было выявление способности алгоритмов идентифицировать данные и обмениваться ими с помощью человеческих чувств. Эксперимент проводился на уровне «раздражитель-реакция». Другими словами, на «органы чувств» подавался раздражитель, а система по четко заданной инструкции училась реагировать на них.
В результате ИИ научился распознавать различные формы входящей информации и реагировать на них соответствующим способом. Использовались звуки и изображения машин, людей и животных, а ИИ описывал их внешний вид и совершаемые действия.
Когда человек смотрит на фото своих близких и улыбается, кажется, что ничего сложного не происходит, однако в этот момент одновременно происходит большое количество процессов. Машина же на сегодняшний день может отреагировать только на один из раздражителей: например, либо распознать изображение, либо «услышать» звук. Будем надеяться, что исследователи из Google и MIT сделают шаг вперед в этой области.