Google и MIT работают над ИИ, способным слышать и видеть одновременно

Исследователи из Google и MIT разрабатывают алгоритмы, которые помогут ИИ воспринимать визуальную, текстовую и звуковую информацию.

Массачусетский технологический институт (MIT) и Google занимаются разработкой алгоритмов, которые дадут ИИ возможность воспринимать визуальную, текстовую и аудио-информацию для общения с людьми и повышения эффективности взаимодействия с окружающей средой.

Google сосредоточилась на распознавании речи и переводе

Совсем недавно компания представила многозадачную нейронную сеть MultiModel. Исследователи из Google заявляют:

Глубокое обучение дает отличные результаты во многих областях, от распознавания речи, и классификации изображений до перевода. Мы представляем единую модель для решения задач различного типа.

Они также отмечают, что новые алгоритмы потенциально могут упростить взаимное обучение между различными ИИ, что уменьшит участие человека в этом процессе.

Исследователи MIT углубились в область машинного зрения

Целью исследований было выявление способности алгоритмов идентифицировать данные и обмениваться ими с помощью человеческих чувств. Эксперимент проводился на уровне «раздражитель-реакция». Другими словами, на «органы чувств» подавался раздражитель, а система по четко заданной инструкции училась реагировать на них.

В результате ИИ научился распознавать различные формы входящей информации и реагировать на них соответствующим способом. Использовались звуки и изображения машин, людей и животных, а ИИ описывал их внешний вид и совершаемые действия.

Когда человек смотрит на фото своих близких и улыбается, кажется, что ничего сложного не происходит, однако в этот момент одновременно происходит большое количество процессов. Машина же на сегодняшний день может отреагировать только на один из раздражителей: например, либо распознать изображение, либо «услышать» звук. Будем надеяться, что исследователи из Google и MIT сделают шаг вперед в этой области.

512 открытий512 показов

Также рекомендуем

GOODY-2 — самый ответственный бот и главный по отмазкам среди нейросетей

Что бы вы у него ни спросили, Goody-2 найдет отмазку или уклонится от ответа. Даже если вы спросите, как дышать или почему щенки такие милые. Это тонкая сатира на ответы популярных Gemin и ChatGPT и, возможно, самый безопасный чат-бот.

Вышли Raspberri Pi 5 и открытая языковая модель Mistral AI. Ушли JetBrains и Binance — IT-новости

Составили подборку новостей из мира IT. JetBrains и Binance ушли из России, выпущены новая Raspberry Pi и открытая языковая модель Mistral AI.

Как «Строки» подбирают контент, который понравится читателям

Рассказали, какие рекомендательные системы используют и как их улучшают в онлайн-сервисе для читающих людей от МТС.

Развитие нейросетей и ИИ в Google: почему не всё так просто

Разобрались, как Google развивает решения на основе нейросетей и искусственного интеллекта, и с какими проблемами сталкивается.