В MIT создали нейросеть, распознающую объекты по голосовому описанию

MIT AI

Ученые из Лаборатории информатики и искусственного интеллекта (CSAIL) MIT опубликовали отчет о новой модели машинного обучения, которая способна сопоставлять объекты на изображении с их голосовым описанием. За основу исследователи взяли работу 2016 года и улучшили ее, научив соединять определенные спектрограммы голоса с определенными фрагментами пикселей. Инженеры надеются, что в будущем их модель будет полезна в синхронном переводе.

Соответствие между звуком и картинкой

В основе алгоритма MIT лежат две сверточные нейронные сети. Первая делит изображение на сетку ячеек, а вторая составляет спектрограмму голоса — визуальное представление частотного спектра — и также дробит ее на сегменты длиной в одно слово. Затем система сравнивает каждую ячейку пикселей с отрезком спектрограммы и считает степень похожести. На основе этого параметра нейросеть определяет, какая пара «объект — слово» верна, а какая — нет.

Процесс обучения

После изучения базы из 400 000 изображений система смогла сопоставить несколько сотен слов с объектами. После каждой итерации она сужала параметр соответствия, чтобы определять конкретные слова, связанные с конкретными объектами.

У нас появилась идея построить модель машинного обучения таким же образом, как учат детей, когда рассказывают им, что они видят во время прогулок.

Дэвид Харват, исследователь и cоавтор работы

В MIT считают, что такой подход упростит автоматический перевод между несколькими языками, так как он не требует текстового описания предметов.

Системы распознавания изображений и голоса уже справляются со своей задачей, но требуют для этого больших ресурсов. В апреле 2018 года Google объявила о конкурсе разработок в области глубинных сетей и компьютерного зрения на смартфонах. Он призван найти способы оптимизации работы систем распознавания в реальном времени.

via VentureBeat
Source: MIT News

Подобрали три теста для вас:
— А здесь можно применить блокчейн?
Серверы для котиков: выберите лучшее решение для проекта и проверьте себя.
Сложный тест по C# — проверьте свои знания.

Также рекомендуем: