Игра Яндекс Практикума
Игра Яндекс Практикума
Игра Яндекс Практикума

В MIT создали нейросеть, распознающую объекты по голосовому описанию

Новости

Ученые соединили алгоритмы распознавания изображений и речи для создания нейросети, которая сопоставляет картинку и голос.

1К открытий1К показов
В MIT создали нейросеть, распознающую объекты по голосовому описанию

Ученые из Лаборатории информатики и искусственного интеллекта (CSAIL) MIT опубликовали отчет о новой модели машинного обучения, которая способна сопоставлять объекты на изображении с их голосовым описанием. За основу исследователи взяли работу 2016 года и улучшили ее, научив соединять определенные спектрограммы голоса с определенными фрагментами пикселей. Инженеры надеются, что в будущем их модель будет полезна в синхронном переводе.

Соответствие между звуком и картинкой

В основе алгоритма MIT лежат две сверточные нейронные сети. Первая делит изображение на сетку ячеек, а вторая составляет спектрограмму голоса — визуальное представление частотного спектра — и также дробит ее на сегменты длиной в одно слово. Затем система сравнивает каждую ячейку пикселей с отрезком спектрограммы и считает степень похожести. На основе этого параметра нейросеть определяет, какая пара «объект — слово» верна, а какая — нет.

Процесс обучения

После изучения базы из 400 000 изображений система смогла сопоставить несколько сотен слов с объектами. После каждой итерации она сужала параметр соответствия, чтобы определять конкретные слова, связанные с конкретными объектами.

У нас появилась идея построить модель машинного обучения таким же образом, как учат детей, когда рассказывают им, что они видят во время прогулок.

В MIT считают, что такой подход упростит автоматический перевод между несколькими языками, так как он не требует текстового описания предметов.

Системы распознавания изображений и голоса уже справляются со своей задачей, но требуют для этого больших ресурсов. В апреле 2018 года Google объявила о конкурсе разработок в области глубинных сетей и компьютерного зрения на смартфонах. Он призван найти способы оптимизации работы систем распознавания в реальном времени.

Следите за новыми постами
Следите за новыми постами по любимым темам
1К открытий1К показов