В MIT создали нейросеть, распознающую объекты по голосовому описанию
Новости
Ученые соединили алгоритмы распознавания изображений и речи для создания нейросети, которая сопоставляет картинку и голос.
1К открытий1К показов
Ученые из Лаборатории информатики и искусственного интеллекта (CSAIL) MIT опубликовали отчет о новой модели машинного обучения, которая способна сопоставлять объекты на изображении с их голосовым описанием. За основу исследователи взяли работу 2016 года и улучшили ее, научив соединять определенные спектрограммы голоса с определенными фрагментами пикселей. Инженеры надеются, что в будущем их модель будет полезна в синхронном переводе.
Соответствие между звуком и картинкой
В основе алгоритма MIT лежат две сверточные нейронные сети. Первая делит изображение на сетку ячеек, а вторая составляет спектрограмму голоса — визуальное представление частотного спектра — и также дробит ее на сегменты длиной в одно слово. Затем система сравнивает каждую ячейку пикселей с отрезком спектрограммы и считает степень похожести. На основе этого параметра нейросеть определяет, какая пара «объект — слово» верна, а какая — нет.
Процесс обучения
После изучения базы из 400 000 изображений система смогла сопоставить несколько сотен слов с объектами. После каждой итерации она сужала параметр соответствия, чтобы определять конкретные слова, связанные с конкретными объектами.
У нас появилась идея построить модель машинного обучения таким же образом, как учат детей, когда рассказывают им, что они видят во время прогулок.
В MIT считают, что такой подход упростит автоматический перевод между несколькими языками, так как он не требует текстового описания предметов.
Системы распознавания изображений и голоса уже справляются со своей задачей, но требуют для этого больших ресурсов. В апреле 2018 года Google объявила о конкурсе разработок в области глубинных сетей и компьютерного зрения на смартфонах. Он призван найти способы оптимизации работы систем распознавания в реальном времени.
1К открытий1К показов