ИИ научился подбирать звуковую среду к изображениям

Команда исследователей из Японии запустила новую версию Imaginary Soundscape. Проект на основе искусственного интеллекта принимает изображения и возвращает подходящий, по мнению нейросети, звуковой пейзаж.

Особенно своеобразными оказываются результаты загрузки логотипов компаний и абстрактных картинок — например, в логотипе Tproger нейросеть разглядела звон бокалов.

Как работает Imaginary Soundscape?

В основе приложения лежит механизм распознавания объектов и база из 52 000 звуковых файлов. Когда на загруженной картинке присутствует образ, который ИИ способен идентифицировать, в дорожку-результат добавляется соответствующий звук. В качестве демонстрации сами разработчики предлагают опробовать приложение на живописи, уже доступной на сайте проекта. Кроме того, новая версия Imaginary Soundscape распознаёт фотографии улиц, подбирая звуковое окружение не хуже, чем первый релиз к фотографиям с Google Street View.

Ниже представлена схема работы приложения:Imaginary Soundscape

Распознавание объектов с помощью ИИ остаётся актуальной темой исследований и для гигантов IT. В частности, 8 мая 2018 года Google сообщила об интеграции своей системы визуального поиска с приложением камеры, карты и Ассистента в Android P.

Источник: The Verge