Написать пост

ИИ научился подбирать звуковую среду к изображениям

Аватар Игорь Микитенко

Новая версия проекта Imaginary Soundscape, подготовленная командой Qosmo из Японии, получила улучшенные инструменты визуального распознавания объектов и расширенную базу дорожек для озвучивания изображений.

Команда исследователей из Японии запустила новую версию Imaginary Soundscape. Проект на основе искусственного интеллекта принимает изображения и возвращает подходящий, по мнению нейросети, звуковой пейзаж.

Особенно своеобразными оказываются результаты загрузки логотипов компаний и абстрактных картинок — например, в логотипе Tproger нейросеть разглядела звон бокалов.

Как работает Imaginary Soundscape?

В основе приложения лежит механизм распознавания объектов и база из 52 000 звуковых файлов. Когда на загруженной картинке присутствует образ, который ИИ способен идентифицировать, в дорожку-результат добавляется соответствующий звук. В качестве демонстрации сами разработчики предлагают опробовать приложение на живописи, уже доступной на сайте проекта. Кроме того, новая версия Imaginary Soundscape распознаёт фотографии улиц, подбирая звуковое окружение не хуже, чем первый релиз к фотографиям с Google Street View.

Ниже представлена схема работы приложения:

Распознавание объектов с помощью ИИ остаётся актуальной темой исследований и для гигантов IT. В частности, 8 мая 2018 года Google сообщила об интеграции своей системы визуального поиска с приложением камеры, карты и Ассистента в Android P.

Следите за новыми постами
Следите за новыми постами по любимым темам
1К открытий1К показов