ИИ научился подбирать звуковую среду к изображениям

Новости

Новая версия проекта Imaginary Soundscape, подготовленная командой Qosmo из Японии, получила улучшенные инструменты визуального распознавания объектов и расширенную базу дорожек для озвучивания изображений.

1К открытий1К показов

Команда исследователей из Японии запустила новую версию Imaginary Soundscape. Проект на основе искусственного интеллекта принимает изображения и возвращает подходящий, по мнению нейросети, звуковой пейзаж.

Особенно своеобразными оказываются результаты загрузки логотипов компаний и абстрактных картинок — например, в логотипе Tproger нейросеть разглядела звон бокалов.

Как работает Imaginary Soundscape?

В основе приложения лежит механизм распознавания объектов и база из 52 000 звуковых файлов. Когда на загруженной картинке присутствует образ, который ИИ способен идентифицировать, в дорожку-результат добавляется соответствующий звук. В качестве демонстрации сами разработчики предлагают опробовать приложение на живописи, уже доступной на сайте проекта. Кроме того, новая версия Imaginary Soundscape распознаёт фотографии улиц, подбирая звуковое окружение не хуже, чем первый релиз к фотографиям с Google Street View.

Ниже представлена схема работы приложения:

Распознавание объектов с помощью ИИ остаётся актуальной темой исследований и для гигантов IT. В частности, 8 мая 2018 года Google сообщила об интеграции своей системы визуального поиска с приложением камеры, карты и Ассистента в Android P.

1К открытий1К показов

Также рекомендуем

🔥 Экс-хакер заявил, что LLM не умеют рассуждать и не станут AGI

Экс-хакер раскритиковал LLM: модели не умеют рассуждать, не станут AGI и ведут к деградации навыков, несмотря на хайп и иллюзии прогресса

ТОП-6 генераторов текста, нейросети и ИИ-сервисы для помощи в написании текстов в 2025 году

ТОП-6 лучших ИИ-сервисов для генерации текста 2025 года. Нейросети для учёбы, бизнеса и исследований: пишите быстрее, умнее и без лишних волнений

🔥 Казахстан включил ИИ в совет директоров фонда национального благосостояния

Казахстан включил ИИ SKAI в совет директоров фонда «Самрук-Казына»: нейросеть с правом голоса будет помогать принимать управленческие решения

Нейросети для создания презентаций. ТОП-5 сайтов, где можно сгенерировать бесплатно

Обзор 5 лучших сервисов с нейросетью для создания презентаций бесплатно. Сравнение функционала, плюсов и минусов, советы по выбору.