Нейросеть научилась превращать изображения в звук

Автор: Андрей Карпов

Нейросеть обучили превращать картины в музыку. Система соотносит визуальные ощущения со звуками и выдаёт результат — мелодию.

Нейросеть состоит из двух частей. Одна кодирует изображение специальным кодировщиком для изображений, вторая декодирует его в музыку декодировщиком для аудиофайлов. Алгоритм использует метод обучения без учителя: ему не нужны пары картин и мелодий, чтобы понять, как их соотносить. Вместо этого разработчики применили двунаправленный автокодировщик. Система сначала преобразует рисунок в музыку, потом эту мелодию преобразует обратно в изображение. Полученную картинку она сравнивает с исходником и таким образом повышает точность работы.

Всё это, конечно, здорово, но возникает закономерный вопрос: зачем?

Художники, фотографы и дизайнеры создают крутые изображения, чтобы передавать информацию другим людям. Но воспринимать такой формат могут не все. Тут приходит на помощь алгоритм — он передаёт тот же посыл звуками.

Послушать, как звучит письменная «4», играющий в траве котёнок или картины Ван Гога, можно на сайте проекта.

Source: N+1