AudioCraft — нейросеть для создания музыки по описанию
AudioCraft позволяет преобразовывать текст в код, обучать ИИ-модели для генерации музыки и получать вывод в виде звуковых дорожек.
AudioCraft — это библиотека для PyTorch, которая позволяет генерировать нейросетевую музыку.
Это инструмент, который позволяет преобразовывать текст в код, обучать ИИ-модели для генерации музыки и получать вывод в виде звуковых дорожек. Сами ИИ для генерации музыки — это AudioGen и MusicGen.
Что входит в AudioCraft
AudioCraft состоит из четырех инструментов:
- MusicGen: нейросеть для создания музыки из текстового описания. Есть четыре предобученные модели.
а) musicgen-small — 300М, превращает текст в музыку.
б) musicgen-medium — 1.5В, также превращает текст в музыку.
в) musicgen-melody — 1.5В, превращает текст в музыку, также преобразует текст и мелодию в полноценную песню.
г) musicgen-large — 3.3В, превращает текст в музыку. - AudioGen: 1.5В-нейросеть для преобразования текста в звук. Она отличается от AudioGen тем, что генерирует не музыку, а, к примеру, звуки шагов по снегу, пение сверчков, и так далее.
- EnCodec: нейронный высокоточный аудиокодек.
- Multi Band Diffusion: совместимый с EnCodec декодер.
Установка AudioCraft
Для работы с AudioCraft понадобятся Python 3.9 и PyTorch 2.0.0.
Чтобы установить AudioCraft, выполните следующую команду:
Мы рекомендуем установить ffmpeg через Терминал, если вы используете Linux, либо через Anaconda:
Примеры сгенерированной музыки
На YouTube есть масса примеров с музыкой, сгенерированной AudioCraft. Эта музыка сильно отличается друг от друга: есть композиционно замечательные мелодии, а есть неудачные, в которых даже ритм страдает.
Как и в случае с ChatGPT или с Midjourney, всё зависит от промпта. Чем больше деталей вы укажете в запросе, тем качественнее будет результат. Ниже — подборка музыки, которая получилась удачной. Обратите внимание, что в каждом промпте первым делом указаны bpm — удары в минуту.
8К открытий11К показов