Ученые создали нейросеть, способную переводить текст в видео

Ученые разработали нейросеть, способную переводить текст в видео

Американские ученые разработали нейронную сеть, позволяющую генерировать видеоряд по короткому отрывку текста, например, «игра в гольф на траве» или «кайтсерфинг на море». Длина видео — 32 кадра (около 1 секунды), разрешение — 64×64 пикселя.

Текст в видео

Генерация происходит в два этапа. На первой стадии нейросеть улавливает суть текста и переводит его в мутное изображение с пятном в том месте, где должно происходить основное действие. Следующий шаг — генерация самого действия.

Авторы научили вторую нейросеть критиковать работу первой и с повышением качества видео поднимать требования. Если задача состоит в том, чтобы проиллюстрировать существующий «парусный спорт на море», второй алгоритм будет ожидать видеоролика, сопоставимого с реальным. Но рамками физического мира нейросеть не ограничена и способна генерировать видео абсурдных действий, к примеру, «парусный спорт на снегу» и «игра в гольф в бассейне».

Исследователи тренировали нейросети на десяти видах сцен. Простой алгоритм классификации правильно определял действие из предложенных вариантов в половине случаев.

Подробнее о работе алгоритма можно узнать из исходной статьи «Video Generation from Text».

Источник: Science

Ещё интересное для вас:
Тест: какой язык программирования вам стоит выбрать для изучения?
Тест: как хорошо вы разбираетесь в Data Science?
Соревнования и бесплатная онлайн-школа для программистов