Написать пост

Ученые создали нейросеть, способную переводить текст в видео

Аватар Екатерина Никитина

Американские ученые разработали нейронную сеть, позволяющую переводить короткий текст в видео, например, «игра в гольф на траве» или «кайтсерфинг на море». Длина видео — 32 кадра (около 1 секунды), разрешение — 64х64 пикселя.

Американские ученые разработали нейронную сеть, позволяющую генерировать видеоряд по короткому отрывку текста, например, «игра в гольф на траве» или «кайтсерфинг на море». Длина видео — 32 кадра (около 1 секунды), разрешение — 64×64 пикселя.

Текст в видео

Генерация происходит в два этапа. На первой стадии нейросеть улавливает суть текста и переводит его в мутное изображение с пятном в том месте, где должно происходить основное действие. Следующий шаг — генерация самого действия.

Авторы научили вторую нейросеть критиковать работу первой и с повышением качества видео поднимать требования. Если задача состоит в том, чтобы проиллюстрировать существующий «парусный спорт на море», второй алгоритм будет ожидать видеоролика, сопоставимого с реальным. Но рамками физического мира нейросеть не ограничена и способна генерировать видео абсурдных действий, к примеру, «парусный спорт на снегу» и «игра в гольф в бассейне».

Исследователи тренировали нейросети на десяти видах сцен. Простой алгоритм классификации правильно определял действие из предложенных вариантов в половине случаев.

Подробнее о работе алгоритма можно узнать из исходной статьи «Video Generation from Text».

Следите за новыми постами
Следите за новыми постами по любимым темам
5К открытий5К показов