Екатерина Никитина

Ученые создали нейросеть, способную переводить текст в видео

Американские ученые разработали нейронную сеть, позволяющую переводить короткий текст в видео, например, «игра в гольф на траве» или «кайтсерфинг на море». Длина видео — 32 кадра (около 1 секунды), разрешение — 64х64 пикселя.

4847

Американские ученые разработали нейронную сеть, позволяющую генерировать видеоряд по короткому отрывку текста, например, «игра в гольф на траве» или «кайтсерфинг на море». Длина видео — 32 кадра (около 1 секунды), разрешение — 64×64 пикселя.

Текст в видео

Генерация происходит в два этапа. На первой стадии нейросеть улавливает суть текста и переводит его в мутное изображение с пятном в том месте, где должно происходить основное действие. Следующий шаг — генерация самого действия.

Авторы научили вторую нейросеть критиковать работу первой и с повышением качества видео поднимать требования. Если задача состоит в том, чтобы проиллюстрировать существующий «парусный спорт на море», второй алгоритм будет ожидать видеоролика, сопоставимого с реальным. Но рамками физического мира нейросеть не ограничена и способна генерировать видео абсурдных действий, к примеру, «парусный спорт на снегу» и «игра в гольф в бассейне».

Исследователи тренировали нейросети на десяти видах сцен. Простой алгоритм классификации правильно определял действие из предложенных вариантов в половине случаев.

Подробнее о работе алгоритма можно узнать из исходной статьи «Video Generation from Text».

Следите за новыми постами по любимым темам

Подпишитесь на интересующие вас теги, чтобы следить за новыми постами и быть в курсе событий.

Машинное обучение
Нейронные сети
Искусственный интеллект
4847
Что думаете?
0 комментариев
Сначала интересные