30 нейросетей для работы с изображениями и видео

Отредактировано

Составили подборку из 30 нейросетевых инструментов для обработки изображений и видео в порядке появления их на рынке ИИ.

60К открытий66К показов

Составили подборку нейросетевых инструментов для обработки изображений и видео. По крайней мере, указали всё, что более-менее хайповало.

Обработка и генерация фотографий и видео с помощью всяких нейросетей в тренде уже год-полтора, и только сейчас их начинает двигать ChatGPT. Поэтому можно оглянуться назад и вспомнить всё, что понаделали эксперты из больших компаний по этой теме.

  1. Трансфер стиля на фотографии
  2. Великий и ужасный DALL-E, с которого всё началось
  3. Апскейлинг и восстановление старых видео
  4. Генерация аниме-девочек
  5. Генерация реалистичных несуществующих людей (дабы не было вопросов к тому, как в датасете появлялись реальные фотографии)
  6. Редактирование видео на лету с изменениями стиля
  7. Создание 3D-панорамы из нескольких фото
  8. Редактирование видео от Adobe
  9. Создание изображений по описанию от NVIDIA
  10. Нейросеть GLIDE для локального изменения изображений
  11. Google Collab с реалистичными фильтрами а-ля Snapchat
  12. Редактирование людей на видео (эмоции, возраст, макияж)
  13. Редактирование изображений от NVIDIA (лучше, чем было)
  14. DALL-E 2: Electric Boogalo
  15. Нейросеть Imagen для генерации изображений от Google
  16. Стилизованное изменение изображений от NVIDIA (StyleGAN-NADA)
  17. Ещё одна генерация изображений от Google (Parti AI)
  18. Дипфейки от Samsung
  19. Генерация текстур от OpenAI
  20. Stable Diffusion 1.4 (ну вы же все знаете что это)
  21. Модификация фотографий от Google (DreamBooth)
  22. Генерация изображения «вглубь» от Google (InfiniteNature-Zero)
  23. Генерация 3D-ассетов от Google (DreamFusion)
  24. Text-to-video от Google
  25. Waifu-diffusion (создай свою аниме-девочку)
  26. Анимирование изображений от Google (StyleGAN)
  27. Style-трансфер на видео с людьми
  28. Спецэффекты на видео с помощью текста от NVIDIA
  29. Локальное изменение изображений с помощью текста от Google
  30. Создание короткометражек по сценарию от Google AI

Трансфер стиля на фотографии

Парень объясняет как можно стилизовать одно изображение под другое, используя специально натренированную под это дело модель. С примерами кода, само собой.

Превью видео bFeltWvzZpQ

Великий и ужасный DALL-E, с которого всё началось

DALL-E — это вариация нейросети-трансформера GPT-3, самой современной модели для обработки естественных языков. Русская нейросеть ruDALL-E была основана на зарубежной модели.

Превью видео 3X1cVukJzjM

Апскейлинг и восстановление старых видео

Архитектура, примеры, объяснения зачем и почему, всё как вы любите.

Превью видео EjVzjxihGvU

Свёрточные нейронные сети широко используются в задачах распознавания изображений. Отличие от стандартных нейронных сетей, где все сигналы передаются от каждого нейрона предыдущего слоя на следующий, то тут используются специальные матрицы свертки разных размеров, которая скользит по изображению, умножается поэлементно на то, что под ней и передает сумму результата дальше в элемент следующего слоя.

Вот, как они работают:

Превью видео bNb2fEVKeEo

Генерация аниме-девочек

Хотите создавать аниме-девочек, которые никогда не существовали? Опять обращаемся к генеративным нейронным сетям. Нам поможет нейросеть StyleGAN2 и её реализация на TensorFlow. Если у вас есть набор лиц одного стиля, то эта нейросеть прекрасно справляется с тем, чтобы поймать этот стиль и начать генерировать.

Превью видео 812sdpwFgoM

Генерация реалистичных несуществующих людей

Нейросети научились генерировать лица несуществующих людей, которые человек не может определить. Позже Microsoft решили использовать эти лица, чтобы тренировать другие нейросети.

Результаты исследования показали, что детекторы и мапперы лиц, натренированные на синтетических людях показывают практически те же результаты, что и state of the art модели, которые обучались на реальных данных. И вот таким щелчком пальцев можно избавиться от предвзятости нейронных сетей из-за несбалансированного датасета и проблем с этикой.

Превью видео wXaVokqhHDk

Редактирование видео на лету с изменениями стиля

Новый метод позволил ИИ делать сразу много разных вариантов работы с видео. Он позволяет генерировать новые экземпляры, увеличивать длительность, добавлять/убирать элементы с определёнными условиями, при этом всё из одного стартового видео.

Можно создать фарш из воды, добавить футболистов в матч или продлить выступление балерины.

Превью видео S-Jj3ybaUNg

Создание 3D-панорамы из нескольких фото

Создать панораму поможет view synthesis, описывающая недавно разработанный метод под названием NeX.

Чем он лучше других? Качеством (можете посмотреть на примерах), а ещё он работает в тысячу раз быстрее методов, опубликованных всего год назад.

Какие могут быть применения? Представьте что для создания VR-музея вам надо сделать небольшое количество снимков, а остальные точки зрения дорисует нейросеть.

Результаты работы надо обязательно посмотреть в видео, потому что то, как модель ловит и просчитывает различные варианты освещения и отражения просто надо увидеть.

Превью видео -4M-xoE6iH0

Редактирование видео от Adobe

Исследователи из Adobe представили ИИ, позволяющий редактировать/изменять/добавлять элементы и фон на видеофайлах. Нейросеть отделяет фон от остального, разделяя видео на два атласа, которые затем можно редактировать и запихивать обратно в видеофайл (как пример приведён мальчик катающийся на велосипеде по психоделическому пейзажу).

Превью видео MCq0x01Jmi0

Создание изображений по описанию от NVIDIA

NVIDIA научилась создавать абсолютно фотореалистичные изображения из описания со скоростью мысли.

На самом деле, просто научились они это делать в 2019 году с помощью нейросети GauGAN, но тут как со Шреком, сиквел получился ещё лучше. Теперь GauGAN 2 оформлена в приложение NVIDIA Canvas, в котором простыми набросками кисти и описанием можно генерировать очень крутые фотореалистичные изображения, с дальнейшей переброской в фотошоп.

Превью видео Wbid5rvCGos

Нейросеть GLIDE для локального изменения изображений

Многие слышали про нейросеть DALL-E, которая генерировала постеры фильмов/картинки по описанию. Так вот, вышла новая нейросеть GLIDE, у которой не только с генерацией всё намного лучше, но и есть способность локально изменять части картинок.

Превью видео ItKi3h7IY2o

Google Collab с реалистичными фильтрами а-ля Snapchat

Обзор самой новой техники редактирования видео в реальном времени с помощью GAN. Можно приделать себе усы, которые будут весьма натурально шевелиться и перемещаться вместе с вашим лицом (зачем это вам, мы не знаем). Причём редактировать можно не только человеческие лица, а любую отмеченную зону. Ссылка на Google Collab, чтобы провести свои эксперименты прилагается.

Превью видео qtOkktTNs-k

Редактирование людей на видео (эмоции, возраст, макияж)

Улучшенный метод по редактированию людей/персонажей на видео, который позволяет менять эмоции, возраст и макияж. Отличие от предыдущих методов в том, что для обработки одного кадра используются изменения, которые применяли в предыдущих (есть зависимость от времени). Результаты хоть и не идеальны, но очень близки к идеалу. Вариантов применения подобной техники будет масса (если ещё немного доделать).

Превью видео 4lQkQSmA8nA

Редактирование изображений от NVIDIA (лучше, чем было)

Семантическое редактирование изображений с помощью EditGAN от NVIDIA. Можно добавлять области редактирования на изображение и прописывать то, что в этих областях должно находиться (например можно добавить номер на машину или нарисовать птицу с помощью только этих областей). Качество лучше чем у предыдущих методов, но это и понятно, иначе никто бы публиковать подобное не стал.

Превью видео cS4jCvzey-4

DALL-E 2: Electric Boogalo

Примеры работы нейросети DALL-E 2, которая создаёт изображения из контекстного описания. Тогда digital художники артов забили тревогу, а результаты работы, хоть и не безупречны, очень впечатлили публику.

Превью видео X3_LD3R_Ygs

Нейросеть Imagen для генерации изображений от Google

В игру генерации врывается Google со своей сетью Imagen. Архитектура проще и умеет генерировать изображения из более длинных описаний, плюс правильно отображает текст, который её попросили поместить на изображение.

Превью видео HyOW6fmkgrc

Стилизованное изменение изображений от NVIDIA (StyleGAN-NADA)

Новый StyleGAN-NADA умеет генерировать лица и натягивать на них контекстные изменения, может вы хотите стать ведьмаком, белым ходаком или картиной в стиле кубизма. Отличается от предыдущих нейросетей этой самой функцией и лучшими результатами.

Превью видео MO2K0JXAedM

Ещё одна генерация изображений от Google (Parti AI)

Google Parti AI с ноги врывается в команду искусственных интеллектов генерирующих изображения (таких как DALLE-2 и Imagen). Главное отличие — отрисовка изображения не из базового шума, а из некоторых кусочков общей картины.

Превью видео XgdgSHweBUI

Дипфейки от Samsung

Новые варианты deepfake-ов в реальном времени с большим разрешением. Конечно, всё ещё не идеально, но намного лучше чем в 2020 году. А если вспомнить, как быстро менялась та же генерация изображений, то вероятно, что до совсем качественных deepfake-ов уже недалеко.

Превью видео JkUF40kPV4M

Генерация текстур от OpenAI

То, что DALLE-2 умеет генерировать изображения по тексту мы знаем. А теперь посмотрите, где люди уже навострились применять эту функцию. Генерация текстур, фотореалистичных лиц и виртуальных миров это только часть.

Превью видео FCf8OA4GPvI

Stable Diffusion 1.4

Код StableDiffusion (альтернатива DALLE-2) для создания изображений и их непрерывного изменения в другие появился в открытом доступе. Можно попробовать запустить у себя или покопаться под капотом и попытаться улучшить (если есть что улучшать).

Превью видео nVhmFski3vg

Модификация фотографий от Google (DreamBooth)

Через ИИ под названием DreamBooth люди могут генерировать изображения, на основе уже существующих с дополнительным описанием. Например, можно загрузить фотографии своей собаки и и попросить нарисовать её плавающей или на приёме у грумера. Можно смешивать изображения, модифицировать детали, бэкграунд или угол зрения.

Превью видео NnoTWZ9qgYg

Генерация изображения «вглубь» от Google (InfiniteNature-Zero)

InfiniteNature-Zero от Google AI, это улучшенная версия предыдущего метода по генерации изображения «вглубь». На этот раз, для обучения ему нужны только фотографии (а не видеоряд), плюс результаты сильно качественнее и контроль за «полётом вглубь» лучше (можно, например, поворачивать).

Превью видео H-pTZf1zsa8

Генерация 3D-ассетов от Google (DreamFusion)

Google, в дополнение к уже существующим DALLE-2 и StableFusion, добавили ИИ под названием DreamFusion, который умеет по тексту генерировать 3D модели. И не просто 3D модели, их сразу можно использовать в качестве ассетов для игр/видео/куда там ещё можно эту модель запихнуть.

Превью видео L3G0dx1Q0R8

Text-to-video от Google

Google теперь умеет генерировать небольшие видео по входному тексту, при этом сохраняя временную когерентность (то есть кадры переходят друг в друга очень плавно). Правда ИИ с небольшим «костылём», если так вообще можно сказать. Сначала генерируется видео в очень плохом разрешении, а затем с помощью апскейлинга дотягивается до 720p.

Превью видео YxmAQiiHOkA

Waifu-diffusion (создай свою аниме-девочку)

Может кто-то из вас уже видел результаты работы stable diffusion моделей, которые рисуют красивых девушек. Так вот, таких моделей несколько, можно использовать Stable Diffusion, можно использовать его вариацию Waifu Diffusion (по названию можете понять, на чём конкретно ее обучали), Dreambooth и NovelAI.

Превью видео a9BKr4IiMMg

Анимирование изображений от Google (StyleGAN)

StyleGAN умеет хорошо анимировать различные картинки по нашему запросу того, что должно происходить, причём с хорошей темпоральной когерентностью (от кадра к кадру детали объекта почти не меняются), лучше чем предыдущие text-to-image модели.

Превью видео rpUEkHJIu4Q

Style-трансфер на видео с людьми

Модель с новым подходом может производить стайл-трансфер на видео с реальными людьми, со скоростью от 5 до 10 изображений в секунду, сохраняя темпоральную когерентность (например, при смене кадра волосы не колбасит и они не идут странными узорами).

Превью видео C9LDMzMRZv8

Спецэффекты на видео с помощью текста от NVIDIA

Новый ИИ от NVIDIA умеет накладывать спецэффекты на видео с помощью всего нескольких предложений. Хотите чтобы пятна на жирафе были из разноцветного стекла? Так и скажите. И вам всё сделают.

Превью видео 8U9o5aZ2y5w

Локальное изменение изображений с помощью текста от Google

Новый ИИ от Google под названием Muse умеет изменять части изображений, но теперь вам даже не надо рисовать слой-маску, под которым надо что-то менять. Дали изначальное изображение, написали конечный результат (который должен хоть частично напоминать стартовую точку) и получаем изначальную композицию с изменёнными деталями.

Превью видео 2AsoWS2t484

Создание короткометражек по сценарию от Google AI

ИИ от Google под названием Phenaki теперь умеет создавать долгие видео из последовательности строчек сценария, при этом вполне последовательно и с нужными переходами.

Превью видео mFzgTcTpqtI

От переноса стиля на фотографии, до короткометражек из текста всего за 1.5 года. Прогресс действительно не стоит на месте.

Какая судьба ждёт нейросети ещё через полтора года?
Всё будет куда круче: возможно, клипы или даже фильмы можно будет целиком сгенерировать нейросетью
Скорее всего, технологии достигли своего пика. Всё останется прежним, изменения будут несущественными
Нейросети уже всем надоели. Совсем скоро о них забудут, как о старой игрушке
Следите за новыми постами
Следите за новыми постами по любимым темам
60К открытий66К показов