Аватарка пользователя Рафаил Агазода
Рафаил Агазода
для
Логотип компании Tproger
Tproger

30 нейросетей для работы с изображениями и видео

Составили подборку из 30 нейросетевых инструментов для обработки изображений и видео в порядке появления их на рынке ИИ.

43635

Составили подборку нейросетевых инструментов для обработки изображений и видео. По крайней мере, указали всё, что более-менее хайповало.

Обработка и генерация фотографий и видео с помощью всяких нейросетей в тренде уже год-полтора, и только сейчас их начинает двигать ChatGPT. Поэтому можно оглянуться назад и вспомнить всё, что понаделали эксперты из больших компаний по этой теме.

  1. Трансфер стиля на фотографии
  2. Великий и ужасный DALL-E, с которого всё началось
  3. Апскейлинг и восстановление старых видео
  4. Генерация аниме-девочек
  5. Генерация реалистичных несуществующих людей (дабы не было вопросов к тому, как в датасете появлялись реальные фотографии)
  6. Редактирование видео на лету с изменениями стиля
  7. Создание 3D-панорамы из нескольких фото
  8. Редактирование видео от Adobe
  9. Создание изображений по описанию от NVIDIA
  10. Нейросеть GLIDE для локального изменения изображений
  11. Google Collab с реалистичными фильтрами а-ля Snapchat
  12. Редактирование людей на видео (эмоции, возраст, макияж)
  13. Редактирование изображений от NVIDIA (лучше, чем было)
  14. DALL-E 2: Electric Boogalo
  15. Нейросеть Imagen для генерации изображений от Google
  16. Стилизованное изменение изображений от NVIDIA (StyleGAN-NADA)
  17. Ещё одна генерация изображений от Google (Parti AI)
  18. Дипфейки от Samsung
  19. Генерация текстур от OpenAI
  20. Stable Diffusion 1.4 (ну вы же все знаете что это)
  21. Модификация фотографий от Google (DreamBooth)
  22. Генерация изображения «вглубь» от Google (InfiniteNature-Zero)
  23. Генерация 3D-ассетов от Google (DreamFusion)
  24. Text-to-video от Google
  25. Waifu-diffusion (создай свою аниме-девочку)
  26. Анимирование изображений от Google (StyleGAN)
  27. Style-трансфер на видео с людьми
  28. Спецэффекты на видео с помощью текста от NVIDIA
  29. Локальное изменение изображений с помощью текста от Google
  30. Создание короткометражек по сценарию от Google AI

Трансфер стиля на фотографии

Парень объясняет как можно стилизовать одно изображение под другое, используя специально натренированную под это дело модель. С примерами кода, само собой.

На данный момент этот блок не поддерживается, но мы не забыли о нём!Наша команда уже занята его разработкой, он будет доступен в ближайшее время.

Великий и ужасный DALL-E, с которого всё началось

DALL-E — это вариация нейросети-трансформера GPT-3, самой современной модели для обработки естественных языков. Русская нейросеть ruDALL-E была основана на зарубежной модели.

На данный момент этот блок не поддерживается, но мы не забыли о нём!Наша команда уже занята его разработкой, он будет доступен в ближайшее время.

Апскейлинг и восстановление старых видео

Архитектура, примеры, объяснения зачем и почему, всё как вы любите.

На данный момент этот блок не поддерживается, но мы не забыли о нём!Наша команда уже занята его разработкой, он будет доступен в ближайшее время.

Свёрточные нейронные сети широко используются в задачах распознавания изображений. Отличие от стандартных нейронных сетей, где все сигналы передаются от каждого нейрона предыдущего слоя на следующий, то тут используются специальные матрицы свертки разных размеров, которая скользит по изображению, умножается поэлементно на то, что под ней и передает сумму результата дальше в элемент следующего слоя.

Вот, как они работают:

На данный момент этот блок не поддерживается, но мы не забыли о нём!Наша команда уже занята его разработкой, он будет доступен в ближайшее время.

Генерация аниме-девочек

Хотите создавать аниме-девочек, которые никогда не существовали? Опять обращаемся к генеративным нейронным сетям. Нам поможет нейросеть StyleGAN2 и её реализация на TensorFlow. Если у вас есть набор лиц одного стиля, то эта нейросеть прекрасно справляется с тем, чтобы поймать этот стиль и начать генерировать.

На данный момент этот блок не поддерживается, но мы не забыли о нём!Наша команда уже занята его разработкой, он будет доступен в ближайшее время.

Генерация реалистичных несуществующих людей

Нейросети научились генерировать лица несуществующих людей, которые человек не может определить. Позже Microsoft решили использовать эти лица, чтобы тренировать другие нейросети.

Результаты исследования показали, что детекторы и мапперы лиц, натренированные на синтетических людях показывают практически те же результаты, что и state of the art модели, которые обучались на реальных данных. И вот таким щелчком пальцев можно избавиться от предвзятости нейронных сетей из-за несбалансированного датасета и проблем с этикой.

На данный момент этот блок не поддерживается, но мы не забыли о нём!Наша команда уже занята его разработкой, он будет доступен в ближайшее время.

Редактирование видео на лету с изменениями стиля

Новый метод позволил ИИ делать сразу много разных вариантов работы с видео. Он позволяет генерировать новые экземпляры, увеличивать длительность, добавлять/убирать элементы с определёнными условиями, при этом всё из одного стартового видео.

Можно создать фарш из воды, добавить футболистов в матч или продлить выступление балерины.

На данный момент этот блок не поддерживается, но мы не забыли о нём!Наша команда уже занята его разработкой, он будет доступен в ближайшее время.

Создание 3D-панорамы из нескольких фото

Создать панораму поможет view synthesis, описывающая недавно разработанный метод под названием NeX.

Чем он лучше других? Качеством (можете посмотреть на примерах), а ещё он работает в тысячу раз быстрее методов, опубликованных всего год назад.

Какие могут быть применения? Представьте что для создания VR-музея вам надо сделать небольшое количество снимков, а остальные точки зрения дорисует нейросеть.

Результаты работы надо обязательно посмотреть в видео, потому что то, как модель ловит и просчитывает различные варианты освещения и отражения просто надо увидеть.

На данный момент этот блок не поддерживается, но мы не забыли о нём!Наша команда уже занята его разработкой, он будет доступен в ближайшее время.

Редактирование видео от Adobe

Исследователи из Adobe представили ИИ, позволяющий редактировать/изменять/добавлять элементы и фон на видеофайлах. Нейросеть отделяет фон от остального, разделяя видео на два атласа, которые затем можно редактировать и запихивать обратно в видеофайл (как пример приведён мальчик катающийся на велосипеде по психоделическому пейзажу).

На данный момент этот блок не поддерживается, но мы не забыли о нём!Наша команда уже занята его разработкой, он будет доступен в ближайшее время.

Создание изображений по описанию от NVIDIA

NVIDIA научилась создавать абсолютно фотореалистичные изображения из описания со скоростью мысли.

На самом деле, просто научились они это делать в 2019 году с помощью нейросети GauGAN, но тут как со Шреком, сиквел получился ещё лучше. Теперь GauGAN 2 оформлена в приложение NVIDIA Canvas, в котором простыми набросками кисти и описанием можно генерировать очень крутые фотореалистичные изображения, с дальнейшей переброской в фотошоп.

На данный момент этот блок не поддерживается, но мы не забыли о нём!Наша команда уже занята его разработкой, он будет доступен в ближайшее время.

Нейросеть GLIDE для локального изменения изображений

Многие слышали про нейросеть DALL-E, которая генерировала постеры фильмов/картинки по описанию. Так вот, вышла новая нейросеть GLIDE, у которой не только с генерацией всё намного лучше, но и есть способность локально изменять части картинок.

На данный момент этот блок не поддерживается, но мы не забыли о нём!Наша команда уже занята его разработкой, он будет доступен в ближайшее время.

Google Collab с реалистичными фильтрами а-ля Snapchat

Обзор самой новой техники редактирования видео в реальном времени с помощью GAN. Можно приделать себе усы, которые будут весьма натурально шевелиться и перемещаться вместе с вашим лицом (зачем это вам, мы не знаем). Причём редактировать можно не только человеческие лица, а любую отмеченную зону. Ссылка на Google Collab, чтобы провести свои эксперименты прилагается.

На данный момент этот блок не поддерживается, но мы не забыли о нём!Наша команда уже занята его разработкой, он будет доступен в ближайшее время.

Редактирование людей на видео (эмоции, возраст, макияж)

Улучшенный метод по редактированию людей/персонажей на видео, который позволяет менять эмоции, возраст и макияж. Отличие от предыдущих методов в том, что для обработки одного кадра используются изменения, которые применяли в предыдущих (есть зависимость от времени). Результаты хоть и не идеальны, но очень близки к идеалу. Вариантов применения подобной техники будет масса (если ещё немного доделать).

На данный момент этот блок не поддерживается, но мы не забыли о нём!Наша команда уже занята его разработкой, он будет доступен в ближайшее время.

Редактирование изображений от NVIDIA (лучше, чем было)

Семантическое редактирование изображений с помощью EditGAN от NVIDIA. Можно добавлять области редактирования на изображение и прописывать то, что в этих областях должно находиться (например можно добавить номер на машину или нарисовать птицу с помощью только этих областей). Качество лучше чем у предыдущих методов, но это и понятно, иначе никто бы публиковать подобное не стал.

На данный момент этот блок не поддерживается, но мы не забыли о нём!Наша команда уже занята его разработкой, он будет доступен в ближайшее время.

DALL-E 2: Electric Boogalo

Примеры работы нейросети DALL-E 2, которая создаёт изображения из контекстного описания. Тогда digital художники артов забили тревогу, а результаты работы, хоть и не безупречны, очень впечатлили публику.

Нейросеть Imagen для генерации изображений от Google

В игру генерации врывается Google со своей сетью Imagen. Архитектура проще и умеет генерировать изображения из более длинных описаний, плюс правильно отображает текст, который её попросили поместить на изображение.

Стилизованное изменение изображений от NVIDIA (StyleGAN-NADA)

Новый StyleGAN-NADA умеет генерировать лица и натягивать на них контекстные изменения, может вы хотите стать ведьмаком, белым ходаком или картиной в стиле кубизма. Отличается от предыдущих нейросетей этой самой функцией и лучшими результатами.

Ещё одна генерация изображений от Google (Parti AI)

Google Parti AI с ноги врывается в команду искусственных интеллектов генерирующих изображения (таких как DALLE-2 и Imagen). Главное отличие — отрисовка изображения не из базового шума, а из некоторых кусочков общей картины.

Дипфейки от Samsung

Новые варианты deepfake-ов в реальном времени с большим разрешением. Конечно, всё ещё не идеально, но намного лучше чем в 2020 году. А если вспомнить, как быстро менялась та же генерация изображений, то вероятно, что до совсем качественных deepfake-ов уже недалеко.

На данный момент этот блок не поддерживается, но мы не забыли о нём!Наша команда уже занята его разработкой, он будет доступен в ближайшее время.

Генерация текстур от OpenAI

То, что DALLE-2 умеет генерировать изображения по тексту мы знаем. А теперь посмотрите, где люди уже навострились применять эту функцию. Генерация текстур, фотореалистичных лиц и виртуальных миров это только часть.

На данный момент этот блок не поддерживается, но мы не забыли о нём!Наша команда уже занята его разработкой, он будет доступен в ближайшее время.

Stable Diffusion 1.4

Код StableDiffusion (альтернатива DALLE-2) для создания изображений и их непрерывного изменения в другие появился в открытом доступе. Можно попробовать запустить у себя или покопаться под капотом и попытаться улучшить (если есть что улучшать).

На данный момент этот блок не поддерживается, но мы не забыли о нём!Наша команда уже занята его разработкой, он будет доступен в ближайшее время.

Модификация фотографий от Google (DreamBooth)

Через ИИ под названием DreamBooth люди могут генерировать изображения, на основе уже существующих с дополнительным описанием. Например, можно загрузить фотографии своей собаки и и попросить нарисовать её плавающей или на приёме у грумера. Можно смешивать изображения, модифицировать детали, бэкграунд или угол зрения.

На данный момент этот блок не поддерживается, но мы не забыли о нём!Наша команда уже занята его разработкой, он будет доступен в ближайшее время.

Генерация изображения «вглубь» от Google (InfiniteNature-Zero)

InfiniteNature-Zero от Google AI, это улучшенная версия предыдущего метода по генерации изображения «вглубь». На этот раз, для обучения ему нужны только фотографии (а не видеоряд), плюс результаты сильно качественнее и контроль за «полётом вглубь» лучше (можно, например, поворачивать).

На данный момент этот блок не поддерживается, но мы не забыли о нём!Наша команда уже занята его разработкой, он будет доступен в ближайшее время.

Генерация 3D-ассетов от Google (DreamFusion)

Google, в дополнение к уже существующим DALLE-2 и StableFusion, добавили ИИ под названием DreamFusion, который умеет по тексту генерировать 3D модели. И не просто 3D модели, их сразу можно использовать в качестве ассетов для игр/видео/куда там ещё можно эту модель запихнуть.

На данный момент этот блок не поддерживается, но мы не забыли о нём!Наша команда уже занята его разработкой, он будет доступен в ближайшее время.

Text-to-video от Google

Google теперь умеет генерировать небольшие видео по входному тексту, при этом сохраняя временную когерентность (то есть кадры переходят друг в друга очень плавно). Правда ИИ с небольшим «костылём», если так вообще можно сказать. Сначала генерируется видео в очень плохом разрешении, а затем с помощью апскейлинга дотягивается до 720p.

На данный момент этот блок не поддерживается, но мы не забыли о нём!Наша команда уже занята его разработкой, он будет доступен в ближайшее время.

Waifu-diffusion (создай свою аниме-девочку)

Может кто-то из вас уже видел результаты работы stable diffusion моделей, которые рисуют красивых девушек. Так вот, таких моделей несколько, можно использовать Stable Diffusion, можно использовать его вариацию Waifu Diffusion (по названию можете понять, на чём конкретно ее обучали), Dreambooth и NovelAI.

На данный момент этот блок не поддерживается, но мы не забыли о нём!Наша команда уже занята его разработкой, он будет доступен в ближайшее время.

Анимирование изображений от Google (StyleGAN)

StyleGAN умеет хорошо анимировать различные картинки по нашему запросу того, что должно происходить, причём с хорошей темпоральной когерентностью (от кадра к кадру детали объекта почти не меняются), лучше чем предыдущие text-to-image модели.

На данный момент этот блок не поддерживается, но мы не забыли о нём!Наша команда уже занята его разработкой, он будет доступен в ближайшее время.

Style-трансфер на видео с людьми

Модель с новым подходом может производить стайл-трансфер на видео с реальными людьми, со скоростью от 5 до 10 изображений в секунду, сохраняя темпоральную когерентность (например, при смене кадра волосы не колбасит и они не идут странными узорами).

На данный момент этот блок не поддерживается, но мы не забыли о нём!Наша команда уже занята его разработкой, он будет доступен в ближайшее время.

Спецэффекты на видео с помощью текста от NVIDIA

Новый ИИ от NVIDIA умеет накладывать спецэффекты на видео с помощью всего нескольких предложений. Хотите чтобы пятна на жирафе были из разноцветного стекла? Так и скажите. И вам всё сделают.

На данный момент этот блок не поддерживается, но мы не забыли о нём!Наша команда уже занята его разработкой, он будет доступен в ближайшее время.

Локальное изменение изображений с помощью текста от Google

Новый ИИ от Google под названием Muse умеет изменять части изображений, но теперь вам даже не надо рисовать слой-маску, под которым надо что-то менять. Дали изначальное изображение, написали конечный результат (который должен хоть частично напоминать стартовую точку) и получаем изначальную композицию с изменёнными деталями.

На данный момент этот блок не поддерживается, но мы не забыли о нём!Наша команда уже занята его разработкой, он будет доступен в ближайшее время.

Создание короткометражек по сценарию от Google AI

ИИ от Google под названием Phenaki теперь умеет создавать долгие видео из последовательности строчек сценария, при этом вполне последовательно и с нужными переходами.

На данный момент этот блок не поддерживается, но мы не забыли о нём!Наша команда уже занята его разработкой, он будет доступен в ближайшее время.
***

От переноса стиля на фотографии, до короткометражек из текста всего за 1.5 года. Прогресс действительно не стоит на месте.

Следите за новыми постами по любимым темам

Подпишитесь на интересующие вас теги, чтобы следить за новыми постами и быть в курсе событий.

Инструменты
Нейронные сети
Искусственный интеллект
43635
Что думаете?
4 комментария
Сначала интересные
Аватар пользователя Антон Веселов
https://remove-background-online.com/ru https://resize-image-online.com/ru ресайзер с улучшением нейросетками и вырезание фона
Аватар пользователя Karine Evans
Нужен талантливый дизайнер создающий реалистические интерактивные видео по идеям работодателя. Создание реалистичных графических фильмов. Если интересно пишите на имейл karinaevanns@icloud.com
Работа с хорошей оплатой. 
Аватар пользователя redminotmailkz redminotmailkz
Что на счет создания 3д модели по видео снятое вокруг предмета в фокусе?
Показать все комментарии