Написать пост

Sora от OpenAI — сможет ли она уничтожить хоть одну профессию?

Аватарка пользователя Дух айтишной эмо школы

Узнали, сможет ли Sora от OpenAI уничтожить хотя бы одну профессию. Это нейросеть, которая генерирует видеоролики по текстовому описанию.

Узнали, на какой степени развития сейчас находится Sora от OpenAI — нейросеть, которая генерирует видеоролики по текстовому описанию. Спросили, сможет ли она уничтожить хотя бы одну профессию, ведь именно этого ожидали в своё время от ChatGPT. На вопросы ответили senior и middle эксперты. 

Напоминаем, что вы можете задать свой вопрос экспертам, а мы соберём на него ответы, если он окажется интересным. Вопросы, которые уже задавались, можно найти в списке выпусков рубрики.

Если вы хотите присоединиться к числу экспертов и прислать ответ от вашей компании или лично от вас, то пишите на experts@tproger.ru, мы расскажем, как это сделать.

В интернете уже успело появиться немало размышлений о природе Sora, механизмах её работы и возможных последствиях для различных индустрий, таких как кинематограф, видеоблогинг, GameDev и даже робототехника.

Меня, например, как человека, не понаслышке знакомого с задачей локализации робота в пространстве, очень сильно поразило качество воссоздаваемых Sora миров. Ведь тот видеоряд, который мы в результате наблюдаем, является лишь отображением скрытого представления, лежащего в глубине нейросети. Данное представление могло бы сильно пригодится при построении систем ИИ, в которых агент, скажем тот же робот или квадрокоптер, будет взаимодействовать с наблюдаемым миром, выполняя поставленные ему задачи. По всей видимости, Sora, проведя сотни виртуальных лет за просмотром видеороликов, поняла как работает 3D и некоторые физические законы, свойственные нашему миру. Конечно, это лишь размышления на тему и предварительный показ результатов от OpenAI не даёт нам полной картины.

Также стоит учитывать, что по косвенным данным генерация минутного ролика занимает около часа! Такой тайминг ну никак не способствует быстрой проверке гипотез, отработке ряда промптов и эффективной генерации необходимого результата. В связи с этим вряд ли она способна навредить тем же режиссёрам, видеоблогерам, дизайнерам и прочим людям, связанным с созданием визуального контента. Наоборот, в какой-нибудь артхаусный, исторический или приключенческий фильм футажи, сделанные Sora могли бы очень даже неплохо вписаться. Маркетологи смогут генерировать видеоряд для рекламных компаний столь же эффективно, как сейчас это делают со статичными картинками от Midjourney. Мир не стоит на месте, появляются новые инструменты, профессии преобразуются, но человек всё ещё остаётся на пьедестале - это, наверное, главная повестка многих современных конференций и митапов на тему AI. Появление Sora только к лучшему, не бойтесь прогресса, а адаптируйтесь к нему!

С появление SORA мы проснулись в мире, большая часть которого по умолчанию является симуляцией. Уровень производства контента в Sora наилучшего качества.

Видео не всегда удается отличить от реального. 

Вообще, нужно понимать, что сейчас большая часть текста в интернете сгенерирована ИИ. Любой голос склонирован с реального человека или сгенерирован. Музыка и картинки созданы по промту. И вот, наконец, пал бастион фотореалистичных видео. 

Репорт про Сору, там много примеров, таких как video2video, где на существующем видео можно заменить любой объект на любой другой. Сегодня у OpenAI — завтра в опенсорсе у любого школьника. 

Ничего из того что вы читаете, видите, слышите и даже ощущаете больше не может считаться правдой. Буддисты пришли к этому 5 тысяч лет назад, а теперь пришла пора и бумерам приспособиться.

Стоит признать, что в ближайшее время, в ближайшие несколько лет, будет кардинальное изменение всех профессий. И это не касается только программистов или дизайнеров, это касается вообще всего мира, включая в том числе и медицинское направление, потому что это полностью создание виртуальной реальности. Это создание новой реальности, это создание голограмм. 

Поэтому колоссальное воздействие будет абсолютно на все профессии. Ни одной не останется профессии, которую не затронет искусственный интеллект и, в частности, разработки от OpenAI. Это очень важно понимать.

Что же делать людям? А людям нужно оставаться профессионалами в своей области, потому что очень важно понимать о том, что тот контент, который создает искусственный интеллект, он создан на базе знаний и идей человечества. То есть чем человек будет дальше развиваться, тем искусственный интеллект в любом случае будет пользоваться идеями. Сам искусственный интеллект идеи не генерирует. Это обработка больших баз данных, основанных на знаниях и умениях человека. Это очень важная история. 

Как нейросеть будет эволюционировать, почему, каким специалистам грозит ссора? Она грозит тем, кто ленится идти в новое, кто не хочет меняться, кто не хочет применять эти инструменты в своей жизни. 

В чем весь секрет? В том, что это эволюционный путь развития. У нас в свое время, когда изобрели паровоз, конечно, это все поменял абсолютно всю структуру всего производства и вообще устройства мира. То же самое и сейчас происходит. Тут нужно задуматься человеку о том, что из старых штанишек они уже выросли. Пора надевать новые.

Оценивать инструмент Sora от OpenAI пока достаточно сложно: мы не можем сами ее пощупать, можем ориентироваться только на показанные компанией демо-ролики лучшего конечного результата. Из них нам совершенно не ясно, насколько стабильно подобные результаты получаются, сколько нужно ресурсов на них затратить, сколько будет стоить такая генерация и т.д. Также мы ничего не знаем о «чистоте эксперимента» и достоверности результата, а уже имелись прецеденты их «подкручивания» - как, например, в случае с демо возможностей AGI Gemini, где за кадром остались все подсказки и наводящие вопросы в промтах.

Если говорить о том, каким профессиям Sora нанесет вред, первыми приходят на ум те, кто занят в производстве стокового видеоконтента - ровно, как и в случае с фотографиями. То есть, люди, которые вложились в профессиональное оборудование, пилят востребованный среднеуровневый контент для стоков и на этом зарабатывают - их ролики перестанут покупать. Можно прогнозировать, что при развитии нейросетей вообще все фото- и видеостоки со временем потеряют свою актуальность, останется что-то нишевое, профессиональное – как это случилось, например, с аналоговой фотографией.

Серьезные изменения могут затронуть индустрию развлечений в целом, она может измениться до неузнаваемости. Недавно мы следили за забастовкой голливудских актеров и сценаристов, которые требовали защитит свою работу от ИИ. Развитие инструментов, подобных Sora, может больно ударить еще и по художественно-техническому цеху, ведь ИИ-генератор видео способен "отменить" операторов, осветителей, монтажеров, локейшн-менеджеров, декораторов, костюмеров, гримеров… Словом, кинокараван из десятка машин с оборудованием и персоналом в будущем может превратиться в одного человека за компьютером - и все последствия этого для многомиллиардного рынка и людей сейчас даже сложно представить и оценить.

Sora невыгодна сегодняшним участникам видеоиндустрии, но зато очень облегчит жизнь коммерческим потребителям их услуг, которым придется тратить меньше ресурсов на подрядчиков. Например, может снизиться стоимость производства рекламных креативов, что поможет малому бизнесу в конкурентной борьбе. Вместе с тем появление инструмента генерации видео расширит выразительные возможности творцов: независимые экранизации собственных литературных произведений, на которые не придется искать миллионные бюджеты – это первое, что приходит в голову.

Но до всего этого пока далеко. Потому что даже те впечатляющие результаты, которые показывает Sora, при детальном рассмотрении не такие уж впечатляющие. Мы все еще видим лишние пальцы, ноги меняются местами, соседние тела слипаются и так далее. Ведь генеративные нейросети ничего не понимают про физику или анатомию, они просто подбирают результаты на основе подобного. То есть, они обучились на миллионах видео с кошками, и могут сгенерировать "собирательный образ" кошки. Но что такое кошка, как она «устроена», как она двигается, нейросети не знают, в них это не заложено.

Конечно, если сравнивать с ранее представленными ИИ-инструментами для видеогенерации, контент получается на порядок более высокого качества. Но и Sora при всей своей мощи пока недостаточно хороша для коммерческого профессионального использования. Одно дело творческие работы, где глюки генерации скорее фишка, чем баг. Совсем другое - когда нам нужен чистый оригинальный видеоконтент с конкретными образами и содержанием под какую-то задачу: здесь текущего уровня развития Sora еще недостаточно. Поэтому до появления профессионального инструмента для коммерческого использования нам придется подождать еще пару-тройку лет. И стоить он наверняка будет не $20 в месяц, потому что ресурсов на генерацию видеоконтента требуется много.

Как нейросеть будет эволюционировать? Здесь можно провести аналогию с Midjourney. Будет повышаться точность обработки запросов, качество видео, устраняться баги - но сколько времени потребует такое развитие, пока сказать сложно. Одновременно будет происходить кастомизация и настройка инструмента под решение типовых задач, потому что вся широта творческих возможностей нужна далеко не каждому. Намерение OpenAI дать бета-доступ к Sora только отдельным творцам и уже вместе с ними на практике выяснять, что нужно людям от Sora, как раз говорит о том, что работа по адаптации нейросети под запросы и потребности конкретных профессионалов и индустрий, готовых платить за ее использование, только началась.

Вслед за бумом неройсетей Midjourney и Chat GPT, Open AI выпустила демонстрацию нового сервиса видеогенерации Sora. Пока сеть проходит тестирование и закрыта для пользователей. Однако, уже сейчас можно посмотреть на результаты ее работы, которые выглядят сногсшибательно.

Появление Midjourney и Chat GPT сказывается на рынке труда иллюстраторов и редакторов, но, пока… позитивно. Использование нейросетей в производстве не лишит специалистов работы (тем более креативных), но существенно изменит пайплайны.

В практике видео-продакшна (имени меня), мы применяем две сетки для работы с видео: Midjourney и WonderDynamics. Midjourney генерирует граф контент, который потом режется на слои и анимируется. WonderDynamics позволяет накладывать 3D-персонажа поверх реального актера, «затирая» последнего. Казалось бы - вот она, замена человекам! Нет. Просто теперь специалисты вынуждены расширять компетенции: в миджорни иллюстратор теперь не только рисует на планшете, но и дорисовывает за сеткой, направляет ее работу в нужное русло, оперируя узкопрофильной терминологией в промтах (недоступной секретарше). Тоже с WonderDynamics: мы пользуемся услугами техже привычных 3D-спецов: риггеры отвечают за «кости», аниматоры дорабатывают сцены в Blender, композеры ротоскопят и композят за сеткой (а иногда и вручную).

Сети отрабатывают не идеально (какие бы радужные рекламные материалы не выпускали производители), поэтому у специалистов стало работы не меньше, а даже больше т.к. увеличилось количество запросов на контент, который становится доступнее для бизнеса. Тестирование, адаптация, коррекция - львиная доля работы с сетками.

Что касается новинки Sora, то ее внедрение будет происходить мучительно и требовать тонны коррекций. Высока же будет и стоимость использования т.к. требовательность к мощьностным ресурсам у нее титаническая. Некоторый же предел в вычислительных мощностях достигнут, а квантовый компьютер пока остается сферическим конем.

Никакая сеть не заменит работу талантливого мастера вроде Миядзаки. Но поможет существенно ускорить пайплайны студии. 
А, иногда, проще взять в руки камеру, поставить актеров и снять материал, чем организовывать технологически более сложную (и пока дорогостоящую) генерацию. В отдаленной же перспективе, все, конечно закончится Убиком (роман Ф.К.Дика, повлиявший на создание фильмов Матрица, Начало, 13й Этаж - прим.автора). Но это уже другая история.

Sora от OpenAI это как Midjourney годовой давности для изображений. Это огромный прогресс в генерации видео на основе текстового описания. Нейросети для генерации видео до Sora находились на довольно низком уровне, в каких-то местах мы могли говорить об интересной стилизации при огромных временных затратах и ручной дорисовке (за качественный пример такой генерации можно взять клип Lost от Linkin Park из февраля 2023), но о каком-то существенном прогрессе речи не шло. Sora же способна генерировать детализированные и реалистичные видео, комплексные сцены, множество персонажей, разные типы освещения и т.д. И все это в высоком разрешении. Для видео-продакшна это грядущая революция.

Технология обладает не меньшим потенциалом, чем сегодняшние DALLE и Midjourney в области генерации изображений. Рано говорить о каких-то конкретных угрозах, потому что генерация таких видео довольно ресурсоемкая и пока способна производить только видео длительностью до минуты. Но потенциально это идеальный инструмент для использования в первую очередь в киноиндустрии и рекламе. Это значит, что новым навыкам придется обучаться операторам, режиссерам и вполне возможно, что даже сценаристам.

С точки зрения геймдизайнера и разработчика игр я вижу тут большие возможности и для игровой индустрии. Сейчас Sora способна симулировать игровые миры, а это значит, что в теории в ближайшем будущем мы можем получить систему для генерации полноценных игровых пространств с помощью текстового промта. Если что-то подобное станет реальностью, то уже на горизонте в 5 лет будут модернизированы профессии левел-дизайнеров, моделлеров и разработчиков в целом.

Напоминаем, что вы можете задать свой вопрос экспертам, а мы соберём на него ответы, если он окажется интересным. Вопросы, которые уже задавались, можно найти в списке выпусков рубрики.

Если вы хотите присоединиться к числу экспертов и прислать ответ от вашей компании или лично от вас, то пишите на experts@tproger.ru, мы расскажем, как это сделать.

Следите за новыми постами
Следите за новыми постами по любимым темам
411 открытий2К показов