VideoPoet может реализовать множество задач по созданию видео с помощью одной большой модели.
Автор | Хуан Нань
Редактор | Чэнь Цайсянь
В прошлом году генеративный контент, начиная от рисования, написания стихов, кодирования и заканчивая речью, пережил взрывной рост. Среди них генерация видео (текст в видео), которая считается одним из основных направлений AIGC, подвержена влиянию данных. и вычислительной мощности, технический порог выше, и необходимо решить множество проблем, таких как качество видеоизображения, непрерывность изображения, текстовое и видеоконтент.
Недавно VideoPoet, новая модель генерации видео с использованием искусственного интеллекта, запущенная Google, представляет собой модель генерации видео с нулевым кадром (нулевой выборкой), которая может сэкономить много данных и вычислительных ресурсов, а производительность модели также демонстрирует удивительные эффекты изображения.
Например, в большинстве случаев даже ведущие генеративные модели неизбежно будут иметь очевидные проблемы с артефактами при работе с большими или маленькими движущимися видеоизображениями. А вот в VideoPoet вышеуказанные проблемы в некоторой степени исправлены.
Кроме того, преимущество VideoPoet заключается в том, что он может интегрировать несколько функций генерации, таких как преобразование стилей, генерация аудио и видео, длинные видеоролики и т. д., в одну и ту же большую языковую модель для выполнения нескольких задач вместо интеграции компонентов обучения для одной задачи.
1
VideoPoet: модель создания видео с нулевым кадром
По словам представителей Google, VideoPoet — это большая языковая модель, которая может выполнять многозадачность на различных видео-ориентированных входах и выходах, выбирая текст в качестве входных данных, включая преобразование текста в видео, изображение в видео, видео в аудио, передачу стилей, рисование и т. д.
Среди них входное изображение может создавать движение, а обрезанное или закрытое видео также можно изменить или исправить с помощью VideoPoet.
Например, в видео генерации текста:
Введите текст «Танцующий енот на Таймс-сквер» и вы получите короткое видео танцующего енота.
Другой пример — использование текста для преобразования изображений в видео:
левый:рисованиесерединаизображает корабль,Он путешествует по бурному морю, грозам и молниям середина
середина:Множество мерцающих туманностей плывут
верно:в ветреные дни,Бездомный с тростью стоит на скале,Он посмотрел вниз на клубящийся туман внизу.
Согласно разным описаниям картин, одна и та же картина также может быть преобразована в разные видеоклипы, например:
левый:Женщина поворачивается и смотрит в камеру
верно:Женщина зевает
В зависимости от различных стилей видео, продолжительности, редактирования экрана и других потребностей VideoPoet также может предоставлять соответствующие услуги.
Например, использование текста в видео для создания нового стиля видео:
Слева: Вомбат в солнечных очках держит пляжный мяч на солнечном пляже.
В центре: плюшевый мишка катается на коньках по чистому замерзшему озеру.
Справа: «Металлический лев рычит под огнями кузницы.
Например, в случае требований к длинному видео при нормальных обстоятельствах VideoPoet по умолчанию выводит контент короткого формата, но если последняя секунда видео настроена и содержимое следующей секунды прогнозируется, VideoPoet может выводить более длинный видеоконтент:
Астронавт начинает танцевать на Марсе, а на заднем плане взрывается красочный фейерверк
FPV (вид от первого лица, вид от первого лица), в джунглях очень резкий эльфийский каменный город, ярко-синие реки, водопады и большие и крутые скалы.
Кроме того, VideoPoet также может принимать ввод видеоконтента и редактировать видео с помощью текстовых указаний.
Первое видео слева — это входное видео, и даны соответствующие подсказки:
Крупный план симпатичного, ржавого, поврежденного робота в стиле стимпанк, покрытого влажным мхом и прорастающей растительностью и окруженного высокой травой.
Затем добавьте динамические экранные подсказки:
Включите питание с дымом на заднем плане
Другой пример: учитывая необходимый снимок камеры, текст может точно контролировать траекторию съемки камеры:
На рисунке ниже показаны следующие кадры: уменьшение масштаба, перемещение масштаба, панорамирование влево, съемка по дуге, съемка с помощью подвеса, съемка с дрона с FPV.
Видно, что VideoPoet в настоящее время демонстрирует сильные возможности понимания и генерации. Благодаря повторяющимся ссылкам модель может не только хорошо расширять видеоконтент, но также, даже если добавлено несколько инструкций, модель также может хорошо работать в итерациях. сгенерированного объекта.
Раньше из-за влияния дискретных токенов больших языковых моделей качество генерации видео легко ухудшалось. Преимущество VideoPoet заключается в том, что он использует несколько тегов для изучения видео, изображений, аудио и текста. Видео и аудиоклипы кодируются в отдельные последовательности тегов. Как только модель генерирует теги, обусловленные некоторым контекстом, их можно передать через декодер тегов. , преобразует эти токены обратно в просматриваемое представление.
Кроме того, VideoPoet — это модель генерации видео с нулевым кадром, которая может сэкономить много данных и вычислительных ресурсов. В то же время, по сравнению с аналогичными моделями генерации видео, которые в основном используют обучение одной задаче, а затем интегрируют каждую функцию в компоненты, VideoPoet может выполнять несколько задач генерации видео с помощью одной и той же большой языковой модели.
2
Оценка: Производительность обычно превосходит другие модели.
Чтобы в дальнейшем наблюдать за производительностью VideoPoet, команда Google протестировала все остальные модели генерации видео под разными подсказками и предоставила их пользователям для оценки их предпочтений.
Прежде всего, с точки зрения точности текста, то есть процента предпочтительных видео с точки зрения точного следования подсказкам, в целом пользователи считают, что с точки зрения производительности следующих подсказок 24–35 % случаев VideoPoet показали лучшие результаты. а доля аналогичных конкурирующих моделей составляет 8-11%.
Что касается увлекательности действия, 41–54% пользователей, оценивших его, предпочли примеры VideoPoet из-за их более яркой графики и более интересного действия по сравнению с 11–21% для других моделей.
Видно, что VideoPoet на данный момент имеет весьма конкурентоспособное качество генерации видео по сравнению с аналогичными моделями в различных задачах, особенно при создании интересных и качественных действий в видеороликах.
Однако в настоящее время VideoPoet выпустила только демонстрации моделей, а соответствующие документы, коды и т. д. не были опубликованы. В связи с этим некоторые пользователи сети сказали: «Как обычно, Google выпустил впечатляющую демонстрацию искусственного интеллекта, но нет возможности опробовать ее, нет ни исходного кода, ни API, и это не коммерческий продукт… Итак , никто на самом деле не будет его использовать».
По сравнению с полями текста и изображений, генерации видео еще предстоит пройти долгий путь, прежде чем она сможет добиться прорыва. Инсайдеры отрасли ранее отмечали, что одной из основных проблем при создании видео является продолжительность. С длительностью напрямую связан смысл действий. Чтобы продлить продолжительность производства видео, первая задача — решить проблему понимания и рассуждения модели. действий и, в конце концов, изучить, как можно выполнять сложные действия.
Во-вторых, хотя четкость и плавность видео были улучшены, до этапа применения еще предстоит пройти долгий путь.
Возможно, в ближайшем будущем мы также сможем стать свидетелями применения моделей генерации видео к генерации «любой к любому», например, к преобразованию текста в аудио, аудио в видео и видеосубтитрам.