источник:ICCV 2023 тема:Pix2Video: Video Editing using Image Diffusion Адрес проекта:https://github.com/duyguceylan/pix2video Бумажный адрес:https://arxiv.org/abs/2303.12688 автор:Duygu Ceylan, Chun-Hao P. Хуанг и др. Организация контента:Ван Хан В этой статье исследуется, как использовать предварительно обученную модель распространения изображений для редактирования видео с текстовым управлением. Предлагается метод, не требующий обучения, который может быть распространен на широкий круг редакторов. Мы демонстрируем эффективность нашего подхода посредством обширных экспериментов и сравниваем его с четырьмя различными предыдущими и параллельными работами (по ArXiv). В этой статье показано, что реалистичное редактирование видео с текстовым сопровождением возможно без необходимости какой-либо трудоемкой предварительной обработки или тонкой настройки персонализации видео.
Модель диффузии изображений, обученная на большой коллекции изображений, стала наиболее универсальной моделью генератора изображений с точки зрения качества и разнообразия. Они поддерживают инверсию реальных условий, подобных изображению (например,,text), что делает его очень популярным среди высококачественных приложений для редактирования изображений. В этой статье рассказывается, как использовать предварительно обученные изображения, такие как Модель, для редактирования видео с текстовым управлением. Ключевой задачей является достижение целевых изменений при сохранении содержания источника. Наш метод состоит из двух простых шагов: во-первых, с использованием предварительно обученного руководства по структуре (например, глубина)картинаподобная диффузная модель затем выполняет редактирование текста в поле привязки;,в ключевых шагах,Постепенное распространение изменений на будущие кадры с помощью Внедрения функции самообслуживания.,Адаптировать основной этап шумоподавления диффузии. Модель. Затем,Объедините эти изменения, отрегулировав базовую кодировку кадра.,Затем продолжайте процесс.
Дана последовательность кадров видеоклипа
, надеясь создать новый набор изображений
, связь между ними определяется целевым текстом
Представляемый редактор. Например, имея видео автомобиля, пользователь может захотеть создать отредактированное видео, в котором редактируются атрибуты автомобиля (например, цвет). Цель этой статьи — использовать возможности предварительно обученных и фиксированных крупномасштабных моделей диффузии изображений для выполнения этих операций как можно более согласованно, не требуя какой-либо тонкой настройки или обширного обучения для конкретного примера. Эта статья достигает этой цели путем манипулирования внутренними характеристиками модели диффузии, а также дополнительными ограничениями начальной загрузки. Учитывая фиксированную модель генерации изображений для обучения, поскольку имеется только одно изображение, невозможно рассуждать о динамике и геометрических изменениях, происходящих во входном видео. В сочетании с недавними достижениями в различных моделях генерации изображений, обусловленных структурными сигналами, этот дополнительный структурный канал оказался эффективным при захвате динамики движения. Поэтому в данной статье наш метод построен на модели устойчивой диффузии, обусловленной глубиной. Учитывая I, выполняется покадровое предсказание глубины и используется в качестве дополнительных входных данных для модели.
Рисунок 1
В контексте статических изображений диффузионные модели для крупномасштабной генерации изображений обычно состоят из архитектуры U-Net, состоящей из блоков остаточного, внутреннего и перекрестного внимания. Блоки перекрестного внимания помогают добиться точности текстовых сигналов, а слои внутреннего внимания помогают определить общую структуру и внешний вид изображения. На каждом этапе диффузии t входные характеристики
Модулю самообслуживания слоя l передать матрицу соответственно
,
и
проект, получить
,
и
, а затем рассчитайте выходные данные блока внимания как:
в
поверхность представляет собой размер QиK,То есть,Для текущего пространственного объекта изображение
каждое место в,Рассчитайте вес других пространственных объектов для сбора глобальной информации. Распространено на контекст видео,Наш метод фиксирует взаимодействие между последовательностями входных изображений, манипулируя входными характеристиками в модулях самообслуживания. Конкретно,Мы вводим функции, полученные из предыдущего кадра. Простой подход заключается в создании признаков для кадра i.
При этом обратите внимание на характеристики предыдущего кадра j
Благодаря такому внедрению функций текущий кадр может использовать контекст предыдущего кадра, тем самым сохраняя изменения внешнего вида. Естественный вопрос заключается в том, можно ли использовать явный, скрытый модуль цикла для объединения состояний функций предыдущего кадра без необходимости явного сосредоточения внимания. на конкретном кадре. Однако разработка и обучение такого модуля не являются тривиальными. Вместо этого мы полагаемся на предварительно обученную генеративную модель, подобную изображению, для неявного выполнения этого слияния. Для каждого кадра i мы добавляем признаки, полученные из кадра i-1. Поскольку редактирование выполняется покадрово, характеристики кадра i-1 необходимо рассчитывать через i-2. Поэтому в этой статье предлагается неявный способ агрегирования состояний объектов. Моя мама доказала, что хотя сосредоточиться Предыдущий кадр помогает сохранить внешний вид, но в более длинных эпизодах он показывает ограничения сокращенного редактирования. Добавление дополнительного поля привязки позволяет избежать этого забывчивого поведения, предоставляя глобальные ограничения на внешний вид. Поэтому в каждом блоке внимания к себе эта статья будет кадром и i. - Характеристики 1 кадра объединяются для расчета пар ключ-значение. В экспериментах этой статьи мы установили = 1, это первый кадр.
Выполните описанное выше внедрение функции на уровне декодера UNet.,Было обнаружено, что он эффективен для поддержания постоянства внешнего вида. Более глубокие уровни декодера собирают информацию высокого разрешения и информацию, связанную с внешним видом.,и произвели рамы с похожим внешним видом, но с минимальными структурными изменениями. Введение признаков в ранние уровни декодера позволяет нам избежать таких высокочастотных структурных изменений. При внедрении функций в кодировщик UNet,Никаких дополнительных существенных преимуществ не наблюдалось.,В некоторых примерах наблюдались небольшие артефакты.
Хотя Внедрение функции самообслуживание эффективно создает кадры с целостным внешним видом, но по-прежнему страдает от временного мерцания. Чтобы улучшить временную стабильность алгоритма, мы используем дополнительные указания вдоль линии наведения классификатора для обновления скрытых переменных на каждом этапе распространения. Чтобы выполнить такое обновление, сначала устанавливается энергетическая функция для повышения согласованности. Стабильная диффузия и многие другие крупномасштабные изображения, такие как модель диффузии, представляют собой неявную модель шумоподавления диффузии ( DDIM ),¡На каждом этапе диффузии,Учитывая шумный образец
, указывая вдоль
Вычислите свободные от шума выборки в направлении (
) прогноз. формальный,
Окончательный прогноз определяется по формуле на рисунке 2.
Рисунок 2
в
и
параметр планировщика,
— это шум, предсказанный UNet при текущем размере шага t. ориентировочная стоимость (
) как
Функция рассчитывается и представляет окончательно сгенерированное изображение. Поскольку наша цель — в конечном итоге генерировать похожие последовательные кадры, мы определяем функцию потерь L2.
, используемый для сравнения предсказанного чистого изображения изображения на каждом этапе диффузии t между кадрами i-1иi. Мы обновляем в направлении, которое минимизирует g
, то есть текущая выборка шума кадра i на этапе диффузии t:
в
— скаляр, определяющий размер шага обновления. Экспериментально было замечено, что выполнения одного обновления градиента на каждом этапе диффузии достаточно, и мы установили
. Мы выполняем этот процесс обновления на ранних этапах шумоподавления, то есть на первых 25 шагах из 50 шагов, поскольку общая структура сгенерированного изображения уже определена на ранних этапах диффузии. Выполнение возможных обновлений на оставшихся этапах часто приводит к снижению качества изображений.
Рисунок 3
Наконец, первоначальный шум, используемый для редактирования каждого кадра, также может существенно повлиять на временную согласованность сгенерированных результатов. Мы используем один механизм инверсии — инверсию DDIM, но можно использовать и другие методы инверсии, предназначенные для сохранения редактируемости изображений. Чтобы получить исходные сигналы для инверсии, мы используем модель субтитров для создания субтитров для первого кадра видео. Общие этапы этого метода приведены в алгоритме выше.
Таблица 1
Рисунок 4
Таблица 2
Таблица 3
Сначала мы оцениваем различные варианты внедрения признаков самообслуживания из предыдущего кадра. На рисунке ниже мы сравниваем, как мы всегда фокусируемся на ( i ) фиксированный опорный кадр (первый кадр в наших экспериментах), ( ii )Только предыдущий кадр,( iii ) поле привязки и случайно выбранный предыдущий кадр, и ( iv ) якорь и сцена предыдущего кадра.
Рисунок 5
Без использования информации о предыдущем кадре или выбора случайного предыдущего кадра мы наблюдали артефакты, особенно в последовательностях, содержащих больше вращательного движения, например, структура автомобиля не сохраняется при вращении автомобиля. Это подтверждает нашу интуицию о том, что внимание к предыдущему кадру неявно отражает статус редактора по кругу. Без блоков привязки мы наблюдали большее временное мерцание и редактирование, которое уменьшалось по мере продвижения видео. Объединив предыдущий кадр с опорным кадром, мы достигаем хорошего баланса.