источник:arxiv автор:Chong Mou ждать Название диссертации:Remake a Video with Motion and Content Control Бумажная ссылка:https://arxiv.org/pdf/2405.13865 Организация контента:汪奕文 Хотя использование диффузии Модельгенерироватьиредактироватьвидео Значительный прогресс был достигнут в,Но достижение точного редактирования остается огромной проблемой. в этой статье,Предложил новый метод видеоредактора (ReVideo).,Указывая содержание и действия,Решена проблема сопряжения и дисбаланса обучения между контентом и управлением движением.,Обеспечивает точное редактирование в определенных областях.
Технология генерации изображений на основе модели диффузии достигла большого прогресса. для Для достижения цели персонализированной генерации,Во многих работах в процессе генерации добавляются управляющие сигналы.,Например, создание изображений и видео с текстовым сопровождением.,и создание видео на основе изображений.
Основываясь на этих базовых моделях, был проведен большой объем работы по изучению того, как перенести их генеративные возможности в редактирование видео. ранняя работа (Fate-Zero, Flatten, Tune-A-Video) редактирование видео на основе диффузии текста в изображение Модель. Однако текстовые подсказки могут обеспечивать только грубые условия, ограничивая точность редактирования. По сравнению с текстом, последний метод использует изображения в качестве условий, что может обеспечить более точное руководство по редактированию. Например, укажите пространственные атрибуты целевого видео. (VideoComposer) или редактируйте определенные объекты в видео, предоставляя ссылочные объекты. (DreamVideo, Создать главного героя). Однако у этих методов по-прежнему возникают трудности с частичным редактированием и введением новых элементов (например, добавлением нового объекта в видео). AnyV2V Редактирование видео путем изменения первого кадра позволяет точно контролировать контент. Пика Определенные области видео можно восстановить, выбрав область редактирования. Хотя этот метод повышает производительность редактирования видео, он ориентирован только Редактирование визуального контента не позволяет обеспечить управление движением объектов.
Важные аспекты движения давидео, но исследования по редактированию движения видео все еще ограничены. Хотя некоторые методы использования основаны на траекторном управлении. движением (DragNUWA, DragAnything, MotionCtrl) на основе box руководство движением (Boximator, Peekaboo) Чтобы добиться генерации видео с управлением движением, но эти методы не поддерживают редактирование движения.
Основные положения этой статьи заключаются в следующем:
Рисунок 1
определение задачи Цель этой статьидаверновидео进行局部редактировать,Включая визуальную информацию и информацию о движении. также,Неотредактированный контент в видео останется без изменений.
поэтому,Условная генерация видео Модели включает в себя три управляющих сигнала: Отредактированный контент.,Содержимое нередактируемой области,Условия движения в редактируемой области. Этот метод путем изменения первого кадра видео,Затем это распространяется на последующие кадры, чтобы обеспечить редактирование контента.
Представьте первый кадр после редактирования как . Для условий движения в качестве сигналов управления используйте линии траектории, а для условий движения, содержащих Кадры видео, условия движения включают графы траекторий, каждый граф траекторий Зависит от 2 Он состоит из двух каналов, которые соответственно отображают перемещение отслеживаемой точки в горизонтальном и вертикальном направлениях относительно предыдущего кадра. Неотредактированный контент ,в Соответственно обратитесь к области редактирования оригинального видео. mask。
Зависит принято в этой статье SVD делатьдляпредварительно обученный База Модель,Его способность генерировать изображения для видео, естественно, может использоваться в качестве метода ввода первого кадра после редактирования. Для неотредактированного контента и условий траектории движения,Этот метод обучал дополнительные модули управления,Импортируйте его в процесс сборки.
Отслеживание В процессе обучения из видео необходимо извлечь траектории, чтобы обеспечить условия движения. . Во-первых, сетка используется для разделения плотных точек выборки для получения начальная точка. Зависит от Поскольку точки с большими амплитудами движения способствуют тренировке управления траекторией, в этой статье сначала выполняется отслеживание движения в каждой точке, чтобы получить длину их пути. ,. Затем, используя нормализованную длину этих точек в качестве вероятности выборки, произведите случайную выборку. точка。Зависит Поскольку высокая разреженность не способствует обучению на этих траекториях, в этой статье применяется фильтр Гаусса для получения гладкой карты траекторий. 。
Рисунок 2
специфическийметод Простая реализация редактирования видео — это непосредственное обучение дополнительного модуля управления (например, ControlNet) вводит условия движения и содержимого в процесс генерации диффузии, например метод A показано. В частности, на входной стороне кодировщик контента энкодер движения отдельные условия содержания èРедактировать условия движения в области Закодированные как условные внедрения, добавьте их, чтобы получить объединенные условные функции. . Затем Контрол Нет от Многомасштабные промежуточные признаки извлекаются и добавляются в соответствующие слои диффузионной модели.
в, функции нулевого преобразования и SVD Модели параметров дополнительных модулей управления.
Рисунок 3
На основе этой идеи было проведено несколько демонстраций эксперимента. Входное видео содержит сначала один ход влево.,Женщина снова движется вправо. Изменить цель да, оставив остальной контент без изменений,Измените движение лица вправо.
В демо-эксперименте 1 средний, фиксированный СВД и тренировка модуля управления. Результаты показывают,Условия содержания точно контролируют неотредактированные области, в которых создается видео. Но условия тренировки не имеют контролирующего эффекта.,Линия траектории области редактирования (области черного ящика) совпадает с линией траектории нередактируемой области. Возможные причины: одной ветви управления сложно одновременно обрабатывать два условия управления.
Чтобы проверить эту гипотезу, структура была спроектирована и обучена. B Для обработки состояния содержимого и состояния движения отдельно. Демонстрационныйэксперимент 2 показывает, что управление движением по-прежнему неэффективно, что и объясняет проблему. Контролируемые условия обучения, а не обусловленные сетевой структурой.
Чтобы улучшить тренировку двигательного контроля, структура B Обучение разделено на два этапа. На первом этапе только модуль управления движением обучается априорным методам управления движением. На втором этапе модуль управления движением и модуль управления контентом обучаются одновременно. Демонстрационныйэксперимент 3 Результаты показали, что, хотя предварительная тренировка моторики обеспечила хорошую способность к управлению моторикой, после введения контроля содержания точность контроля была ослаблена и на нее влиял неотредактированный контент.
Рисунок 4
После этих демонстраций я получил следующее просветление:
для Исправить проблему игнорирования управления движением,Этот метод совместно контролирует неотредактированный контент и новый контент управления движением в краткой структуре A.,дизайн разработал стратегию обучения от грубого до тонкого.
Stage 1 Движение до тренировки Траектория движения представляет собой разреженный и труднообучаемый управляющий сигнал. Демонстрационныйэксперимент показывает, что Движение до тренировки может уменьшить связь между контентом, управляемым движением, и неотредактированным контентом. поэтому,на первом этапе,Тренируйте только модуль управления траекторией движения,чтобы получить хорошие априоры для управления движением.
Stage 2 Разделенное обучение На основе модулей управления первого этапа второй этап обучения предназначен для повышения контроля над контентом нередактируемых областей. Даже при хороших априорах управления движением точность управления движением по-прежнему падает после введения условия неотредактированного содержимого.
поэтому,На этом этапе была разработана стратегия обучения, разделяющая контроль движения и контроль содержания. Конкретно,Этот метод будет обучать образец Часть, подлежащая редактированию, и неотредактированная часть установлены для двух разных видео, а именно: и 。 и от редактора mask объединены вместе, то есть 。Зависит от于редактировать区域и未редактировать区域来自两个不同的видео,Следовательно, информацию о движении редактируемой области нельзя предсказать на основе неотредактированного контента. поэтому,Во время обучения управление контентом и управление движением можно разделить.
Рисунок 5
Stage 3 обучение разбивке на части Хотя Разделенное обучение能高精度地实现верно定制运动и未редактировать内容的联合控制,Но это нарушает согласованность между отредактированной и неотредактированной областью.,На границах возникают блокирующие артефакты.
для решения этой проблемы,В этой статье используется третий этап обучения для устранения блочных артефактов. Этот этап обучения начинается со второго этапа «Модельдля».,И тренировался на обычных видеоданных. для сохранения разделения движения и контента на втором этапе до предварительного,Мы только доработали модуль управления и ключ и значение модели временного слоя самообслуживания SVD. После этого этапа обучения,Модель устраняет артефакты блокировки,И сохраняет совместный контроль над неотредактированным контентом и спортивными настройками.
Хотя стратегия обучения от грубого к мелкому обеспечивает разделение управления контентом и управлением движением.,Но в некоторых сложных траекториях движения,Было отмечено большое количество случаев отказа.
для Чтобы еще больше разграничить роль контроля неотредактированного контента и траектории движения в процессе генерации, в этом методедизайне есть Модуль пространственно-временного адаптивного синтеза(САФМ). В частности, САФМ от редактора маски M для прогнозирования карты веса , чтобы интегрировать управление движением и контентом вместо прямого запроса. Зависит Поскольку диффузия порождает многоэтапный итерационный процесс, объединение условий управления между временными шагами должно иметь возможности адаптивной корректировки. Поэтому мы объединяем временные шаги tиM в измерении канала, чтобы сформировать пространственно-временное условие, которое будет направлять предсказывать. Формула слияния условий движения и содержания для
,
в - Функция встраивания пространства-времени и Совместное обучение посредством визуализации Видно. Изучаются пространственные характеристики области редактирования. Условиям движения в редактируемой области и условиям содержания в нередактируемой области присваивается более высокий вес.
Рисунок 6
Выбор этого метода SVD В качестве базовой модели в WebVid обучен на наборе данных. на 4 NVIDIA A100 Обучение на графическом процессоре, пакетное для каждого графического процессора size для 4. Разрешение для 512×320, все этапы обучения занимают примерно 6 дней. Во время тренировки используйте CoTracker Извлекая траектории движения, на первом этапе обучения траектории выбираются по всей сети. На втором и третьем этапе обучения в видео случайным образом выбирается минимальный размер для64. × 64 прямоугольная область редактирования, выборка треков осуществляется по адресу в.
от Визуальное сравнение можно посмотреть,В некоторых сценариях детального редактирования,Например, надеть солнцезащитные очки на мужчину.,AnyV2V Отредактированный контент может быть утерян. Кроме того, существует проблема искажения контента в нередактируемой области InsV2V и AnyV2V. Хотя Pika может давать плавные и высококачественные результаты, сложно точно генерировать новый контент из текста, особенно при добавлении нового контента. Зависит от Из-за отсутствия управления движением AnyV2V и Pika Часто для редактируемого контента создается статическое движение. Напротив, Ре Видео Отредактированный контент можно эффективно создавать на протяжении всего видео, позволяя пользователям настраивать движение в области редактирования.
Рисунок 7
Рисунок 8
ReVideo превосходит InsV2V и AnyV2V по всем пунктам оценки. Ревидео по сравнению с Пикой Производительность немного ниже с точки зрения оценки временной согласованности и качества неотредактированного контента. Примечательно да, Зависит от Из-за отсутствия управления движением AnyV2V и Pika Статичное движение, которое часто создает новый контент. Зависит от Индикатор согласованности между соседними видеокадрами CLIP мерить по сходству,Статические движения имели тенденцию набирать более высокие баллы при оценке последовательности. ReVideo позволяет точно указать внешний вид и движение области редактирования.,Лучше удовлетворить требования точной настройки.
Таблица 1
Эффективность SAFM длядоказал Эффективность SAFM заменен прямым запросом на управление движением и контентом. САФМ. Результаты показывают, что в некоторых сложных траекториях движения, таких как волнистые линии, прямое слияние не может точно контролировать движение. Напротив, используйте SAFM Это может помочь разделить контент и управление движением в области редактирования, чтобы добиться более точного управления траекторией.
Эффективность временной адаптации в САФМ В этой части удалено SAFM Временные условия в модуле, т.е. использование одних и тех же весов слияния на каждом этапе диффузионной выборки. Для смешивания контента и управления движением. Результаты эксперимента показывают, что между различными этапами отбора проб не делается различий. Может привести к появлению нежелательных артефактов на границах области редактирования.
Обучение разбиению на части Хотя обучение на первом и втором этапах обеспечивает хорошие возможности локального управления движением модуля управления, мы обнаружили, что при обучении на третьем этапе управление движением все еще игнорируется. После доводки всего модуля управления на третьем этапе способность локального управления движением снизилась. Следовательно, на третьем этапе оптимизируются только некоторые параметры для поддержания априорного управления локальным движением. Эксперимент показал, что точная настройка пространственного слоя по-прежнему приводила к игнорированию двигательного контроля. Напротив, точная настройка Controlnet и SVD средний временной слой Key и Value Минимальное влияние на способность местного моторного контроля.
Рисунок 9