ReVideo: воссоздайте видео, используя элементы управления движением и контентом.

Shortcuts

Calendar Appointments

Invoice App Manage Accounts

User App Manage Users

Role Management Permission

Dashboard Analytics

Setting Account Settings

FAQs FAQs & Articles

Modals Useful Popups
- Notification
  8 New
- - Congratulation Lettie 🎉
    Won the monthly best seller gold badge
    
    1h ago
  - CF
    
    Charles Franklin
    Accepted your connection
    
    12hr ago
  - New Message ✉️
    You have new message from Natalie
    
    1h ago
  - Whoo! You have new order 🛒
    ACME Inc. made new order $1,154
    
    1 day ago
  - Application has been approved 🚀
    Your ABC project application has been approved.
    
    2 days ago
  - Monthly report is generated
    July monthly financial report is generated
    
    3 days ago
  - Send connection request
    Peter sent you connection request
    
    4 days ago
  - New message from Jane
    Your have new message from Jane
    
    5 days ago
  - CPU is running high
    CPU Utilization Percent is currently at 88.63%,
    
    5 days ago
- View all notifications

источник：arxiv автор：Chong Mou ждать Название диссертации：Remake a Video with Motion and Content Control Бумажная ссылка：https://arxiv.org/pdf/2405.13865 Организация контента：汪奕文 Хотя использование диффузии Модельгенерироватьиредактироватьвидео Значительный прогресс был достигнут в,Но достижение точного редактирования остается огромной проблемой. в этой статье,Предложил новый метод видеоредактора (ReVideo).,Указывая содержание и действия,Решена проблема сопряжения и дисбаланса обучения между контентом и управлением движением.,Обеспечивает точное редактирование в определенных областях.

введение

Технология генерации изображений на основе модели диффузии достигла большого прогресса. для Для достижения цели персонализированной генерации,Во многих работах в процессе генерации добавляются управляющие сигналы.,Например, создание изображений и видео с текстовым сопровождением.,и создание видео на основе изображений.

Основываясь на этих базовых моделях, был проведен большой объем работы по изучению того, как перенести их генеративные возможности в редактирование видео. ранняя работа (Fate-Zero, Flatten, Tune-A-Video) редактирование видео на основе диффузии текста в изображение Модель. Однако текстовые подсказки могут обеспечивать только грубые условия, ограничивая точность редактирования. По сравнению с текстом, последний метод использует изображения в качестве условий, что может обеспечить более точное руководство по редактированию. Например, укажите пространственные атрибуты целевого видео. (VideoComposer) или редактируйте определенные объекты в видео, предоставляя ссылочные объекты. (DreamVideo, Создать главного героя). Однако у этих методов по-прежнему возникают трудности с частичным редактированием и введением новых элементов (например, добавлением нового объекта в видео). AnyV2V Редактирование видео путем изменения первого кадра позволяет точно контролировать контент. Пика Определенные области видео можно восстановить, выбрав область редактирования. Хотя этот метод повышает производительность редактирования видео, он ориентирован только Редактирование визуального контента не позволяет обеспечить управление движением объектов.

Важные аспекты движения давидео, но исследования по редактированию движения видео все еще ограничены. Хотя некоторые методы использования основаны на траекторном управлении. движением (DragNUWA, DragAnything, MotionCtrl) на основе box руководство движением (Boximator, Peekaboo) Чтобы добиться генерации видео с управлением движением, но эти методы не поддерживают редактирование движения.

Основные положения этой статьи заключаются в следующем:

Первая попытка частичного редактирования контента и действий в видео,В то же время этот метод легко расширить для редактирования видео в нескольких регионах.
Предложена трехэтапная стратегия обучения и Модуль. пространственно-временного адаптивного синтеза,Решить проблему сопряжения контента и управления движением при редактировании.,от Компактное управление с помощью одного модуля.
Множество доказательств экспериментов, ReVideo превосходен в приложениях для точного редактирования видео.,Это включает в себя изменение содержимого определенной области при сохранении того же движения и адаптацию к новым траекториям движения при сохранении содержимого.,И одновременно изменяйте контент и траекторию движения.

Рисунок 1

метод

общая архитектура

определение задачи Цель этой статьидаверновидео进行局部редактировать,Включая визуальную информацию и информацию о движении. также,Неотредактированный контент в видео останется без изменений.

поэтому,Условная генерация видео Модели включает в себя три управляющих сигнала: Отредактированный контент.,Содержимое нередактируемой области,Условия движения в редактируемой области. Этот метод путем изменения первого кадра видео,Затем это распространяется на последующие кадры, чтобы обеспечить редактирование контента.

Представьте первый кадр после редактирования как . Для условий движения в качестве сигналов управления используйте линии траектории, а для условий движения, содержащих Кадры видео, условия движения включают графы траекторий, каждый граф траекторий Зависит от 2 Он состоит из двух каналов, которые соответственно отображают перемещение отслеживаемой точки в горизонтальном и вертикальном направлениях относительно предыдущего кадра. Неотредактированный контент ,в Соответственно обратитесь к области редактирования оригинального видео. mask。

Зависит принято в этой статье SVD делатьдляпредварительно обученный База Модель,Его способность генерировать изображения для видео, естественно, может использоваться в качестве метода ввода первого кадра после редактирования. Для неотредактированного контента и условий траектории движения,Этот метод обучал дополнительные модули управления,Импортируйте его в процесс сборки.

Отслеживание В процессе обучения из видео необходимо извлечь траектории, чтобы обеспечить условия движения. . Во-первых, сетка используется для разделения плотных точек выборки для получения начальная точка. Зависит от Поскольку точки с большими амплитудами движения способствуют тренировке управления траекторией, в этой статье сначала выполняется отслеживание движения в каждой точке, чтобы получить длину их пути. ,. Затем, используя нормализованную длину этих точек в качестве вероятности выборки, произведите случайную выборку. точка。Зависит Поскольку высокая разреженность не способствует обучению на этих траекториях, в этой статье применяется фильтр Гаусса для получения гладкой карты траекторий. 。

Рисунок 2

специфическийметод Простая реализация редактирования видео — это непосредственное обучение дополнительного модуля управления (например, ControlNet) вводит условия движения и содержимого в процесс генерации диффузии, например метод A показано. В частности, на входной стороне кодировщик контента энкодер движения отдельные условия содержания èРедактировать условия движения в области Закодированные как условные внедрения, добавьте их, чтобы получить объединенные условные функции. . Затем Контрол Нет от Многомасштабные промежуточные признаки извлекаются и добавляются в соответствующие слои диффузионной модели.

в, функции нулевого преобразования и SVD Модели параметров дополнительных модулей управления.

Рисунок 3

На основе этой идеи было проведено несколько демонстраций эксперимента. Входное видео содержит сначала один ход влево.,Женщина снова движется вправо. Изменить цель да, оставив остальной контент без изменений,Измените движение лица вправо.

В демо-эксперименте 1 средний, фиксированный СВД и тренировка модуля управления. Результаты показывают,Условия содержания точно контролируют неотредактированные области, в которых создается видео. Но условия тренировки не имеют контролирующего эффекта.,Линия траектории области редактирования (области черного ящика) совпадает с линией траектории нередактируемой области. Возможные причины: одной ветви управления сложно одновременно обрабатывать два условия управления.

Чтобы проверить эту гипотезу, структура была спроектирована и обучена. B Для обработки состояния содержимого и состояния движения отдельно. Демонстрационныйэксперимент 2 показывает, что управление движением по-прежнему неэффективно, что и объясняет проблему. Контролируемые условия обучения, а не обусловленные сетевой структурой.

Чтобы улучшить тренировку двигательного контроля, структура B Обучение разделено на два этапа. На первом этапе только модуль управления движением обучается априорным методам управления движением. На втором этапе модуль управления движением и модуль управления контентом обучаются одновременно. Демонстрационныйэксперимент 3 Результаты показали, что, хотя предварительная тренировка моторики обеспечила хорошую способность к управлению моторикой, после введения контроля содержания точность контроля была ослаблена и на нее влиял неотредактированный контент.

Рисунок 4

После этих демонстраций я получил следующее просветление:

Неотредактированный контент содержит больше, чем просто визуальную информацию.,Он также содержит богатую информацию о межкадровом движении. поэтому,Неотредактированное да Более простое условие для изучения,Модель диффузии имеет тенденцию прогнозировать перемещение отредактированных областей через неотредактированный контент.,Управление траекторией разреженного движения игнорируется.
Связь между новым контентом управления движением и неотредактированным контентом сильна, и ее трудно преодолеть даже с использованием априорных значений движения и отдельных ветвей управления.
Движение до Тренировки помогают разделить контент, связанный с управлением движениями, и неотредактированный контент.

Стратегия обучения от грубого к мелкому

для Исправить проблему игнорирования управления движением,Этот метод совместно контролирует неотредактированный контент и новый контент управления движением в краткой структуре A.,дизайн разработал стратегию обучения от грубого до тонкого.

Stage 1 Движение до тренировки Траектория движения представляет собой разреженный и труднообучаемый управляющий сигнал. Демонстрационныйэксперимент показывает, что Движение до тренировки может уменьшить связь между контентом, управляемым движением, и неотредактированным контентом. поэтому,на первом этапе,Тренируйте только модуль управления траекторией движения,чтобы получить хорошие априоры для управления движением.

Stage 2 Разделенное обучение На основе модулей управления первого этапа второй этап обучения предназначен для повышения контроля над контентом нередактируемых областей. Даже при хороших априорах управления движением точность управления движением по-прежнему падает после введения условия неотредактированного содержимого.

поэтому,На этом этапе была разработана стратегия обучения, разделяющая контроль движения и контроль содержания. Конкретно,Этот метод будет обучать образец Часть, подлежащая редактированию, и неотредактированная часть установлены для двух разных видео, а именно: и 。 и от редактора mask объединены вместе, то есть 。Зависит от于редактировать区域и未редактировать区域来自两个不同的видео,Следовательно, информацию о движении редактируемой области нельзя предсказать на основе неотредактированного контента. поэтому,Во время обучения управление контентом и управление движением можно разделить.

Рисунок 5

Stage 3 обучение разбивке на части Хотя Разделенное обучение能高精度地实现верно定制运动и未редактировать内容的联合控制,Но это нарушает согласованность между отредактированной и неотредактированной областью.,На границах возникают блокирующие артефакты.

для решения этой проблемы,В этой статье используется третий этап обучения для устранения блочных артефактов. Этот этап обучения начинается со второго этапа «Модельдля».,И тренировался на обычных видеоданных. для сохранения разделения движения и контента на втором этапе до предварительного,Мы только доработали модуль управления и ключ и значение модели временного слоя самообслуживания SVD. После этого этапа обучения,Модель устраняет артефакты блокировки,И сохраняет совместный контроль над неотредактированным контентом и спортивными настройками.

Модуль пространственно-временного адаптивного синтеза

Хотя стратегия обучения от грубого к мелкому обеспечивает разделение управления контентом и управлением движением.,Но в некоторых сложных траекториях движения,Было отмечено большое количество случаев отказа.

для Чтобы еще больше разграничить роль контроля неотредактированного контента и траектории движения в процессе генерации, в этом методедизайне есть Модуль пространственно-временного адаптивного синтеза(САФМ). В частности, САФМ от редактора маски M для прогнозирования карты веса , чтобы интегрировать управление движением и контентом вместо прямого запроса. Зависит Поскольку диффузия порождает многоэтапный итерационный процесс, объединение условий управления между временными шагами должно иметь возможности адаптивной корректировки. Поэтому мы объединяем временные шаги tиM в измерении канала, чтобы сформировать пространственно-временное условие, которое будет направлять предсказывать. Формула слияния условий движения и содержания для

в - Функция встраивания пространства-времени и Совместное обучение посредством визуализации Видно. Изучаются пространственные характеристики области редактирования. Условиям движения в редактируемой области и условиям содержания в нередактируемой области присваивается более высокий вес.

Рисунок 6

эксперимент

экспериментдеталь

Выбор этого метода SVD В качестве базовой модели в WebVid обучен на наборе данных. на 4 NVIDIA A100 Обучение на графическом процессоре, пакетное для каждого графического процессора size для 4. Разрешение для 512×320, все этапы обучения занимают примерно 6 дней. Во время тренировки используйте CoTracker Извлекая траектории движения, на первом этапе обучения траектории выбираются по всей сети. На втором и третьем этапе обучения в видео случайным образом выбирается минимальный размер для64. × 64 прямоугольная область редактирования, выборка треков осуществляется по адресу в.

верно比эксперимент

от Визуальное сравнение можно посмотреть,В некоторых сценариях детального редактирования,Например, надеть солнцезащитные очки на мужчину.,AnyV2V Отредактированный контент может быть утерян. Кроме того, существует проблема искажения контента в нередактируемой области InsV2V и AnyV2V. Хотя Pika может давать плавные и высококачественные результаты, сложно точно генерировать новый контент из текста, особенно при добавлении нового контента. Зависит от Из-за отсутствия управления движением AnyV2V и Pika Часто для редактируемого контента создается статическое движение. Напротив, Ре Видео Отредактированный контент можно эффективно создавать на протяжении всего видео, позволяя пользователям настраивать движение в области редактирования.

Рисунок 7

Рисунок 8

ReVideo превосходит InsV2V и AnyV2V по всем пунктам оценки. Ревидео по сравнению с Пикой Производительность немного ниже с точки зрения оценки временной согласованности и качества неотредактированного контента. Примечательно да, Зависит от Из-за отсутствия управления движением AnyV2V и Pika Статичное движение, которое часто создает новый контент. Зависит от Индикатор согласованности между соседними видеокадрами CLIP мерить по сходству,Статические движения имели тенденцию набирать более высокие баллы при оценке последовательности. ReVideo позволяет точно указать внешний вид и движение области редактирования.,Лучше удовлетворить требования точной настройки.

Таблица 1

абляционныйэксперимент

Модуль дизайна в ReVideo пространственно-временного адаптивного синтеза (SAFM) для разделения контроля неотредактированного контента и настройки действий при диффузной генерации. предсказать один для редактирования области M и шаг по времени t - это вес слияния условия . В этой части этот механизм слияния изучается абляционно. Кроме того, только на этапе обучения разблокировке SVD Слой временного внимания в модели и модуле управления Key и Value Встроить для тонкой настройки.

Эффективность SAFM длядоказал Эффективность SAFM заменен прямым запросом на управление движением и контентом. САФМ. Результаты показывают, что в некоторых сложных траекториях движения, таких как волнистые линии, прямое слияние не может точно контролировать движение. Напротив, используйте SAFM Это может помочь разделить контент и управление движением в области редактирования, чтобы добиться более точного управления траекторией.

Эффективность временной адаптации в САФМ В этой части удалено SAFM Временные условия в модуле, т.е. использование одних и тех же весов слияния на каждом этапе диффузионной выборки. Для смешивания контента и управления движением. Результаты эксперимента показывают, что между различными этапами отбора проб не делается различий. Может привести к появлению нежелательных артефактов на границах области редактирования.

Обучение разбиению на части Хотя обучение на первом и втором этапах обеспечивает хорошие возможности локального управления движением модуля управления, мы обнаружили, что при обучении на третьем этапе управление движением все еще игнорируется. После доводки всего модуля управления на третьем этапе способность локального управления движением снизилась. Следовательно, на третьем этапе оптимизируются только некоторые параметры для поддержания априорного управления локальным движением. Эксперимент показал, что точная настройка пространственного слоя по-прежнему приводила к игнорированию двигательного контроля. Напротив, точная настройка Controlnet и SVD средний временной слой Key и Value Минимальное влияние на способность местного моторного контроля.

Рисунок 9

Рекомендация

Категории

Модель видео дизайн объект База

Новые посты

Неразрушающее увеличение изображений одним щелчком мыши, чтобы сделать их более четкими артефактами искусственного интеллекта, включая руководства по установке и использованию.

Копикодер: этот инструмент отлично работает с Cursor, Bolt и V0! Предоставьте более качественные подсказки для разработки интерфейса (создание навигационного веб-сайта с использованием искусственного интеллекта).

Новый бесплатный RooCline превосходит Cline v3.1? ! Быстрее, умнее и лучше вилка Cline! (Независимое программирование AI, порог 0)

Разработав более 10 проектов с помощью Cursor, я собрал 10 примеров и 60 подсказок.

Я потратил 72 часа на изучение курсорных агентов, и вот неоспоримые факты, которыми я должен поделиться!

Идеальная интеграция Cursor и DeepSeek API

DeepSeek V3 снижает затраты на обучение больших моделей

Артефакт, увеличивающий количество очков: на основе улучшения характеристик препятствия малым целям Yolov8 (SEAM, MultiSEAM).

DeepSeek V3 раскручивался уже три дня. Сегодня я попробовал самопровозглашенную модель «ChatGPT».

Open Devin — инженер-программист искусственного интеллекта с открытым исходным кодом, который меньше программирует и больше создает.

Эксклюзивное оригинальное улучшение YOLOv8: собственная разработка SPPF | SPPF сочетается с воспринимаемой большой сверткой ядра UniRepLK, а свертка с большим ядром + без расширения улучшает восприимчивое поле

ReVideo: воссоздайте видео, используя элементы управления движением и контентом.

введение

метод

общая архитектура

Стратегия обучения от грубого к мелкому

Модуль пространственно-временного адаптивного синтеза

эксперимент

экспериментдеталь

верно比эксперимент

абляционныйэксперимент

Новый бесплатный RooCline превосходит Cline v3.1? ! Быстрее, умнее и лучше вилка Cline! (Независимое программирование AI, порог 0)

Разработав более 10 проектов с помощью Cursor, я собрал 10 примеров и 60 подсказок.

Я потратил 72 часа на изучение курсорных агентов, и вот неоспоримые факты, которыми я должен поделиться!

Идеальная интеграция Cursor и DeepSeek API

DeepSeek V3 снижает затраты на обучение больших моделей

Артефакт, увеличивающий количество очков: на основе улучшения характеристик препятствия малым целям Yolov8 (SEAM, MultiSEAM).

DeepSeek V3 раскручивался уже три дня. Сегодня я попробовал самопровозглашенную модель «ChatGPT».

Open Devin — инженер-программист искусственного интеллекта с открытым исходным кодом, который меньше программирует и больше создает.

Популярное и подробное объяснение DeepSeek-V3: от его появления до преимуществ и сравнения с GPT-4o.

9 основных словесных инструкций по доработке академических работ с помощью ChatGPT, эффективных и практичных, которые стоит собрать

Вызовите deepseek в vscode для реализации программирования с помощью искусственного интеллекта.

Познакомьтесь с принципами сверточных нейронных сетей (CNN) в одной статье (суперподробно)

50,3 тыс. звезд! Immich: автономное решение для резервного копирования фотографий и видео, которое экономит деньги и избавляет от беспокойства.

Cloud Native｜Практика: установка Dashbaord для K8s, графика неплохая

Краткий обзор статьи — использование синтетических данных при обучении больших моделей и оптимизации производительности

MiniPerplx: новая поисковая система искусственного интеллекта с открытым исходным кодом, спонсируемая xAI и Vercel.

Конструкция сервиса Synology Drive сочетает проникновение в интрасеть и синхронизацию папок заметок Obsidian в облаке.

Центр конфигурации————Накос

Начинаем с нуля при разработке в облаке Copilot: начать разработку с минимальным использованием кода стало проще

[Серия Docker] Docker создает мультиплатформенные образы: практика архитектуры Arm64

Обновление новых возможностей coze | Я использовал coze для создания апплета помощника по исправлению домашних заданий по математике

Советы по развертыванию Nginx: практическое создание статических веб-сайтов на облачных серверах

Feiniu fnos использует Docker для развертывания личного блокнота Notepad

Сверточная нейронная сеть VGG реализует классификацию изображений Cifar10 — практический опыт Pytorch

Начало работы с EdgeonePages — новым недорогим решением для хостинга веб-сайтов

[Зона легкого облачного игрового сервера] Управление игровыми архивами

Развертывание SpringCloud-проекта на базе Docker и Docker-Compose

Congratulation Lettie 🎉

Charles Franklin

New Message ✉️

Whoo! You have new order 🛒

Application has been approved 🚀

Monthly report is generated

Send connection request

New message from Jane

CPU is running high

ReVideo: воссоздайте видео, используя элементы управления движением и контентом.

введение

метод

общая архитектура

Стратегия обучения от грубого к мелкому

Модуль пространственно-временного адаптивного синтеза

эксперимент

экспериментдеталь

верно比эксперимент

абляционныйэксперимент

Новый бесплатный RooCline превосходит Cline v3.1? ! Быстрее, умнее и лучше вилка Cline! (Независимое программирование AI, порог 0)

Разработав более 10 проектов с помощью Cursor, я собрал 10 примеров и 60 подсказок.

Я потратил 72 часа на изучение курсорных агентов, и вот неоспоримые факты, которыми я должен поделиться!

Идеальная интеграция Cursor и DeepSeek API

DeepSeek V3 снижает затраты на обучение больших моделей

Артефакт, увеличивающий количество очков: на основе улучшения характеристик препятствия малым целям Yolov8 (SEAM, MultiSEAM).

DeepSeek V3 раскручивался уже три дня. Сегодня я попробовал самопровозглашенную модель «ChatGPT».

Open Devin — инженер-программист искусственного интеллекта с открытым исходным кодом, который меньше программирует и больше создает.

Популярное и подробное объяснение DeepSeek-V3: от его появления до преимуществ и сравнения с GPT-4o.

9 основных словесных инструкций по доработке академических работ с помощью ChatGPT, эффективных и практичных, которые стоит собрать

Вызовите deepseek в vscode для реализации программирования с помощью искусственного интеллекта.

Познакомьтесь с принципами сверточных нейронных сетей (CNN) в одной статье (суперподробно)

50,3 тыс. звезд! Immich: автономное решение для резервного копирования фотографий и видео, которое экономит деньги и избавляет от беспокойства.

Cloud Native｜Практика: установка Dashbaord для K8s, графика неплохая

Краткий обзор статьи — использование синтетических данных при обучении больших моделей и оптимизации производительности

MiniPerplx: новая поисковая система искусственного интеллекта с открытым исходным кодом, спонсируемая xAI и Vercel.

Конструкция сервиса Synology Drive сочетает проникновение в интрасеть и синхронизацию папок заметок Obsidian в облаке.

Центр конфигурации————Накос

Начинаем с нуля при разработке в облаке Copilot: начать разработку с минимальным использованием кода стало проще

[Серия Docker] Docker создает мультиплатформенные образы: практика архитектуры Arm64

Обновление новых возможностей coze | Я использовал coze для создания апплета помощника по исправлению домашних заданий по математике

Советы по развертыванию Nginx: практическое создание статических веб-сайтов на облачных серверах

Feiniu fnos использует Docker для развертывания личного блокнота Notepad

Сверточная нейронная сеть VGG реализует классификацию изображений Cifar10 — практический опыт Pytorch

Начало работы с EdgeonePages — новым недорогим решением для хостинга веб-сайтов

[Зона легкого облачного игрового сервера] Управление игровыми архивами

Развертывание SpringCloud-проекта на базе Docker и Docker-Compose