ICCV 2023 | Глубокое сжатие видео на основе моделей
ICCV 2023 | Глубокое сжатие видео на основе моделей

Введение

Как традиционные платформы гибридного видеокодирования, так и существующие методы сжатия видео на основе глубокого обучения (DLVC) следуют одному и тому же подходу к сжатию видео, разрабатывая различные модули для уменьшения пространственной и временной избыточности. Они используют соседние пиксели в одном и том же кадре или соседних кадрах в качестве эталонов для получения значений внутреннего или внешнего предсказания. Поскольку видеопоследовательности захватываются с высокой частотой кадров (например, 30 кадров в секунду или 60 кадров в секунду), одна и та же сцена может появляться в сотнях кадров, которые сильно коррелированы во временной области. Однако существующие стратегии сжатия не могут полностью устранить избыточность сцены при прогнозировании на уровне блоков или кадров.

Чтобы преодолеть узкое место в производительности при сжатии видео, в этой статье предлагается инновационная парадигма кодирования видео, целью которой является поиск компактного подпространства для видеопоследовательностей одной и той же сцены вместо уменьшения пространственно-временной избыточности с помощью методов прогнозирования на уровне блоков или кадров. Эта парадигма заменяет сокращение избыточности посредством локального прогнозирования неявным моделированием компактного подпространства всей сцены. Поэтому поиск подходящего инструмента моделирования для представления сценария имеет решающее значение для этой парадигмы, а неявные нейронные представления (INR) популярны благодаря своей мощной способности моделировать различные сигналы через глубокие сети. Некоторые исследователи применили INR к задачам сжатия изображений и добились многообещающих результатов, что позволяет применять INR к задачам MVC.

В MVC,Моделирование последовательности – очень важный фактор,Это основная проблема, с которой сталкивается сжатие видео. Однако,Возможности представления исходного метода видеоINR ограничены.,Чтобы получить видео, необходимо пройти каждый пиксель каждого кадра изображения. И отказаться от попиксельного обхода,Производительность метода INR, который принимает в качестве объекта индекс видеокадра, очень ограничена.,Например, предыдущий NeRV не был даже так хорош, как H.265. Это скорее иллюстрирует потенциал дальнейшего развития применения видеоINR для задач сжатия видео. поэтому,в этой статье,Автор еще больше улучшает видеоINR в улучшении пространственного контекстаи Регистрация временной Возможности моделирования последовательностей в сравнении.

Рисунок 1. Сравнение производительности различных методов видео INR и традиционных методов сжатия видео.

Для захвата пространственного контекста в этой статье предлагается метод контекстно-зависимого внедрения пространственного положения (CRSPE). Также представлен модуль контроля частотной области (FDS), который может захватывать высокочастотные детали и улучшать качество реконструкции без необходимости дополнительной скорости передачи данных. Временная корреляция является ключевым фактором для метода INR, позволяющим повысить эффективность представления различных кадров. Существующие методы INR для видео в основном полагаются на различные кодировки временных позиций для различения кадров и ожидают, что сеть неявно выучит временные корреляции. Но для длинных видеопоследовательностей им трудно исследовать сложные долгосрочные временные корреляции. Чтобы решить эту проблему, в этой статье представлен механизм ограничения оптического потока сцены (SFCM) для краткосрочной временной корреляции и потеря временного контраста (TCL) для долгосрочной временной корреляции. Эти механизмы не увеличивают параметры сети и хорошо подходят для задач MVC. Эта новая структура MVC уже значительно превосходит H.266, демонстрируя потенциал подхода MVC.

Подводя итог, можно выделить следующие основные моменты этой статьи:

  • Предложил MVC,Цель: выявить более компактные подпространства для видеопоследовательностей. В отличие от существующих методов, которые полагаются на явное уменьшение пространственно-временной избыточности посредством прогнозирования на уровне блоков или кадров.,MVC использует корреляцию между всеми кадрами сцены одновременно.
  • Устранить ограничения существующих методов видеоINR при применении к сжатию видео.,Автор внедрил CRSPEиFDS в улучшение внутреннего контекста.,Они могут обрабатывать пространственные изменения от кадра к кадру и захватывать высокочастотные детали. Автор доработал SFCMиTCL для моделирования временной корреляции.
  • Провёл обширный эксперимент на разных базах данных.,И провел детальный анализ модуля дизайна. Результаты эксперимента показывают,предлагаемый метод может быть лучше, чем H.266 (VTM12.0). Это демонстрирует превосходство предложенного алгоритма.,И может вдохновить исследователей на изучение сжатия видео с новых точек зрения.

предлагаемый метод

Рисунок 2. Структура предлагаемого MVC

предыдущая работа

Рисунок Диаграмма серого прямоугольника в 1 соответствует использованию предыдущей работа,Используется метод видеоINR, использующий временное и пространственное разделение информации. Конкретно,сеть требует индекс кадра текущего момента

t

и пространственная система координат

S

,

S

Размер

2\times9\times16

, представляет пространственные объекты с низким разрешением. индекс кадра

t

и пространственная система координат

S

Сначала выполните операцию нормализации, а затем введите кодировку положения.

\gamma

Выполнение расширения размеров и кодирования позиции

\gamma

Это может быть выражено как:

\gamma(t)=(sin(b^0 \pi t),cos(b^0 \pi t),...,sin(b^{l-1} \pi t),cos(b^{l-1} \pi t))\quad(1)

в

b=1.25,l=80

. Кодирование положения может эффективно расширить размеры входного сигнала. Предыдущие исследования показали, что способность INR плохо подгоняться, когда пространственные координаты или временные индексы вводятся напрямую, в то время как многомерное расширение может улучшить способность представления INR. Следующим шагом является извлечение пространственных и временных характеристик текущего кадра. Временные характеристики получаются с помощью MLP, а пространственные характеристики — с помощью внедрения преобразователя. Эти сети используют параметры.

\theta_{t1}

и

\theta_s

выразить. В частности, извлеченные функции можно записать как:

\hat{F}_s=\mathcal{G}_{\theta_s}(\hat{S})+\hat{S}, \hat{S} = \gamma(S)\quad(2)
\hat{F}_{t1}=\mathcal{G}_{\theta_{t1}}(\gamma(t))\quad(3)

После этого необходимо соединить извлеченные временные и пространственные особенности приезжать.

\hat{F}_{t1}

это

d

размерный вектор и

\hat{F}_s \in \mathbb{R}^{d \times 9 \times 16}

, поэтому умножьте непосредственно на канал и передайте параметр как

\theta_f

Сеть генерирует слитые пространственно-временные характеристики, и это

\mathcal{G}_{\theta_f}

сеть Усыновленныйи

\mathcal{G}_{\theta_s}

Та же конструкция трансформатора. Этот процесс можно конкретно выразить так:

\hat{F}_f=\mathcal{G}_{\theta_f}(\hat{F}_s \odot \hat{F}_{t1})\quad(4)

Благодаря объединению пространственно-временных функций вы можете рассмотреть возможность создания индекса текущего кадра.

t

момент видеокадра. сеть

\mathcal{G}_{\theta_r}

Карта объектов подвергается повышению дискретизации с использованием операций свертки и перемешивания пикселей, что является постепенным процессом. сеть

\mathcal{G}_{\theta_r}

Он содержит пять идентичных структур повышающей дискретизации, и каждая структура разработана с разным коэффициентом повышающей дискретизации. В процессе повышения дискретизации для дальнейшей интеграции временного контекста будет создан дополнительный временной признак, который будет управлять смещением распределения промежуточной карты признаков. Этот процесс может эффективно повысить производительность. Таким образом, процесс генерации видеокадра можно резюмировать следующим образом:

\hat{F}_{t2} = \mathcal{G}_{\theta_{t2}}(\gamma(t))\quad(5)
\hat{\mathrm{v}}_t=\mathcal{G}_{\theta_r}(\hat{F}_f ,\hat{F}_{t2})\quad(6)

улучшение пространственного контекста

Контекстно-ориентированное пространственно-позиционное встраивание

Вышеупомянутое работает через фиксированные координаты сетки.

S

Неявно представляет пространственный контекст,Это встраивание контекстно-свободного пространственного местоположения. Однако пространственный контент будет меняться между разными видеокадрами.,Это приведет к увеличению параметров сети Модель и увеличению времени обучения.,Только так мы сможем получить относительно хороший результат. Чтобы решить эту проблему,Авторы предложили CRSPE. Смотреть приезжать с рисунка 2,перед тренировкой,пройдет сеть

\psi

Извлеките пространственный объект для каждого видеокадра

F_e \in \mathbb{R}^{3\times9\times16}

, а затем пространственные особенности

F_e

Пространственные координаты после расширения измерения

\hat{S}

Выполните каскадирование. Для видео 720P, сеть

\psi

это

80\times80

Сверточный слой и для видео 1080P сеть

\psi

это

120\times120

Сверточный слой. Несмотря на передачу

F_e

Требуются дополнительные биты, но это позволяет модели добиться лучшего качества реконструкции, что повысит производительность RD. Результаты теста показывают, что за видео 720P требуется дополнительная плата.

10\%

За счет Бпп, примерно

0.9

Улучшение PSNR в д Б.

Контроль частотной области

В предыдущих исследованиях INR в целом было обнаружено, что сети трудно усваивать высокочастотную информацию. Некоторые работы используют в своих сетях частотно-зависимые операции, которые могут захватывать высокочастотные детали изображений. Однако эти операции сложно напрямую применить к задачам сжатия видео, поскольку они требуют дополнительных сложных модулей и вводят больше битов кодирования. Чтобы сохранить высокочастотные детали в видеокадрах, предлагается использовать функцию потери восприятия с учетом частоты без добавления сетевых параметров. В частности, для преобразования используется быстрое преобразование Фурье (БПФ).

\hat{\mathrm{v}}_t

и

\mathrm{v}_t

Преобразуйте в частотную область и затем вычислите

\mathcal{L}1

потеря:

\mathcal{L}_{freq} = \mathcal{L}_1(FFT(\hat{\mathrm{v}}_t),FFT(\mathrm{v}_t))\quad(7)

Регистрация временной корреляции

Предыдущий метод INR использовал только индекс кадра текущего момента.

t

Чтобы различать разные кадры, модель столкнется с ухудшением производительности в условиях сложных временных изменений, особенно в случае долгосрочных временных корреляций. Поэтому авторы предложили SFCM для фиксации краткосрочной временной корреляции. В дополнение к этому, TCL также предназначен для улучшения моделирования долгосрочных временных корреляций.

Механизм ограничения потока сцены

SFCM повысит дискретизацию сети с

\mathcal{G}_{\theta_r}

Извлеките последнюю карту объектов перед созданием изображения видеокадра.

\hat{Z}_t

,использовать

\hat{Z}_t

для создания оптического потока. Для ограничений используются два оптических потока: прямой оптический поток.

\mathrm{O}^f_t

Представлять из

t-1

приезжать

t

Схема оптического потока и обратный оптический поток

\mathrm{O}^b_t

Представлять из

t

приезжать

t-1

Оптическая схема. Генерация карт оптических потоков опирается на предварительно обученные сети.

\phi

, и поскольку карта оптического потока GT генерируется алгоритмом оценки оптического потока RAFT, видеокадр

\left \{ \mathrm{v}_{t-1},\mathrm{v}_t \right \}

Соответствующая оптическая схема

\left \{ \mathrm{O}^{fgt}_t , \mathrm{O}^{bgt}_t \right \}

. Наконец, пройдите

\mathcal{L}1

Оптимизация потерь:

\mathcal{L}_{vanilla-flow} = \mathcal{L}_1(\mathrm{O}_t^f,\mathrm{O}_t^{fgt}) + \mathcal{L}_1(\mathrm{O}_t^b,\mathrm{O}_t^{bgt})\quad(8)

Поскольку карта оптического потока GT оценивается алгоритмом RAFT приезжать,По разным причинам, таким как точность алгоритма и т. д.,В карте оптического потока будет определенное количество шума.,Карта оптического потока, содержащая шум, ухудшает качество изображения. Чтобы решить проблему шума,Введены операции регуляризации. Конкретно,Автор использует

1\times1

Свертка плюс пара слоев softmax

\hat{Z}_t

После обработки получается регуляризованная весовая матрица двух каналов.

\mathrm{W}

. затем выберите

\mathrm{W}

Второй канал регуляризует карту оптического потока, и регуляризованные ограничения оптического потока становятся:

\mathcal{L}_{flow}=\mathcal{L}_1(\mathrm{W}^{(1)} \cdot \mathrm{O}_t^f , \mathrm{W}^{(1)} \cdot \mathrm{O}_t^{fgt}) + \mathcal{L}_1(\mathrm{W}^{(1)} \cdot \mathrm{O}_t^b , \mathrm{W}^{(1)} \cdot \mathrm{O}_t^{bgt})\quad(9)

Автор здесь намеренно помещает весовую матрицу

\mathrm{W}

Разработан с двумя каналами, одной из целей которого является облегчение

\mathrm{W}

Оптимизация становится формой горячего вектора в измерении канала. Кроме того, одноканальный

\mathrm{W}

Подобно карте внимания, ее можно контролировать только косвенно за счет потери реконструкции MVC, и существует риск того, что она не сможет эффективно учиться. Следовательно, это будет

\mathrm{W}

Он спроектирован как двухканальный и использует функцию потерь для оптимизации.

\mathrm{W}

, эта функция определяется как:

\mathcal{L}_{ent} = - (\mathrm{W}^{(0)} \cdot log(\mathrm{W}^{(0)}) + \mathrm{W}^{(1)} \cdot log(\mathrm{W}^{(1)}))\quad(10)

На рисунке 3 показаны результаты регуляризации оптического потока.,Вы можете видеть, что фоновый шум, которого не должно быть, исчез.,Выделен оптический поток людей как движущихся объектов.

Рис. 3. Сравнение оптического потока до и после регуляризации

Временная контрастная потеря

Хотя SFCM может фиксировать кратковременную временную корреляцию двух соседних кадров.,Но долгосрочные временные корреляции также важны. поэтому,Авторы рассматривают моделирование долгосрочной временной корреляции между текущим кадром и ранее восстановленным кадром.,В основном это достигается посредством сравнительного обучения. учитывать текущий момент

t

реконструированный кадр

\hat{\mathbb{v}}_t

èЗа мгновение до

t-1

приезжать

t-L

Коллекция реконструированных кадров

\hat{\mathrm{V}}_t^p = \left \{ \hat{\mathbb{v}}_{t-1},\hat{\mathbb{v}}_{t-2},...,\hat{\mathbb{v}}_{t-L} \right \}

. Использование предварительно обученного извлечения признаков в сети глобального пула восстанавливает кадр

\left \{ \hat{\mathbb{v}}_t,\hat{\mathrm{V}}_t^p \right \}

Встраивание вектора признаков прибытия

\left \{ \mathbb{h}_t,\mathrm{H}_t^p \right \}

Поднимитесь. Поскольку кадры, находящиеся рядом во времени, имеют более высокую корреляцию, чем кадры, находящиеся на расстоянии, предполагается, что

\mathbb{h}_t

и

\mathrm{H}_t^p

Сходство между ними должно следовать априорному гауссовскому распределению временного расстояния, а сходство векторов признаков рассчитывается по косинусному сходству. Наконец, на основе приведенных выше предположений, используется расхождение KL для оптимизации сходства признаков и априорного распределения Гаусса. Блок-схема выглядит следующим образом: Рисунок. Как показано на рисунке 4, этот процесс может быть выражено как:

sim(\mathcal{u},\mathcal{v}) = \mathcal{u}^{\top}\mathcal{v} / \left \| \mathcal{u} \right \| \left \| \mathcal{v} \right \|\quad(11)
Gau(x) = \frac{1}{\sigma \sqrt{2\pi}}exp(-\frac{x^2}{2 \sigma^2})\quad(12)
\mathcal{L}_{cont} = - {\textstyle \sum_{j=t-L}^{t-1}w_{tj}}log \frac{exp(sim(\mathbb{h}_t,\mathbb{h}_j)/\tau)}{{\textstyle \sum_{k=t-L}^{t-1}}exp(sim(\mathbb{h}_t,\mathbb{h}_k)/\tau)}\quad(13)
w_{tj} = \frac{Gau(t-j)}{{\textstyle \sum_{k=t-L}^{t-1}}Gau(t-k)}\quad(14)

Рисунок 4. Процесс расчета TCL

В частности, соответствующие значения параметров в формуле:

\sigma^2=10, \tau=0.1, L=80

. На основе всех приведенных выше расчетов функция общих потерь после полного учета всей пространственно-временной информации рассчитывается как:

\mathcal{L}_{total} = \mathcal{L}_1(\hat{\mathrm{v}}_t,\mathrm{v}_t) + \mathcal{L}_{freq} + \mathcal{L}_{flow} + \mathcal{L}_{ent} + \mathcal{L}_{cont}\quad(15)

Процесс сжатия видео и сжатие модели

Процесс сжатия видео, используемый в этой статье, показан на рисунке 5. На этапе обучения (кодирования) предлагаемая сеть сначала обучается на всем видео. Затем установите параметры сети

\theta

Пространственные особенности

F_e

Квантуется в битовый поток для хранения и передачи. Параметры сети представляют собой числа одинарной точности с плавающей запятой, и для представления каждого веса требуется 32 бита. Чтобы уменьшить требования к памяти,ИспользоватьAIMET (набор инструментов для повышения эффективности моделей искусственного интеллекта) определяет количественную оценку модели. Поскольку диапазон значений каждого весового тензора различен, для достижения равномерного квантования для каждого весового тензора необходимо использовать разные стратегии квантования. Опыт показывает, что 7- или 8-битное квантование гарантирует наилучшую производительность искажений. наконец,использоватьколичественносетьпараметр Пространственные Особенности декодирования. Помимо количественной оценки,Существует также множество методов сжатия моделей, которые могут еще больше улучшить характеристики искажения скорости.,Автор не дискутирует дальше, чтобы обеспечить справедливость. Сравнить существующие методы сжатия,Автор определяет Bpp MVC:

(NP+FE)/(FN\times H\times W)

. Проще говоря, это общее количество битов функции «Модели», разделенное на общее количество пикселей видео.

Рисунок 5. Блок-схема сжатия видео методом MVC.

эксперимент

эксперимент Конфигурация

В этой статье PSNRиBpp используется как мера производительности сжатия.,Характеристики MVCсеть определяют, что на данном этапе его можно использовать только для задач сжатия не в реальном времени. В использовании используется три набора данных: HEVC ClassE Three 720Pvideo.,Три монитора 1080P стандарта IEEE1857 видео,и два монитора 1080P, использованные в других документах. Авторы сравнивают метод MVC с традиционными кодеками, методами на основе INR и методами DLVC. Объектами сравнения традиционными методами являются H.265 (HM16.21) и H.266 (VTM12.0), а методом на основе INR — E-NeRV.,Методы DLVC включают HSTE (или DCVC-HEM) и CANFVC.

экспериментрезультат

В таблице 1 показаны результаты BDBR различными методами.,Базовым методом сравнения является H.266. Под наблюдением видео,MVC может добиться улучшения PSNR примерно на 1 д Б по сравнению с H.266 при аналогичном Bpp.,Это значительное преимущество. MVC добился наилучшей производительности на всех наборах тестовых данных.

Таблица 1 Сравнительная производительность BDBR разных МодельиH.266 при разных последовательностях видео

В таблице 2 показаны различные эксперименты по абляции, выполненные автором. Вы можете посмотреть приезжать,Все предложенные модули повышаютпроизводительность сети. Серия экспериментов проверит эффективность модуля, предложенного в этой статье. в SFCM,Отдельно обсуждается также эффективность предложенного метода регуляризации и двухканальной весовой матрицы. Вы можете посмотреть приезжать,без регуляризации,Производительность модели даже несколько ухудшилась. И для ТСЛ,Эффективность гауссовского априора и влияние длины эталонной последовательности обсуждаются соответственно.

Таблица 2 удалятьэкспериментрезультат

Подвести итог

В этой статье предлагается новая платформа MVC для задач сжатия. Эта структура использует INR в качестве магистральной сети.,Обсуждаются ограничения существующих методов видеоINR применительно к задачам кодирования видео. Чтобы обойти эти ограничения,Автор предлагает контекстно-зависимое встраивание пространственного местоположения и контроль частотной области.,Расширить возможности существующих методов INR по извлечению пространственного контекста. также,Также улучшается механизм ограничения оптического потока сцены и потеря временной контрастности.,улучшить возможности моделирования времени. в эксперименте,Предложенный в этой статье метод MVC превосходит H.266 во всех тестовых последовательностях.,Это мотивирует нас изучить задачу сжатия видео с новой точки зрения.

boy illustration
Неразрушающее увеличение изображений одним щелчком мыши, чтобы сделать их более четкими артефактами искусственного интеллекта, включая руководства по установке и использованию.
boy illustration
Копикодер: этот инструмент отлично работает с Cursor, Bolt и V0! Предоставьте более качественные подсказки для разработки интерфейса (создание навигационного веб-сайта с использованием искусственного интеллекта).
boy illustration
Новый бесплатный RooCline превосходит Cline v3.1? ! Быстрее, умнее и лучше вилка Cline! (Независимое программирование AI, порог 0)
boy illustration
Разработав более 10 проектов с помощью Cursor, я собрал 10 примеров и 60 подсказок.
boy illustration
Я потратил 72 часа на изучение курсорных агентов, и вот неоспоримые факты, которыми я должен поделиться!
boy illustration
Идеальная интеграция Cursor и DeepSeek API
boy illustration
DeepSeek V3 снижает затраты на обучение больших моделей
boy illustration
Артефакт, увеличивающий количество очков: на основе улучшения характеристик препятствия малым целям Yolov8 (SEAM, MultiSEAM).
boy illustration
DeepSeek V3 раскручивался уже три дня. Сегодня я попробовал самопровозглашенную модель «ChatGPT».
boy illustration
Open Devin — инженер-программист искусственного интеллекта с открытым исходным кодом, который меньше программирует и больше создает.
boy illustration
Эксклюзивное оригинальное улучшение YOLOv8: собственная разработка SPPF | SPPF сочетается с воспринимаемой большой сверткой ядра UniRepLK, а свертка с большим ядром + без расширения улучшает восприимчивое поле
boy illustration
Популярное и подробное объяснение DeepSeek-V3: от его появления до преимуществ и сравнения с GPT-4o.
boy illustration
9 основных словесных инструкций по доработке академических работ с помощью ChatGPT, эффективных и практичных, которые стоит собрать
boy illustration
Вызовите deepseek в vscode для реализации программирования с помощью искусственного интеллекта.
boy illustration
Познакомьтесь с принципами сверточных нейронных сетей (CNN) в одной статье (суперподробно)
boy illustration
50,3 тыс. звезд! Immich: автономное решение для резервного копирования фотографий и видео, которое экономит деньги и избавляет от беспокойства.
boy illustration
Cloud Native|Практика: установка Dashbaord для K8s, графика неплохая
boy illustration
Краткий обзор статьи — использование синтетических данных при обучении больших моделей и оптимизации производительности
boy illustration
MiniPerplx: новая поисковая система искусственного интеллекта с открытым исходным кодом, спонсируемая xAI и Vercel.
boy illustration
Конструкция сервиса Synology Drive сочетает проникновение в интрасеть и синхронизацию папок заметок Obsidian в облаке.
boy illustration
Центр конфигурации————Накос
boy illustration
Начинаем с нуля при разработке в облаке Copilot: начать разработку с минимальным использованием кода стало проще
boy illustration
[Серия Docker] Docker создает мультиплатформенные образы: практика архитектуры Arm64
boy illustration
Обновление новых возможностей coze | Я использовал coze для создания апплета помощника по исправлению домашних заданий по математике
boy illustration
Советы по развертыванию Nginx: практическое создание статических веб-сайтов на облачных серверах
boy illustration
Feiniu fnos использует Docker для развертывания личного блокнота Notepad
boy illustration
Сверточная нейронная сеть VGG реализует классификацию изображений Cifar10 — практический опыт Pytorch
boy illustration
Начало работы с EdgeonePages — новым недорогим решением для хостинга веб-сайтов
boy illustration
[Зона легкого облачного игрового сервера] Управление игровыми архивами
boy illustration
Развертывание SpringCloud-проекта на базе Docker и Docker-Compose