Монтажер: Беги так сонно
Фрагмент аудио + фотография, и человек на фотографии может начать говорить в одно мгновение.
Сгенерированная речевая анимация не только плавно выравнивает форму рта и звук, но также делает мимику и положение головы очень естественными и выразительными.
Поддерживаемые стили изображений также очень разнообразны. Помимо обычных фотографий, мультипликационных изображений, фотографий на документы и т. д., создаваемые эффекты очень естественны.
В сочетании с многоязычной поддержкой персонажи на фото мгновенно оживают и могут говорить на иностранных языках, открывая рот.
Это общая структура, предложенная исследователями из Нанкинского университета и других учреждений — VividTalk, которая требует только голоса и изображения для создания высококачественных разговорных видеороликов.
Адрес статьи: https://arxiv.org/abs/2312.01841.
Этот кадр представляет собой двухэтапный кадр, состоящий из аудио для генерации сеток и создания сеток для видео.
На первом этапе рассматривается сопоставление «один ко многим» между движением лица и распределением blendshape, используя blendshape и трехмерные вершины в качестве промежуточных представлений, где blendshape обеспечивает грубое движение, а смещения вершин описывают мелкозернистое движение губ.
Кроме того, также используется многоветвевая сеть Transformer, чтобы полностью использовать аудиоконтекст для моделирования отношений с промежуточными представлениями.
Чтобы более разумно изучить жесткие движения головы по звуку, исследователи преобразовали эту задачу в задачу запроса кода в дискретном конечном пространстве и создали обучаемую кодовую книгу позы головы с механизмами реконструкции и картирования.
После этого оба изученных движения применяются к опорному ориентиру, в результате чего создается движущаяся сетка.
На втором этапе проецируемые текстуры внутренних и внешних поверхностей (например, туловища) визуализируются на основе управляющей сетки и эталонных изображений для полной модели движения.
Затем разрабатывается новая модель движения с двумя ветвями для имитации плотного движения, которая отправляется в качестве входных данных в генератор для покадрового синтеза конечного видео.
VividTalk может создавать синхронизированные по губам видео, говорящие головой, с выразительным выражением лица и естественными позами головы.
Как показано в таблице ниже, как визуальные результаты, так и количественный анализ демонстрируют превосходство нового метода с точки зрения качества генерации и обобщения модели.
Метод реализации фреймворка
Учитывая аудиопоследовательность и эталонное изображение лица в качестве входных данных, новый метод может генерировать видео «говорящей головы» с различными выражениями лица и естественными позами головы.
VividTalkрамка состоит из двух этапов: «Аудио для генерации сеток» и «Создание сеток для видео».
Целью этого этапа является создание трехмерной сетки на основе входной аудиопоследовательности и эталонного изображения лица.
В частности, FaceVerse сначала используется для восстановления эталонного изображения лица.
Затем из звука изучаются нежесткие движения выражения лица и жесткие движения головы для управления реконструированной сеткой.
С этой целью исследователи предложили многоветвевой BlendShape и генератор смещения вершин, а также обучаемую кодовую книгу позы головы.
BlendShape и генератор смещения вершин
Изучение общей модели для создания точных движений рта и выразительной мимики в индивидуальном стиле представляет собой сложную задачу по двум причинам:
1) Первой проблемой является проблема корреляции звукового движения. Поскольку звуковые сигналы наиболее важны для движений рта, сложно смоделировать движения, не связанные с ртом, на основе звука.
2) Сопоставление звука с действиями выражения лица, естественно, имеет свойство «один ко многим», что означает, что один и тот же аудиовход может иметь более одного правильного шаблона действия, в результате чего изображение лица не имеет личных характеристик.
Чтобы решить проблему корреляции звукового движения, исследователи использовали blendshape и смещения вершин в качестве промежуточных представлений, где blendshape обеспечивает глобальное грубое движение выражения лица, а смещения вершин, связанные с губами, обеспечивают локальное мелкозернистое движение губ.
Для решения проблемы отсутствия черт лица исследователи предлагают многоветвевой генератор на основе трансформатора, который моделирует движение каждой части индивидуально и привносит индивидуальный стиль для сохранения личных характеристик.
Обучаемая кодовая книга позы головы
Положение головы — еще один важный фактор, влияющий на реалистичность видео с говорящей головой. Однако изучить его непосредственно по аудио непросто, поскольку связь между ними слабая, что приводит к необоснованным и прерывистым результатам.
Вдохновленное предыдущими исследованиями, использование дискретной кодовой книги в качестве априорной обеспечивает высокоточную генерацию даже при ухудшении качества входных данных.
Исследователи предложили преобразовать эту проблему в задачу запроса кода в дискретном и ограниченном пространстве позы головы и тщательно разработали двухэтапный механизм обучения. На первом этапе создается богатая кодовая книга позы головы, а на втором этапе сопоставляется входной звук. Кодовая книга генерирует окончательный результат, как показано на рисунке ниже.
Как показано на рисунке ниже, исследователи предложили двойную ветвь движения для моделирования плотного 2D-движения, которая будет использоваться в качестве входных данных для генератора для синтеза конечного видео.
Непосредственное преобразование движения трехмерной области в движение двухмерной области сложно и неэффективно, поскольку для лучшего моделирования сети необходимо найти соответствие между двумя движениями области.
Чтобы улучшить производительность сети и повысить ее производительность, исследователи выполнили это преобразование в 2D-области с помощью проецируемых текстурных представлений.
Как показано на рисунке выше, в ветви лица опорная текстура проекции PT и управляемая текстура проекции P Tare соединяются и подаются в кодер, а затем вводятся в MLP для вывода двухмерной карты движения лица.
Чтобы еще больше улучшить движение губ и более точно смоделировать его, исследователи также выбрали ориентиры, связанные с губами, и преобразовали их в карты Гаусса, более компактное и эффективное представление.
Затем сеть песочных часов принимает вычтенную карту Гаусса в качестве входных данных и выводит двумерное движение губ, которое объединяется с движением лица и декодируется в плотные карты движения и окклюзии.
Наконец, исследователи деформировали эталонное изображение на основе ранее предсказанной карты плотного движения, чтобы получить деформированное изображение, которое будет использоваться в качестве входных данных для генератора вместе с картой окклюзии для покадрового синтеза конечного видео.
Результаты эксперимента
Набор данных
HDTF — аудиовизуальный набор высокого разрешения. данных, более 16 часов видео, содержащих 346 тем. VoxCeleb — еще один более крупный набор данных, включающих более 100 000 видео и 1000 личностей.
Исследователи сначала отфильтровали два набора данных, чтобы удалить недействительные данные, такие как данные аудио и видео, не синхронизированные.
Затем область лица на видео обрезается и изменяется ее размер до 256×256.
Наконец, обработанные видео делятся на 80%, 10% и 10%, которые будут использоваться для обучения, проверки и тестирования.
Детали реализации
В экспериментах исследователи использовали FaceVerse, современный метод реконструкции одного изображения, для восстановления видео и получения достоверных смешанных форм и сеток для наблюдения.
В процессе обучения этапы Audio-To-Mesh и Mesh-To-Video обучаются отдельно.
В частности, BlendShape от Аудио до стадии сетки и обучаемая кодовая книга позы головы также обучаются отдельно.
Во время вывода модель исследователей может работать сквозным образом, каскадируя два этапа, описанных выше.
Для оптимизации используется оптимизатор Адама со скоростью обучения 1×10 и 1×10 для двух этапов соответственно. Общее время обучения на 8 графических процессорах NVIDIA V100 составляет 2 дня.
Как видно, предложенный исследователями метод позволяет создавать высококачественные видеоролики с точной синхронизацией губ и выразительными движениями лица.
Для сравнения:
Количественное сравнение
Как показано в таблице ниже, новый метод работает лучше с точки зрения качества изображения и сохранения идентичности, о чем свидетельствуют более низкие показатели FID и более высокие показатели CSIM.
Благодаря новому механизму обучаемой кодовой книги позы головы, создаваемые новым методом, также становятся более разнообразными и естественными.
Хотя новый метод имеет более низкую оценку SyncNet, чем Wav2Lip, его можно реализовать за счет использования эталонного изображения одного аудио вместо видео и создания кадров более высокого качества.
Ссылки:
https://humanaigc.github.io/vivid-talk/