SIGGRAPH 2024 | 3D Gaussian Blendshapes для анимации аватаров
SIGGRAPH 2024 | 3D Gaussian Blendshapes для анимации аватаров

источник:SIGGRAPH 2024Название диссертации:3D Gaussian Blendshapes for Head Avatar Animation Бумажная ссылка:https://arxiv.org/abs/2404.19398 Автор статьи:Shengjie Ma и др. Организация контента:Линь Цзунхао В этой статье предлагается метод анимации аватара. 3D-форма гауссовой смесиповерхность показывает, что метод оптимизацииисетки может научиться семантически согласованной Форме из монокулярного видео. гауссовой смесей, генерируйте любую модель аватара поверхности с помощью линейной смеси коэффициентов эмоций Гауссовскийиповерхность, а затем используйте напыление Гауссовского для синтеза высококачественной анимации аватара в реальном времени. экспериментповерхность показывает, что метод превосходит по эффективности современные методы, основанные на NeRF iТочечный метод,тренироваться Затраты на память умеренные,И может генерировать высококачественные аватары с большей скоростью.

введение

картина 1: Наша 3D-форма гауссовой смеси, похожая на сетку формы бленды в классической параметрической грани Модель,Линейная смесь с коэффициентом воздействия поверхности,Синтезируйте реалистичные человеческие лица в реальном времени.

Blendshape — это классическая форма представления анимации аватаров. Благодаря простоте управления и высокой эффективности она имеет значительные преимущества в профессиональном производстве анимации и приложениях для создания аватаров. В этой статье мы представляем метод моделирования реалистичных аватаров. 3D-форма гауссовой смеси. Мы берем монокулярное видео в качестве входных данных и изучаем базовую модель грани нейтральной поверхности и набор форм сглаживания поверхностей, где каждая форма сглаживания действительно соответствует базовой поверхности в классической параметризованной модели грани. Нейтральная Модельиповерхность. Смешанные фигуры создаются с атрибутами, описывающими внешний вид аватара. 3D Гауссовский пришел показать поверхность. Комбинируя форму смеси нейтральной Моделииповерхности настроений с линейной смесью коэффициентов настроений Гауссовского иповерхности, можно Эффективно создавайте любую модель аватара поверхности, а затем используйте гауссовское напыление для синтеза высококачественной анимации аватара в реальном времени. и По сравнению с самым продвинутым методом, наша Форма гауссовой Представление смесиповерхности лучше улавливает высокочастотные детали входного видео и обеспечивает более высокую производительность рендеринга.

метод

3D-форма гауссовой смеси

картина 2: Обзор метода. Наш метод принимает монокулярное видео в качестве входных данных и изучает Форма аватара. гауссовой смесиповерхность, включающая модель унисекс , набор выражений смешанных форм и внутриротовые модели , оба принимают 3D - сказал Гаусс. через коэффициент выражения Выполните линейное смешивание и используйте параметры суставов и поз. Выполнение линейного смешивания шкур,Может создавать аватары с любым положением поверхности. Модель,И используйте гауссовское напыление в реальном времени для рендеринга изображений высокой четкости.

Наше представление формы перехода по Гауссу состоит из нейтральной базовой модели и набора выразительных форм перехода, каждая из которых представлена ​​в виде набора трехмерных гауссиан, каждый из которых имеет некоторые основные свойства (например, положение, непрозрачность, вращение, масштаб и коэффициент сферических гармоник). Каждый гауссиан имеет набор весов смешивания для управления суставами и ориентацией, и каждой форме смешивания существует взаимно однозначное соответствие. Отличие от можно определить как различие их гауссовских свойств, т. е. . Модель аватара любого выражения выражается как:

в, – коэффициент экспрессии. Мы используем на основе PCA Модель смешанной формы FLAME, который обеспечивает параметры суставов и поз. , используемый для управления движением головы, челюсти, глазных яблок и век. Эти параметры преобразуют модель аватара с помощью Linear Blend Skinning (LBS): , который использует Веса гауссовой смеси. Поскольку на движение внутри рта мимика обычно не влияет, мы определяем отдельный набор гауссиан для внутренней части рта. , это только следует FLAME Движение нижнечелюстного сустава в . Наконец, преобразованная гауссова модель Сносно Гауссовский Распыление в реальном временирендеринг Обеспечьте высокую точностькартинакартина。

тренироваться

Подготовка данных

Мы используем готовый трекер лиц для расчета сетки FLAME нейтральных выражений, базовых выражений, масок головы на переднем плане, параметров камеры, параметров суставов, параметров позы и коэффициентов выражения для каждого кадра.

инициализация

Для нейтральных моделей , мы используем выборку диска Пуассона в нейтральном FLAME сетка Выберите количество точек как «инициализация» для локации «Гауссовский» и «инициализация для остальных гауссовских атрибутов». 3DGS такой же. Для внутриротовой гауссовой , мы также используем выборку диска Пуассона, гауссиан верхнего зуба жестко привязан к затылку, а гауссиан нижнего зуба привязан к вершине с максимальной массой кожи нижнечелюстного сустава. Для выражения форм смешивания , мы правы Гауссиан исходит из к выражению FLAME сетка градиентная деформация.

оптимизация

мы правы 、 и Сделайте совместную оптимизация. верно Для каждого кадра видео мы будем и Линейное смешивание с отслеживаемыми коэффициентами экспрессии для восстановления гауссовой модели головы. . Затем, в соответствии с параметрами суставов и осанки отслеживания прибытия, используйте LBS верно и Преобразование: ,. Наконец, мы используем гауссово распыление из и Получите изображение приезжающей рендерингкартины. Процесс оптимизации аналогичен 3DGS, этап адаптивного управления плотностью, включающий добавление и удаление Гауссовского.

В процессе оптимизации ключом к предотвращению переоснащения является сохранение каждой формы. гауссовой смеси И это верно, соответствующая сетке гибридной формы. Семантическая последовательность и последовательный. Мы предлагаем простую и эффективную стратегию, позволяющую Гауссовской оптимизации неявно следовать требованиям согласованности. Конкретно, верно для каждого Гауссовского ,делать чтобы это было в и Для различий атрибутов в вводим промежуточные переменные Делает:

в, это начальное значение, Подчиняться приезжать ближайший Размер смещения точки поверхности, – линейная функция, нормированная по расстоянию, пусть приезжать Максимальная разница перемещений масштабируется как 。 Разница Гауссовского связана со смещением и действительно соответствует смещению в гибридной форме сетки, тем самым эффективно направляя разность Гауссовского на последовательное изменение со смещением, так что Форма гауссовой Оптимяисетка гибридной формы смесей имеет сильную смысловую последовательность.

функция потерь

Общие функциональные потери определяются как:

в,картинакартинапотеря Минимизировать разницу изображений в изображении, альфа потеря Ограничение Гауссовский расположен в головной области, потеря регуляризации Ограничьте внутриротовую гауссиану так, чтобы она лежала в заранее заданном оральном диапазоне.

эксперимент

Количественные результаты

Таблица 1: Количественное сравнение с INSTA, PointAvatar.

Таблица 2: Количественное сравнение с NeRFBlendShape.

поверхность 3: Сравнение производительности. мы A800 GPU начальствоверновсеметодруководитьтренироваться。верно INSTA、NeRFBlendshape и Наш метод был опробован в RTX 4090 GPU включено, но верно PointAvatar тестирование из-за RTX 4090 GPU Недостаточно памяти A800 GPU проводится дальше. Разрешение рендеринга 512 × 512. Обратите внимание, что наше время выполнения включает анимацию (т. е. линейную смесь и LBS Transform) рендеринг, наша производительность верный рендеринг не зависит от разрешения.

Качественные результаты

картина 3: Качественное сравнение с INSTA, PointAvatar. Наш метод лучше улавливает высокочастотные детали и блики.

изображение 4: Качественное сравнение с NeRFBlendShape. Наш метод более точно фиксирует детали лица (например, морщины вокруг глаз и носа).

картина 5: Качественное сравнение нового перспективного синтеза. Наш метод лучше передает детали лица.

картина 6:Форма гауссовой Визуализация смесей. Каждая Форма гауссовой все смешивается и это действительно соответствует FLAME формы бленд сеток схожи.

удалятьэксперимент

картина 7: Эксперимент по удалению консистенции смешанной формы.

картина 8:смешивать формыоптимизацияизудалятьэксперимент。

картина 9: Абляция Гауссовского внутри ротовой полости, эксперимент.

boy illustration
Неразрушающее увеличение изображений одним щелчком мыши, чтобы сделать их более четкими артефактами искусственного интеллекта, включая руководства по установке и использованию.
boy illustration
Копикодер: этот инструмент отлично работает с Cursor, Bolt и V0! Предоставьте более качественные подсказки для разработки интерфейса (создание навигационного веб-сайта с использованием искусственного интеллекта).
boy illustration
Новый бесплатный RooCline превосходит Cline v3.1? ! Быстрее, умнее и лучше вилка Cline! (Независимое программирование AI, порог 0)
boy illustration
Разработав более 10 проектов с помощью Cursor, я собрал 10 примеров и 60 подсказок.
boy illustration
Я потратил 72 часа на изучение курсорных агентов, и вот неоспоримые факты, которыми я должен поделиться!
boy illustration
Идеальная интеграция Cursor и DeepSeek API
boy illustration
DeepSeek V3 снижает затраты на обучение больших моделей
boy illustration
Артефакт, увеличивающий количество очков: на основе улучшения характеристик препятствия малым целям Yolov8 (SEAM, MultiSEAM).
boy illustration
DeepSeek V3 раскручивался уже три дня. Сегодня я попробовал самопровозглашенную модель «ChatGPT».
boy illustration
Open Devin — инженер-программист искусственного интеллекта с открытым исходным кодом, который меньше программирует и больше создает.
boy illustration
Эксклюзивное оригинальное улучшение YOLOv8: собственная разработка SPPF | SPPF сочетается с воспринимаемой большой сверткой ядра UniRepLK, а свертка с большим ядром + без расширения улучшает восприимчивое поле
boy illustration
Популярное и подробное объяснение DeepSeek-V3: от его появления до преимуществ и сравнения с GPT-4o.
boy illustration
9 основных словесных инструкций по доработке академических работ с помощью ChatGPT, эффективных и практичных, которые стоит собрать
boy illustration
Вызовите deepseek в vscode для реализации программирования с помощью искусственного интеллекта.
boy illustration
Познакомьтесь с принципами сверточных нейронных сетей (CNN) в одной статье (суперподробно)
boy illustration
50,3 тыс. звезд! Immich: автономное решение для резервного копирования фотографий и видео, которое экономит деньги и избавляет от беспокойства.
boy illustration
Cloud Native|Практика: установка Dashbaord для K8s, графика неплохая
boy illustration
Краткий обзор статьи — использование синтетических данных при обучении больших моделей и оптимизации производительности
boy illustration
MiniPerplx: новая поисковая система искусственного интеллекта с открытым исходным кодом, спонсируемая xAI и Vercel.
boy illustration
Конструкция сервиса Synology Drive сочетает проникновение в интрасеть и синхронизацию папок заметок Obsidian в облаке.
boy illustration
Центр конфигурации————Накос
boy illustration
Начинаем с нуля при разработке в облаке Copilot: начать разработку с минимальным использованием кода стало проще
boy illustration
[Серия Docker] Docker создает мультиплатформенные образы: практика архитектуры Arm64
boy illustration
Обновление новых возможностей coze | Я использовал coze для создания апплета помощника по исправлению домашних заданий по математике
boy illustration
Советы по развертыванию Nginx: практическое создание статических веб-сайтов на облачных серверах
boy illustration
Feiniu fnos использует Docker для развертывания личного блокнота Notepad
boy illustration
Сверточная нейронная сеть VGG реализует классификацию изображений Cifar10 — практический опыт Pytorch
boy illustration
Начало работы с EdgeonePages — новым недорогим решением для хостинга веб-сайтов
boy illustration
[Зона легкого облачного игрового сервера] Управление игровыми архивами
boy illustration
Развертывание SpringCloud-проекта на базе Docker и Docker-Compose