Недавно была официально выпущена Hallo, технология анимации портретных изображений с синхронизацией губ при помощи искусственного интеллекта, разработанная совместно исследователями из Фуданьского университета, Baidu, ETH Zurich и Нанкинского университета. Эта платформа сочетает в себе передовые методы анализа звука с модулями визуального синтеза для создания высокореалистичных и динамичных видеороликов с портретными изображениями на основе речевого аудиовхода.
Техническая информация и характеристики
Технология Hallo использует генеративную модель на основе диффузии и многоуровневый модуль визуального синтеза, управляемый звуком, для достижения высокой степени точности синхронизации между аудио и визуальным выводом через шумоподавитель UNet, технологию выравнивания по времени и опорные сети. К его основным функциональным особенностям относятся:
Анимация, синхронизированная со звуком: используйте точный алгоритм синхронизации губ, чтобы гарантировать, что движения губ в видеоанимации синхронизируются со звуком звука, создавая реалистичный эффект речи.
Генерация выражения лица: автоматически генерируйте соответствующие выражения лица на основе эмоций и изменений интонации аудиосигнала, что делает игру анимированного персонажа более естественной и эмоциональной.
Контроль положения головы: позволяет точно регулировать положение головы в видеоанимации, улучшая координацию зрения и слуха.
Персонализированная настройка анимации: поддерживает настройку стилей анимации, выражений и движений в соответствии с различными сценариями применения и личными характеристиками для удовлетворения конкретных потребностей в визуальном и эмоциональном выражении.
Техническая архитектура и сценарии применения
Сетевая архитектура Hallo сочетает в себе передовые модели диффузии и шумоподавители UNet для достижения адаптивного управления выражениями и жестами с помощью модуля визуального синтеза, управляемого звуком, что повышает разнообразие и реалистичность создания анимации. Эта технология не только является новаторской в академических исследованиях, но и демонстрирует широкие перспективы применения в практических приложениях, таких как цифровые развлечения, образование и виртуальные помощники.
Привет, производительность и результаты экспериментов
После количественного и качественного сравнения с другими методами SOTA, Hallo показал хорошие результаты по множеству показателей оценки. На различных наборах данных, включая HDTF и CelebV, Hallo демонстрирует превосходное качество создаваемого видео, точность синхронизации губ и разнообразие движений. Эти результаты показывают, что Hallo может не только справляться с различными стилями портретов и аудиовходов, но также фиксировать тонкие выражения лиц и изменения движений головы в сложных сценах.
Социальный отклик и перспективы на будущее
Хотя технология Hallo добилась значительного прогресса в улучшении пользовательского опыта и визуальных эффектов, она также вызвала социальные дискуссии о потенциальных рисках, которые может принести технология глубокой подделки. Исследовательская группа заявила, что они активно изучают стратегии безопасности технологий и этического реагирования, чтобы обеспечить их безопасность и законность в социальных приложениях.
Будучи новой технологией анимации портретных изображений с синхронизацией губ по ИИ, Hallo не только демонстрирует большой потенциал в технологических инновациях и разнообразии сценариев применения, но также открывает новые возможности в таких областях, как цифровые развлечения и виртуальная реальность. Поскольку технологии продолжают развиваться и совершенствоваться, ожидается, что они принесут пользователям более богатые и захватывающие аудиовизуальные впечатления.
Самое главное, что PPT не является открытым исходным кодом, как соседняя компания Hallo, которая открыла полный код и веса, и мы можем использовать его напрямую.
https://fudan-generative-vision.github.io/hallo/