Stable Video 3D представляет собой шокирующий дебют: из одного изображения создается 3D-видео без слепых зон, а вес модели открывается.
Stable Video 3D представляет собой шокирующий дебют: из одного изображения создается 3D-видео без слепых зон, а вес модели открывается.

Отчет о сердце машины

Монтажер: Ду Вэй

В области создания 3D-изображений появился новый «плеер SOTA», поддерживающий как коммерческое, так и некоммерческое использование.

В большом семействе моделей Stability AI появился новый член.

Вчера, после запуска Stable Diffusion и Stable Video Diffusion, Stability AI представила сообществу большую модель создания 3D-видео «Stable Video 3D» (сокращенно SV3D).

Эта модель основана на Stable Video Diffusion, которая может значительно улучшить качество и согласованность нескольких представлений при генерации 3D. Эффект лучше, чем у Stable Zero123, ранее выпущенного Stability AI, и Zero123-XL, исходный код которого совместно открыт Исследовательским институтом Toyota и Toyota. Колумбийский университет.

В настоящее время Stable Video 3D поддерживает как коммерческое использование, для которого требуется членство в Stability AI Membership, так и некоммерческое использование, когда пользователи могут загружать веса моделей на Hugging Face.

Сгенерированный эффект Stable Video 3D показан на видео ниже.

Stability AI предоставляет два варианта модели: SV3D_u и SV3D_p. Среди них SV3D_u генерирует орбитальное видео на основе одного входного изображения и не требует настройки камеры. SV3D_p расширяет возможности генерации, адаптируя одно изображение и орбитальную перспективу, позволяя создавать 3D-видео вдоль заданного пути камеры.

В настоящее время опубликована исследовательская работа по Stable Video 3D, в которой участвуют три основных автора.

  • бумагаадрес:https://stability.ai/s/SV3D_report.pdf
  • Адрес блога: https://stability.ai/news/introducing-stable-video-3d
  • Адрес Huggingface: https://huggingface.co/stabilityai/sv3d

Обзор технологий

Stable Video 3D обеспечивает значительные улучшения в создании 3D-изображений, особенно в синтезе новых изображений (NVS).

В то время как предыдущие подходы часто решали проблему ограниченных углов обзора и непоследовательных входных данных, Stable Video 3D способен обеспечить целостное изображение под любым заданным углом и хорошо обобщать. В результате модель не только повышает управляемость позой, но и обеспечивает единообразный внешний вид объекта в нескольких видах, что еще больше улучшает ключевые проблемы, влияющие на реалистичное и точное создание 3D-изображений.

Как показано на рисунке ниже, по сравнению со Stable Zero123 и Zero-XL, Stable Video 3D способен создавать новые мультиизображения, которые более детализированы, более точно соответствуют входному изображению и более согласованы в разных ракурсах.

Кроме того, Stable Video 3D использует согласованность нескольких представлений для оптимизации трехмерных полей нейронного излучения (NeRF) для улучшения качества трехмерных сеток, создаваемых непосредственно из новых представлений.

С этой целью компания Stability AI разработала замаскированные потери выборки при фракционной перегонке, которые еще больше улучшают трехмерное качество невидимых областей в прогнозируемом виде. Кроме того, чтобы устранить проблемы с запеченным освещением, Stable Video 3D использует разделенную модель освещения, оптимизированную с помощью 3D-форм и текстур.

На изображении ниже показан пример улучшенного создания 3D-сетки за счет 3D-оптимизации при использовании 3D-модели Stable Video и ее выходных данных.

На рисунке ниже показано сравнение результатов 3D-сетки, созданных с помощью Stable Video 3D, с результатами, созданными EscherNet и Stable Zero123.

Архитектурные детали

Архитектура модели Stable Video 3D показана на рисунке 2 ниже. Она построена на основе архитектуры Stable Video Diffusion и содержит UNet с несколькими уровнями. Каждый уровень содержит последовательность остаточных блоков со слоем Conv3D и два блока A. со слоями внимания (пространственным и временным).

Конкретный процесс заключается в следующем:

(i) Удалить векторные условия «идентификатор кадра в секунду» и «идентификатор сегмента движения», поскольку они не связаны со Stable Video 3D;

(ii) условное изображение внедряется в скрытое пространство через кодер VAE Stable Video Diffusion, а затем подключается к входу zt шумного скрытого состояния на шумном временном шаге t, ведущем к UNet;

(iii) матрица внедрения CLIP условного изображения предоставляется на уровень перекрестного внимания каждого блока преобразователя в качестве ключей и значений, и запрос становится признаком соответствующего уровня;

(iv) Траектория камеры подается в остаточный блок вдоль временного шага диффузионного шума. Углы положения камеры ei и ai и временной шаг шума t сначала встраиваются в представление синусоидального положения, затем представления положения камеры объединяются вместе для линейного преобразования и добавляются к внедрению временного шага шума и, наконец, вводятся в каждый остаточный блок и добавляется к входным объектам блока.

Кроме того, Stability AI разработал статические и динамические орбиты для изучения влияния корректировок позы камеры, как показано на рисунке 3 ниже.

На статической орбите камера вращается вокруг объекта под равноотстоящими углами по азимуту, используя тот же угол возвышения, что и условное изображение. Недостаток этого подхода в том, что на основе скорректированного угла возвышения вы не сможете получить никакой информации о верхней или нижней части объекта. На динамической орбите углы азимута могут быть неодинаковыми, а углы места каждого обзора также могут быть разными.

Чтобы построить динамическую орбиту, Stability AI производит выборку статической орбиты, добавляет небольшой случайный шум к ее азимуту и ​​случайно взвешенную комбинацию синусоид разных частот к ее углу места. Это обеспечивает временную плавность и гарантирует, что траектория камеры заканчивается по той же петле азимута и угла места, что и условное изображение.

Результаты экспериментов

Stability AI оценивает составные многовидовые эффекты Stable Video 3D на статических и динамических орбитах на невидимых наборах данных GSO и ​​OmniObject3D. Результаты, показанные в таблицах 1–4 ниже, показывают, что Stable Video 3D достигает самых современных характеристик при новом многоракурсном синтезе.

В таблицах 1 и 3 показаны результаты Stable Video 3D по сравнению с другими моделями на статических орбитах, показывая, что даже модель SV3D_u без корректировки позы работает лучше, чем все предыдущие методы.

Результаты анализа абляции показывают, что SV3D_c и SV3D_p превосходят SV3D_u в генерации статических траекторий, хотя последний обучается исключительно на статических траекториях.

В таблицах 2 и 4 ниже показаны результаты генерации динамической траектории, включая модели корректировки позы SV3D_c и SV3D_p, причем последняя достигает SOTA по всем показателям.

Результаты визуального сравнения на рисунке 6 ниже дополнительно демонстрируют, что Stable Video 3D генерирует изображения, которые более детализированы, более близки к условным изображениям и более согласованы при разных углах обзора, чем предыдущая работа.

Более подробную техническую информацию о результатах экспериментов можно найти в оригинальной статье.

© THE END

Пожалуйста, свяжитесь с этим общедоступным аккаунтом, чтобы получить разрешение на перепечатку.

Публикуйте статьи или ищите освещение: content@jiqizhixin.com

boy illustration
Неразрушающее увеличение изображений одним щелчком мыши, чтобы сделать их более четкими артефактами искусственного интеллекта, включая руководства по установке и использованию.
boy illustration
Копикодер: этот инструмент отлично работает с Cursor, Bolt и V0! Предоставьте более качественные подсказки для разработки интерфейса (создание навигационного веб-сайта с использованием искусственного интеллекта).
boy illustration
Новый бесплатный RooCline превосходит Cline v3.1? ! Быстрее, умнее и лучше вилка Cline! (Независимое программирование AI, порог 0)
boy illustration
Разработав более 10 проектов с помощью Cursor, я собрал 10 примеров и 60 подсказок.
boy illustration
Я потратил 72 часа на изучение курсорных агентов, и вот неоспоримые факты, которыми я должен поделиться!
boy illustration
Идеальная интеграция Cursor и DeepSeek API
boy illustration
DeepSeek V3 снижает затраты на обучение больших моделей
boy illustration
Артефакт, увеличивающий количество очков: на основе улучшения характеристик препятствия малым целям Yolov8 (SEAM, MultiSEAM).
boy illustration
DeepSeek V3 раскручивался уже три дня. Сегодня я попробовал самопровозглашенную модель «ChatGPT».
boy illustration
Open Devin — инженер-программист искусственного интеллекта с открытым исходным кодом, который меньше программирует и больше создает.
boy illustration
Эксклюзивное оригинальное улучшение YOLOv8: собственная разработка SPPF | SPPF сочетается с воспринимаемой большой сверткой ядра UniRepLK, а свертка с большим ядром + без расширения улучшает восприимчивое поле
boy illustration
Популярное и подробное объяснение DeepSeek-V3: от его появления до преимуществ и сравнения с GPT-4o.
boy illustration
9 основных словесных инструкций по доработке академических работ с помощью ChatGPT, эффективных и практичных, которые стоит собрать
boy illustration
Вызовите deepseek в vscode для реализации программирования с помощью искусственного интеллекта.
boy illustration
Познакомьтесь с принципами сверточных нейронных сетей (CNN) в одной статье (суперподробно)
boy illustration
50,3 тыс. звезд! Immich: автономное решение для резервного копирования фотографий и видео, которое экономит деньги и избавляет от беспокойства.
boy illustration
Cloud Native|Практика: установка Dashbaord для K8s, графика неплохая
boy illustration
Краткий обзор статьи — использование синтетических данных при обучении больших моделей и оптимизации производительности
boy illustration
MiniPerplx: новая поисковая система искусственного интеллекта с открытым исходным кодом, спонсируемая xAI и Vercel.
boy illustration
Конструкция сервиса Synology Drive сочетает проникновение в интрасеть и синхронизацию папок заметок Obsidian в облаке.
boy illustration
Центр конфигурации————Накос
boy illustration
Начинаем с нуля при разработке в облаке Copilot: начать разработку с минимальным использованием кода стало проще
boy illustration
[Серия Docker] Docker создает мультиплатформенные образы: практика архитектуры Arm64
boy illustration
Обновление новых возможностей coze | Я использовал coze для создания апплета помощника по исправлению домашних заданий по математике
boy illustration
Советы по развертыванию Nginx: практическое создание статических веб-сайтов на облачных серверах
boy illustration
Feiniu fnos использует Docker для развертывания личного блокнота Notepad
boy illustration
Сверточная нейронная сеть VGG реализует классификацию изображений Cifar10 — практический опыт Pytorch
boy illustration
Начало работы с EdgeonePages — новым недорогим решением для хостинга веб-сайтов
boy illustration
[Зона легкого облачного игрового сервера] Управление игровыми архивами
boy illustration
Развертывание SpringCloud-проекта на базе Docker и Docker-Compose