введение
Движения говорящего имеют решающее значение в различных приложениях, таких как виртуальные агенты, анимация и взаимодействие человека с компьютером. Эти движения можно в основном разделить на две части: соречевые жесты, тесно связанные с содержанием речи, и неспонтанные движения, проявляющиеся во время речи.
Однако существующие работы в основном сосредоточены на глобальном стиле управления жестами совместной речи и не способствуют свободному перемещению говорящих, например, хождению по сцене, указанию или взгляду в определенных направлениях или взаимодействию с аудиторией. В презентациях и выступлениях эти аспекты имеют решающее значение. Насколько нам известно, не было предпринято усилий, направленных на интеграцию этих двух категорий действий. Проблемы возникают из-за различных представлений движения и сложности мультимодального обучения.
в этой статье,Предлагаем новую рамку,Используется для создания спонтанных и неспонтанных действий говорящего. Конкретно,Сначала мы разработали модель, основанную на диффузии.,для генерации действий динамика,Использованы разнородные данные из различных видов спорта. Набор данных. Затем,в процессе рассуждения,Мы использовали начальную загрузку без классификаторов.,для достижения легко управляемого стиля в полученных клипах. также,Мы используем DoubleTake,Используется для создания плавных переходов между клипами и обеспечения плавного смешивания движений. Основной вклад нашей работы включает в себя:
Нас ждут разные виды спорта Характеристики данных сохраняются корректно. и Ude и Unifiedgesture В отличие от этого, Удэ использует дискретное кодирование для представления движений человеческого тела, тогда как Unifiedgesture Перенаправление движений человека в гомоморфный граф, состоящий из пяти конечных суставов (голова, руки и ноги), рискует потерять такие важные детали, как плечи и пальцы. Наш метод решает эту проблему и сохраняет детали движения. Сначала мы преобразуем матрицу вращения данных захвата движения (формат BVH) в SMPL-X. Угол оси выражен. Для данных о 3D-позиции мы используем VPoser соответствовать этому SMPL-X выражать. Затем 3D-трансляция корневого сустава соответствующим образом масштабируется, а первоначальная ориентация корректируется. быть согласованными между данными, например Unifiedgesture Такой же. проходить SMPL-X Для прямого расчета модели мы можем получить SMPL-X представляет трехмерное положение. Используем высоту корня、Основная линейная и скорость вращения、вращение суставов、совместная позиция、Скорости суставов и удары стоп представлены как характеристики движения.
Мы извлекаем Mel-спектр, высоту тона, энергию, WavLM, информацию о началах из исходного аудио и кодируем текст в пространство CLIP. Мы выбираем слой самообслуживания в качестве сети шумоподавления и используем HuberLoss во время обучения:
В задачах, которые генерируют вневременные последовательности восприятия (например, преобразование текста в движение),Традиционный метод использования положения семени неэффективен.,Поэтому мы позаимствовали метод DoubleTake для генерации движения на большие расстояния.
Очень интуитивная идея: генерация длинной последовательности действий может быть разделена на несколько коротких действий, а затем объединена. Поэтому для создания переходов между несколькими сегментами движения она делится на два этапа: первый. Суффикс и Префиксы взвешиваются и усредняются кадр за кадром для первоначального создания прототипа перехода.
но,Создание переходов таким способом явно слишком тонкое.,Артефакты присутствуют,Следовательно, линейно-взвешенный шум необходимо добавить на основе прототипа, а затем удалить шум. Используем маску и для последовательности Mиτ. Маскирование обеспечивает постепенный переход между значениями маски.,Позволяет линейную маскировку длины кадра b между è. Этот процесс работает путем уточнения первоначально сгенерированного движения во время второго кадра каждого шага шумоподавления, чтобы оно соответствовало преобразованию:
здесь,представляет собой уточненный переход последовательности,Будьте оригинальны. наконец,Создавайте длинные движения, разворачивая изысканные последовательности и переходы.,Это приводит к плавному движению.
HumanML3D: для создания текстового движения.
BEAT: для генерации жестов на основе речи.
в этой статье,Мы предложили FreeTalker,Это простая, но эффектная рамка.,Используется для создания спонтанных и неспонтанных действий говорящего. Использование модели на основе диффузии,Наш метод в Наборах из разных видов спорта Обучение проводится на разнородных данных. Наведение без классификатора и DoubleTake вводятся на этапе вывода для обеспечения естественного, легко контролируемого и дальнего действия. Кроме того, наш метод готовит к будущим масштабным движениям. данные заложили основу для Работы над более сложной Моделью, открыв путь для дальнейших разработок в области генерации движений динамиков и повышения естественности голосовых аватаров в различных приложениях.
Мы намерены и дальше углубляться в расширение нашей Работы на поколение полностью цифровых людей.,Включая движения, мимику и движения губ. Мы также планируем изучить более унифицированный метод цифрового поколения людей.