MuseTalk — это высококачественная модель синхронизации губ с аудиоуправлением в реальном времени, разработанная Tencent Music Tianqin Lab и специально используемая для создания виртуальной формы рта. Модель может автоматически корректировать изображение лица цифрового персонажа на основе входного аудиосигнала, чтобы форма его губ полностью синхронизировалась с аудиоконтентом, тем самым достигаясь эффект совпадения формы рта и голоса. MuseTalk хорошо справляется с синхронизацией губ, обеспечивая точную и последовательную синхронизацию губ, и особенно хорош при создании видеороликов с живыми актерами.
Основные возможности MuseTalk включают в себя:
Производительность в реальном времени: на NVIDIA Tesla V100 можно получить вывод в реальном времени со скоростью более 30 кадров в секунду.
Многоязычная поддержка: поддерживает аудиовход на нескольких языках, таких как китайский, английский и японский, что позволяет предоставлять услуги пользователям в разных странах и регионах.
Высокоточная синхронизация губ: благодаря технологии Inpainting в скрытом пространстве (Latent Space Inpainting) можно выполнить высокоточную модификацию формы рта на области лица размером 256 x 256 пикселей.
Высокая согласованность изображения: генерируемая форма рта и звуковое соответствие точны, а согласованность изображения хорошая.
Широкий спектр сценариев применения: подходит для различных задач обработки контента.,Такие как самостоятельное медиа-производство、виртуальный якорьждать。
Однако процесс развертывания MuseTalk громоздок и сложен для начинающих пользователей, а также предъявляет высокие требования к компьютерным видеокартам и памяти. К счастью, есть Google Colab, запущенный хорошим парнем Google, с помощью которого мы можем быстро, бесплатно и очень просто развернуть MuseTalk. Google Colab (также известный как Colaboratory) — это бесплатная облачная среда разработки, предоставляемая Google и в основном используемая для таких задач, как анализ данных, машинное обучение и глубокое обучение. Он основан на Jupyter Notebook, пользователи могут писать и выполнять код Python непосредственно через браузер, а также могут делиться кодом и сотрудничать в его редактировании с другими.
Сначала откройте этот адрес:
https://colab.research.google.com/github/camenduru/MuseTalk-jupyter/blob/main/MuseTalk_jupyter.ipynb
Щелкните правый верхний угол, измените тип среды выполнения и выберите T4GPU.
Вы можете видеть, что Google Colab выделил нам бесплатно 12 ГБ памяти, 78 ГБ жесткого диска и вычислительные ресурсы графического процессора;
Нажмите на маленький треугольник, чтобы запустить код:
Примерно через 3 минуты операция прошла успешно.
Когда вы увидите строку «Выполняется по общедоступному URL-адресу», это означает, что MuseTalk успешно развернут, затем нажмите на этот URL-адрес:
Загрузите аудио и эталонное видео:
Обработка видео после загрузки занимает более 10 секунд.
Затем нажмите: Создать
Если: Ошибка, соединение завершилось с ошибкой.
Вы можете сократить продолжительность видео и звука примерно на 20 секунд, а затем запустить его снова;
Последний шаг занимает больше времени, обычно более 20 минут;
Когда справа появится видео, обработка завершена:
Затем нажмите «Загрузить» в правом верхнем углу, чтобы загрузить обработанное видео.