Управление позами LipSync с Wan2.2 S2V в ComfyUI

ComfyUI Pose Control LipSync with Wan2.2 S2V Workflow

Pose Control LipSync with Wan2.2 S2V in ComfyUI | Audio2Video

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

ComfyUI Pose Control LipSync with Wan2.2 S2V Examples

Управление позами LipSync с Wan2.2 S2V: аудио‑управляемое, позами‑контролируемое изображение‑в‑видео для выразительных аватаров#

Управление позами LipSync с Wan2.2 S2V превращает одно изображение, аудиоклип и эталонное видео позы в синхронизированное говорение. Персонаж на вашем эталонном изображении следует за движениями тела эталонного видео, в то время как движения губ соответствуют аудио. Этот рабочий процесс ComfyUI идеально подходит для аватаров, сцен историй, трейлеров, объясняющих видео и музыкальных клипов, где вам нужен строгий контроль над позой, выражением и временем речи.

Основанный на семействе моделей Wan 2.2 S2V 14B, рабочий процесс объединяет текстовые подсказки, чистые вокальные особенности и карты поз для создания кинематографического движения с устойчивой идентичностью. Он разработан для простоты использования, предоставляя создателям тонкий контроль над внешним видом, темпом и кадрированием.

Основные модели в рабочем процессе управления позами LipSync с Wan2.2 S2V в Comfyui#

Wan2.2‑S2V‑14B. Основной генератор речи‑в‑видео, который преобразует статичное изображение и аудио в видео с опциональным условием позы для управления движением. Смотрите официальный репозиторий и карточку модели для возможностей и заметок по использованию: Wan‑Video/Wan2.2 и Wan‑AI/Wan2.2‑S2V‑14B.
Wan VAE. Автокодировщик Wan кодирует и декодирует видео латенты с высокой точностью и используется в конвейерах Wan 2.x. Реализация ссылки: конвейеры Wan в документации Diffusers documentation.
Google UMT5‑XXL текстовый кодировщик. Обеспечивает сильное многоязычное текстовое условие для управления намерением сцены и стилем на высоком уровне в конвейерах Wan. Карточка модели: google/umt5‑xxl.
Facebook Wav2Vec2‑Large. Извлекает надежные речевые особенности, которые управляют синхронизацией губ и микро‑выражениями. Карточка модели: facebook/wav2vec2‑large‑960h.
DWPose с детектором YOLOX. Генерирует ключевые точки позы человека и карты поз из эталонного видео для управления движением всего тела. Репозитории: IDEA‑Research/DWPose и Megvii‑BaseDetection/YOLOX.
LightX2V LoRA для Wan. Легкая LoRA, используемая для ускорения денойзинга стиля изображение‑в‑видео с низким шагом, сохраняя качество движения; Wan 2.2 поддерживает LoRAs в своих денойзерах. Смотрите руководство Wan Diffusers по использованию LoRA в Wan pipelines.

Как использовать рабочий процесс управления позами LipSync с Wan2.2 S2V в Comfyui#

Рабочий процесс сочетает пять частей: загрузка модели, подготовка аудио, ввод изображения и позы, условие и генерация. Группы выполняются в потоке слева направо, с автоматической установкой длины клипа по длине аудио на 16 fps.

Загрузчики моделей#

Эта группа загружает модель Wan 2.2 S2V, ее VAE, текстовый кодировщик UMT5‑XXL и LightX2V LoRA. Базовый трансформер инициализируется в UNETLoader (#37) и адаптируется с LoraLoaderModelOnly (#61) для более быстрого семплирования с низким шагом. Wan VAE предоставляется VAELoader (#39). Текстовые кодировщики предоставляются CLIPLoader (#38), который загружает веса UMT5‑XXL, на которые ссылается Wan. Вам редко нужно касаться этой группы, если только вы не заменяете файлы моделей.

Загрузчик аудио#

Вставьте аудиофайл с LoadAudio (#58). AudioSeparation (#85) изолирует вокальную дорожку, чтобы губы следовали четкой речи или пению, а не фоновым инструментам. Audio Duration (mtb) (#70) измеряет клип, а SimpleMath+ (#71) преобразует длительность в количество кадров на 16 fps, чтобы длина видео соответствовала вашему аудио. AudioEncoderEncode (#56) подает на энкодер Wav2Vec2‑Large, чтобы Wan мог сопоставлять фонемы с формами рта для точной синхронизации губ.

Загрузчик изображений#

LoadImage (#52) предоставляет статичное изображение субъекта, которое несет идентичность, одежду и установку камеры. ImageResizeKJv2 (#69) считывает размеры с изображения, чтобы конвейер последовательно выводил целевую ширину и высоту для всех последующих этапов. Используйте четкое, фронтальное изображение с открытым ртом для наиболее точных движений губ.

Движение поз и камеры#

VHS_LoadVideo (#80) импортирует ваше эталонное видео позы. ImageResizeKJv2 (#83) адаптирует кадры к целевому размеру, а DWPreprocessor (#78) преобразует их в карты поз с обнаружением YOLOX и ключевыми точками DWPose. Финальный ImageResizeKJv2 (#81) выравнивает кадры позы с разрешением генерации, прежде чем они будут переданы вперед в качестве управляющего видео. Вы можете предварительно просмотреть выходные данные позы, направляя их на VHS_VideoCombine (#95), что помогает подтвердить, что кадрирование и время эталона подходят вашему субъекту.

Условие#

Напишите стиль и намерение сцены в CLIP Text Encode (Positive Prompt) (#6) и используйте CLIP Text Encode (Negative Prompt) (#7), чтобы избежать нежелательных артефактов. Подсказки направляют эстетику высокого уровня и движение фона, в то время как аудио управляет движениями губ, а эталон позы управляет динамикой тела. Держите подсказки краткими и соответствующими вашему целевому углу камеры и настроению.

Семплирование и декодирование#

WanSoundImageToVideo (#55) объединяет текст, аудио особенности, эталонное изображение и управляющее видео позы, затем подготавливает латентную последовательность. KSamplerAdvanced (#64) выполняет денойзинг с низким шагом, подходящий для ускорения в стиле LightX2V, а VAEDecode (#8) реконструирует кадры. VHS_VideoCombine (#62) собирает кадры в MP4 и прикрепляет ваше оригинальное аудио, чтобы выходной файл был готов к просмотру или редактированию.

Основные узлы в рабочем процессе управления позами LipSync с Wan2.2 S2V в Comfyui#

`WanSoundImageToVideo` (#55)#

Сердце рабочего процесса, которое условливает Wan2.2‑S2V с вашей подсказкой, вокалом, изображением субъекта и управляющим видео позы. Настройте только то, что важно: установите width, height и length, чтобы соответствовать изображению вашего субъекта и длине аудио, и подключите предварительно обработанное видео позы для управления движением. Оставьте ref_motion пустым, если не планируете вставлять отдельный трек камеры. Поведение модели "речь‑в‑видео" описано в Wan‑AI/Wan2.2‑S2V‑14B и Wan‑Video/Wan2.2.

`DWPreprocessor` (#78)#

Генерирует карты поз, используя YOLOX для обнаружения и DWPose для ключевых точек всего тела. Сильные подсказки поз помогают Wan следовать за конечностями и торсом, в то время как аудио контролирует губы и выражения. Если у вашего эталона сильное движение камеры, используйте видео позы, которое согласует точку зрения и время с предполагаемым исполнением. DWPose и его варианты документированы в IDEA‑Research/DWPose.

`KSamplerAdvanced` (#64)#

Выполняет денойзинг для латентной последовательности. С загруженной LightX2V LoRA вы можете держать шаги низкими для быстрых предварительных просмотров, сохраняя согласованность движения; увеличьте шаги, если стремитесь к максимальной детализации. Выбор планировщика влияет на плавность против четкости движения и должен быть настроен вместе с использованием LoRA, как описано для Wan в документации Diffusers documentation.

`VHS_LoadVideo` (#80)#

Импортирует и очищает ваше эталонное видео позы. Используйте его встроенные инструменты выбора кадров, чтобы выбрать точный сегмент, который соответствует вашему аудио сегменту. Поддержание кадрирования и размера субъекта, соответствующего эталонному изображению, стабилизирует передачу движения. Узел является частью VideoHelperSuite: ComfyUI‑VideoHelperSuite.

`VHS_VideoCombine` (#62)#

Объединяет сгенерированные кадры и ваше аудио в MP4 и сохраняет метаданные рабочего процесса. Установите частоту кадров вывода на 16 fps, чтобы соответствовать количеству кадров, рассчитанному из длительности аудио в этом рабочем процессе. Включите или выключите сохранение метаданных в зависимости от ваших потребностей в управлении активами. Смотрите документацию VideoHelperSuite на ComfyUI‑VideoHelperSuite.

`AudioSeparation` (#85)#

Изолирует вокал, чтобы функции Wav2Vec2 управляли формами рта без вмешательства инструментов или эффектов. Если ваш ввод уже чистая речь, вы можете обойтись без разделения. Для наилучших результатов поддерживайте стабильный уровень звука и минимизируйте реверберацию.

Опциональные дополнения#

Для наилучшей синхронизации губ предпочитайте чистую речь или акапельный вокал. Wav2Vec2 работает на частоте 16 кГц; большинство конвейеров автоматически пересэмплируют, но предоставление файлов с частотой 16 кГц помогает.
Используйте хорошо освещенное, фронтальное изображение субъекта с видимыми зубами и губами. Окклюзии снижают точность.
Соответствуйте кадрированию и движению эталона позы вашему субъекту. Большие движения камеры работают лучше всего, когда длина видео позы совпадает с аудио сегментом.
Начните с 480p для быстрой итерации; переходите к 720p для окончательного качества. Wan 2.2 поддерживает оба разрешения в S2V.
Держите подсказки короткими и соответствующими настройке камеры на вашем изображении и эталоне позы, чтобы избежать конфликтов.
Если вы экспериментируете с LoRAs, убедитесь, что они совместимы с денойзерами Wan 2.2. Смотрите заметки о LoRA в документации Wan Diffusers docs.

Этот рабочий процесс управления позами LipSync с Wan2.2 S2V дает вам быстрый путь от аудио и статичного изображения к управляемому, синхронизированному с ритмом выступлению, которое выглядит целостно и чувствуется выразительным.

Благодарности#

Этот рабочий процесс реализует и основывается на следующих работах и ресурсах. Мы с благодарностью признаем @ArtOfficialLabs из Pose Control LipSync с Wan2.2 S2VDemo за их вклад и поддержку. За авторитетными деталями, пожалуйста, обратитесь к оригинальной документации и репозиториям, указанным ниже.

Ресурсы#

YouTube/Pose Control LipSync с Wan2.2 S2VDemo
- Документация / Примечания к выпуску от @ArtOfficialLabs: Pose Control LipSync с Wan2.2 S2VDemo

Примечание: Использование указанных моделей, наборов данных и кода подчиняется соответствующим лицензиям и условиям, предоставленным их авторами и поддерживающими.

Want More ComfyUI Workflows?

Wan 2.2 | Лидер в открытой генерации видео

Доступно сейчас! Лучшая точность + более плавное движение.

Wan 2.2 + Lightx2v V2 | Сверхбыстрое I2V & T2V

Двойная настройка Light LoRA, в 4 раза быстрее.

Wan 2.2 FLF2V | Генерация видео из первого и последнего кадров

Создавайте плавные видео из начального и конечного кадра с помощью Wan 2.2 FLF2V.

Wan 2.2 Lightning T2V I2V | 4-шаговая ультрабыстрая

Wan 2.2 теперь в 20 раз быстрее! T2V + I2V в 4 шага.

Wan2.2 S2V | Генератор Звука в Видео

Превращает ваш аудиоклип в реалистичное, синхронизированное видео из одного изображения

HunyuanCustom | Генератор видео с несколькими объектами

Создавайте видео с двумя объектами с выдающимся сохранением идентичности.

Глиняный стиль с Unsampling

Преобразуйте ваше видео в глиняный стиль, используя метод Unsampling.

Flux Klein Face Swap | Реалистичный редактор лиц с AI

Совершенная замена лиц. Естественное, реалистичное и быстрое редактирование с помощью AI.

Подписывайтесь на нас

Поддержка

Ресурсы

Юридическая информация

RunComfy

RunComfy - ведущая ComfyUI платформа, предлагающая ComfyUI онлайн среду и услуги, а также рабочие процессы ComfyUI с потрясающей визуализацией. RunComfy также предоставляет AI Models, позволяя художникам использовать новейшие инструменты AI для создания невероятного искусства.

Управление позами LipSync S2V | Генератор выразительных видео