Controle de Pose LipSync com Wan2.2 S2V em ComfyUI

ComfyUI Pose Control LipSync with Wan2.2 S2V Workflow

Pose Control LipSync with Wan2.2 S2V in ComfyUI | Audio2Video

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

ComfyUI Pose Control LipSync with Wan2.2 S2V Examples

Controle de Pose LipSync com Wan2.2 S2V: imagem-para-vídeo guiado por áudio e pose para avatares expressivos#

O Controle de Pose LipSync com Wan2.2 S2V transforma uma única imagem, um clipe de áudio e um vídeo de referência de pose em uma performance falante sincronizada. O personagem em sua imagem de referência segue o movimento corporal do vídeo de referência enquanto os movimentos labiais correspondem ao áudio. Este fluxo de trabalho ComfyUI é ideal para avatares, cenas de histórias, trailers, vídeos explicativos e videoclipes onde você deseja controle rigoroso sobre pose, expressão e tempo da fala.

Baseado na família de modelos Wan 2.2 S2V 14B, o fluxo de trabalho combina prompts de texto, recursos vocais limpos e mapas de pose para gerar movimento cinematográfico com identidade estável. É projetado para ser simples de operar enquanto oferece aos criadores controle refinado sobre aparência, ritmo e enquadramento.

Modelos principais no fluxo de trabalho Comfyui Pose Control LipSync com Wan2.2 S2V#

Wan2.2‑S2V‑14B. O gerador principal de fala-para-vídeo que transforma uma imagem parada mais áudio em vídeo, com condicionamento de pose opcional para orientação de movimento. Veja o repositório oficial e o cartão do modelo para capacidades e notas de uso: Wan‑Video/Wan2.2 e Wan‑AI/Wan2.2‑S2V‑14B.
Wan VAE. O autoencoder Wan codifica e decodifica latentes de vídeo com alta fidelidade e é usado em pipelines Wan 2.x. Implementação de referência: Pipelines Wan em Diffusers documentação.
Google UMT5‑XXL text encoder. Fornece condicionamento de texto multilíngue forte para intenção de cena e controle de estilo de alto nível dentro dos pipelines Wan. Cartão do modelo: google/umt5‑xxl.
Facebook Wav2Vec2‑Large. Extrai recursos de fala robustos que impulsionam a sincronização labial e micro-expressão. Cartão do modelo: facebook/wav2vec2‑large‑960h.
DWPose com detector YOLOX. Gera pontos-chave de pose humana e mapas de pose a partir do vídeo de referência para guiar o movimento corporal completo. Repos: IDEA‑Research/DWPose e Megvii‑BaseDetection/YOLOX.
LightX2V LoRA para Wan. Um LoRA leve usado para acelerar a despoluição de estilo de imagem-para-vídeo de baixo passo enquanto preserva a qualidade do movimento; Wan 2.2 suporta LoRAs em seus despoluidores. Veja a orientação sobre o uso de LoRA nos pipelines Wan em Wan pipelines.

Como usar o fluxo de trabalho Comfyui Pose Control LipSync com Wan2.2 S2V#

O fluxo de trabalho combina cinco partes: carregamento de modelo, preparação de áudio, entradas de imagem e pose, condicionamento e geração. Grupos executam em um fluxo da esquerda para a direita, com a duração do áudio definindo automaticamente a duração do clipe a 16 fps.

Carregadores de Modelo#

Este grupo carrega o modelo Wan 2.2 S2V, seu VAE, o codificador de texto UMT5‑XXL e um LightX2V LoRA. O transformador base é inicializado no UNETLoader (#37) e adaptado com LoraLoaderModelOnly (#61) para amostragem de baixo passo mais rápida. O Wan VAE é fornecido por VAELoader (#39). Codificadores de texto são fornecidos por CLIPLoader (#38), que carrega os pesos UMT5‑XXL referenciados por Wan. Raramente você precisará mexer neste grupo, a menos que troque os arquivos do modelo.

Carregador de Áudio#

Insira um arquivo de áudio com LoadAudio (#58). AudioSeparation (#85) isola o canal vocal para que os lábios sigam uma fala ou canto claros em vez de instrumentos de fundo. Audio Duration (mtb) (#70) mede o clipe e SimpleMath+ (#71) converte a duração em uma contagem de quadros a 16 fps para que a duração do vídeo corresponda ao seu áudio. AudioEncoderEncode (#56) alimenta um codificador Wav2Vec2‑Large para que Wan possa mapear fonemas para formas labiais para sincronização labial precisa.

Carregador de Imagem#

LoadImage (#52) fornece a imagem estática que carrega identidade, vestuário e configuração de câmera. ImageResizeKJv2 (#69) lê dimensões da imagem para que o pipeline derive consistentemente a largura e altura alvo para todas as etapas posteriores. Use uma imagem nítida, de frente, com boca desobstruída para os movimentos labiais mais fiéis.

Movimento de Pose e Câmera#

VHS_LoadVideo (#80) importa seu vídeo de referência de pose. ImageResizeKJv2 (#83) adapta os quadros ao tamanho alvo, e DWPreprocessor (#78) os transforma em mapas de pose com detecção YOLOX mais pontos-chave DWPose. Um ImageResizeKJv2 (#81) final alinha os quadros de pose à resolução de geração antes de serem passados adiante como o vídeo de controle. Você pode pré-visualizar saídas de pose roteando para VHS_VideoCombine (#95), o que ajuda a confirmar que o enquadramento e tempo de referência se ajustam ao seu sujeito.

Condicionamento#

Escreva o estilo e a intenção da cena em CLIP Text Encode (Positive Prompt) (#6) e use CLIP Text Encode (Negative Prompt) (#7) para desencorajar artefatos indesejados. Prompts orientam estética de alto nível e movimento de fundo, enquanto o áudio dirige movimentos labiais e a referência de pose governa a dinâmica corporal. Mantenha prompts concisos e alinhados com o ângulo de câmera e humor almejados.

Amostra e Decodificação#

WanSoundImageToVideo (#55) funde texto, recursos de áudio, a imagem de referência e o vídeo de controle de pose, então prepara uma sequência latente. KSamplerAdvanced (#64) executa despoluição de baixo passo adequada à aceleração estilo LightX2V, e VAEDecode (#8) reconstrói quadros. VHS_VideoCombine (#62) monta quadros em um MP4 e anexa seu áudio original para que a saída esteja pronta para revisão ou edição.

Nós principais no fluxo de trabalho Comfyui Pose Control LipSync com Wan2.2 S2V#

`WanSoundImageToVideo` (#55)#

O coração do fluxo de trabalho que condiciona Wan2.2‑S2V com seu prompt, vocais, imagem do sujeito e vídeo de controle de pose. Ajuste apenas o que importa: defina width, height e length para corresponder à sua imagem de sujeito e comprimento do áudio, e conecte um vídeo de pose pré-processado para controle de movimento. Deixe ref_motion vazio a menos que planeje injetar uma trilha de câmera separada. O comportamento de fala-para-vídeo do modelo é descrito em Wan‑AI/Wan2.2‑S2V‑14B e Wan‑Video/Wan2.2.

`DWPreprocessor` (#78)#

Gera mapas de pose usando YOLOX para detecção e DWPose para pontos-chave de corpo inteiro. Sinais de pose fortes ajudam Wan a seguir membros e tronco enquanto o áudio controla lábios e expressões. Se sua referência tiver movimentos de câmera pesados, use um vídeo de pose que alinhe ponto de vista e tempo com a performance pretendida. DWPose e suas variantes são documentadas em IDEA‑Research/DWPose.

`KSamplerAdvanced` (#64)#

Executa despoluição para a sequência latente. Com um LightX2V LoRA carregado, você pode manter passos baixos para pré-visualizações rápidas enquanto retém coerência de movimento; aumente passos quando buscar máximo detalhe. Escolhas de agendador afetam suavidade versus nitidez do movimento, e devem ser ajustadas junto com o uso de LoRA conforme descrito para Wan na documentação Diffusers.

`VHS_LoadVideo` (#80)#

Importa e limpa sua referência de pose. Use suas ferramentas de seleção de quadros in-node para escolher o segmento exato que corresponda ao seu segmento de áudio. Manter enquadramento e tamanho do sujeito consistentes com a imagem de referência estabilizará a transferência de movimento. O nó faz parte do VideoHelperSuite: ComfyUI‑VideoHelperSuite.

`VHS_VideoCombine` (#62)#

Combina quadros gerados e seu áudio em um MP4 e salva metadados do fluxo de trabalho. Defina a taxa de quadros de saída para 16 fps para corresponder à contagem de quadros calculada a partir da duração do áudio neste fluxo de trabalho. Desative ou ative a gravação de metadados dependendo de suas necessidades de gerenciamento de ativos. Veja a documentação do VideoHelperSuite em ComfyUI‑VideoHelperSuite.

`AudioSeparation` (#85)#

Isola vocais para que recursos Wav2Vec2 conduzam formas labiais sem interferência de instrumentos ou FX. Se sua entrada já for fala limpa, você pode ignorar a separação. Para melhores resultados, mantenha níveis de áudio consistentes e minimize reverberação.

Extras opcionais#

Para melhor sincronização labial, prefira fala limpa ou vocais acapella. Wav2Vec2 funciona a 16 kHz; a maioria dos pipelines resample automaticamente, mas fornecer arquivos a 16 kHz ajuda.
Use uma imagem de sujeito bem iluminada, de frente, com dentes e lábios visíveis. Occlusões reduzem a precisão.
Combine o enquadramento e movimento da referência de pose com seu sujeito. Movimentos de câmera grandes funcionam melhor quando o comprimento do vídeo de pose corresponde ao segmento de áudio.
Comece em 480p para iteração rápida; passe para 720p para qualidade final. Wan 2.2 suporta ambas as resoluções em S2V.
Mantenha prompts curtos e consistentes com a configuração de câmera em sua imagem e referência de pose para evitar conflitos.
Se você experimentar com LoRAs, certifique-se de que são compatíveis com os despoluidores Wan 2.2. Veja as notas de LoRA nos docs Diffusers Wan.

Este fluxo de trabalho Controle de Pose LipSync com Wan2.2 S2V oferece um caminho rápido de áudio e uma imagem estática para uma performance controlável, no ritmo, que parece coesa e se sente expressiva.

Agradecimentos#

Este fluxo de trabalho implementa e se baseia nos seguintes trabalhos e recursos. Agradecemos @ArtOfficialLabs do Pose Control LipSync com Wan2.2 S2VDemo por suas contribuições e manutenção. Para detalhes autoritativos, consulte a documentação original e repositórios vinculados abaixo.

Recursos#

YouTube/Pose Control LipSync com Wan2.2 S2VDemo
- Docs / Notas de Lançamento de @ArtOfficialLabs: Pose Control LipSync com Wan2.2 S2VDemo

Nota: O uso dos modelos, conjuntos de dados e código referenciados está sujeito às respectivas licenças e termos fornecidos por seus autores e mantenedores.

Want More ComfyUI Workflows?

Wan 2.2 | Líder em Geração de Vídeo Open-Source

Disponível agora! Melhor precisão + movimento mais suave.

Wan 2.2 + Lightx2v V2 | Ultra Rápido I2V & T2V

Configuração Dual Light LoRA, 4X mais rápida.

Wan 2.2 FLF2V | Geração de Vídeo Quadro-Inicial-Final

Gere vídeos suaves a partir de um quadro inicial e final usando Wan 2.2 FLF2V.

Wan 2.2 Lightning T2V I2V | 4 Etapas Ultra Rápido

Wan 2.2 agora 20x mais rápido! T2V + I2V em 4 etapas.

Wan2.2 S2V | Gerador de Som para Vídeo

Transforma seu clipe de áudio em vídeo realista e sincronizado a partir de uma imagem

Wan 2.1 | Geração de Vídeo Revolucionária

Crie vídeos incríveis a partir de texto ou imagens com IA revolucionária rodando em CPUs comuns.

Wan 2.2 Animate | Troca de Personagens & Sincronização Labial

Transforma qualquer rosto para falar e se mover como o original com facilidade.

Modelo CHORD | Gerador de Textura PBR com IA

Transforma imagens em mapas de textura PBR verdadeiros rapidamente.

Suporte

Recursos

Legal

RunComfy

RunComfy é a principal ComfyUI plataforma, oferecendo ComfyUI online ambiente e serviços, juntamente com fluxos de trabalho do ComfyUI apresentando visuais impressionantes. RunComfy também oferece AI Models, permitindo que artistas utilizem as mais recentes ferramentas de AI para criar arte incrível.

Controle de Pose LipSync S2V | Gerador de Vídeo Expressivo