O Controle de Pose LipSync com Wan2.2 S2V transforma uma única imagem, um clipe de áudio e um vídeo de referência de pose em uma performance falante sincronizada. O personagem em sua imagem de referência segue o movimento corporal do vídeo de referência enquanto os movimentos labiais correspondem ao áudio. Este fluxo de trabalho ComfyUI é ideal para avatares, cenas de histórias, trailers, vídeos explicativos e videoclipes onde você deseja controle rigoroso sobre pose, expressão e tempo da fala.
Baseado na família de modelos Wan 2.2 S2V 14B, o fluxo de trabalho combina prompts de texto, recursos vocais limpos e mapas de pose para gerar movimento cinematográfico com identidade estável. É projetado para ser simples de operar enquanto oferece aos criadores controle refinado sobre aparência, ritmo e enquadramento.
O fluxo de trabalho combina cinco partes: carregamento de modelo, preparação de áudio, entradas de imagem e pose, condicionamento e geração. Grupos executam em um fluxo da esquerda para a direita, com a duração do áudio definindo automaticamente a duração do clipe a 16 fps.
Este grupo carrega o modelo Wan 2.2 S2V, seu VAE, o codificador de texto UMT5‑XXL e um LightX2V LoRA. O transformador base é inicializado no UNETLoader
(#37) e adaptado com LoraLoaderModelOnly
(#61) para amostragem de baixo passo mais rápida. O Wan VAE é fornecido por VAELoader
(#39). Codificadores de texto são fornecidos por CLIPLoader
(#38), que carrega os pesos UMT5‑XXL referenciados por Wan. Raramente você precisará mexer neste grupo, a menos que troque os arquivos do modelo.
Insira um arquivo de áudio com LoadAudio
(#58). AudioSeparation
(#85) isola o canal vocal para que os lábios sigam uma fala ou canto claros em vez de instrumentos de fundo. Audio Duration (mtb)
(#70) mede o clipe e SimpleMath+
(#71) converte a duração em uma contagem de quadros a 16 fps para que a duração do vídeo corresponda ao seu áudio. AudioEncoderEncode
(#56) alimenta um codificador Wav2Vec2‑Large para que Wan possa mapear fonemas para formas labiais para sincronização labial precisa.
LoadImage
(#52) fornece a imagem estática que carrega identidade, vestuário e configuração de câmera. ImageResizeKJv2
(#69) lê dimensões da imagem para que o pipeline derive consistentemente a largura e altura alvo para todas as etapas posteriores. Use uma imagem nítida, de frente, com boca desobstruída para os movimentos labiais mais fiéis.
VHS_LoadVideo
(#80) importa seu vídeo de referência de pose. ImageResizeKJv2
(#83) adapta os quadros ao tamanho alvo, e DWPreprocessor
(#78) os transforma em mapas de pose com detecção YOLOX mais pontos-chave DWPose. Um ImageResizeKJv2
(#81) final alinha os quadros de pose à resolução de geração antes de serem passados adiante como o vídeo de controle. Você pode pré-visualizar saídas de pose roteando para VHS_VideoCombine
(#95), o que ajuda a confirmar que o enquadramento e tempo de referência se ajustam ao seu sujeito.
Escreva o estilo e a intenção da cena em CLIP Text Encode (Positive Prompt)
(#6) e use CLIP Text Encode (Negative Prompt)
(#7) para desencorajar artefatos indesejados. Prompts orientam estética de alto nível e movimento de fundo, enquanto o áudio dirige movimentos labiais e a referência de pose governa a dinâmica corporal. Mantenha prompts concisos e alinhados com o ângulo de câmera e humor almejados.
WanSoundImageToVideo
(#55) funde texto, recursos de áudio, a imagem de referência e o vídeo de controle de pose, então prepara uma sequência latente. KSamplerAdvanced
(#64) executa despoluição de baixo passo adequada à aceleração estilo LightX2V, e VAEDecode
(#8) reconstrói quadros. VHS_VideoCombine
(#62) monta quadros em um MP4 e anexa seu áudio original para que a saída esteja pronta para revisão ou edição.
WanSoundImageToVideo
(#55)O coração do fluxo de trabalho que condiciona Wan2.2‑S2V com seu prompt, vocais, imagem do sujeito e vídeo de controle de pose. Ajuste apenas o que importa: defina width
, height
e length
para corresponder à sua imagem de sujeito e comprimento do áudio, e conecte um vídeo de pose pré-processado para controle de movimento. Deixe ref_motion
vazio a menos que planeje injetar uma trilha de câmera separada. O comportamento de fala-para-vídeo do modelo é descrito em Wan‑AI/Wan2.2‑S2V‑14B e Wan‑Video/Wan2.2.
DWPreprocessor
(#78)Gera mapas de pose usando YOLOX para detecção e DWPose para pontos-chave de corpo inteiro. Sinais de pose fortes ajudam Wan a seguir membros e tronco enquanto o áudio controla lábios e expressões. Se sua referência tiver movimentos de câmera pesados, use um vídeo de pose que alinhe ponto de vista e tempo com a performance pretendida. DWPose e suas variantes são documentadas em IDEA‑Research/DWPose.
KSamplerAdvanced
(#64)Executa despoluição para a sequência latente. Com um LightX2V LoRA carregado, você pode manter passos baixos para pré-visualizações rápidas enquanto retém coerência de movimento; aumente passos quando buscar máximo detalhe. Escolhas de agendador afetam suavidade versus nitidez do movimento, e devem ser ajustadas junto com o uso de LoRA conforme descrito para Wan na documentação Diffusers.
VHS_LoadVideo
(#80)Importa e limpa sua referência de pose. Use suas ferramentas de seleção de quadros in-node para escolher o segmento exato que corresponda ao seu segmento de áudio. Manter enquadramento e tamanho do sujeito consistentes com a imagem de referência estabilizará a transferência de movimento. O nó faz parte do VideoHelperSuite: ComfyUI‑VideoHelperSuite.
VHS_VideoCombine
(#62)Combina quadros gerados e seu áudio em um MP4 e salva metadados do fluxo de trabalho. Defina a taxa de quadros de saída para 16 fps para corresponder à contagem de quadros calculada a partir da duração do áudio neste fluxo de trabalho. Desative ou ative a gravação de metadados dependendo de suas necessidades de gerenciamento de ativos. Veja a documentação do VideoHelperSuite em ComfyUI‑VideoHelperSuite.
AudioSeparation
(#85)Isola vocais para que recursos Wav2Vec2 conduzam formas labiais sem interferência de instrumentos ou FX. Se sua entrada já for fala limpa, você pode ignorar a separação. Para melhores resultados, mantenha níveis de áudio consistentes e minimize reverberação.
Este fluxo de trabalho Controle de Pose LipSync com Wan2.2 S2V oferece um caminho rápido de áudio e uma imagem estática para uma performance controlável, no ritmo, que parece coesa e se sente expressiva.
Este fluxo de trabalho implementa e se baseia nos seguintes trabalhos e recursos. Agradecemos @ArtOfficialLabs do Pose Control LipSync com Wan2.2 S2VDemo por suas contribuições e manutenção. Para detalhes autoritativos, consulte a documentação original e repositórios vinculados abaixo.
Nota: O uso dos modelos, conjuntos de dados e código referenciados está sujeito às respectivas licenças e termos fornecidos por seus autores e mantenedores.
RunComfy é a principal ComfyUI plataforma, oferecendo ComfyUI online ambiente e serviços, juntamente com fluxos de trabalho do ComfyUI apresentando visuais impressionantes. RunComfy também oferece AI Playground, permitindo que artistas utilizem as mais recentes ferramentas de AI para criar arte incrível.