Wan 2.2 Animate: Troca de Personagens & Fluxo de Trabalho de Sincronização Labial

Este fluxo de trabalho foi criado em colaboração com MDMZ. Para um tutorial detalhado e dicas criativas, confira o canal do MDMZ no YouTube!

ComfyUI Wan 2.2 Animate: Swap Characters & Lip-Sync Workflow

Wan 2.2 Animate: Swap Characters & Lip-Sync Workflow | ComfyUI

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

ComfyUI Wan 2.2 Animate: Swap Characters & Lip-Sync Examples

Tutorial de Fluxo de Trabalho#

Wan 2.2 Animate: Troca de Personagens & Sincronização Labial#

Substitua qualquer orador em câmera por seu próprio personagem enquanto mantém o movimento, expressões e formas da boca alinhados ao áudio original. Este fluxo de trabalho do ComfyUI, construído em torno do Wan 2.2 Animate: Troca de Personagens & Sincronização Labial, detecta pose corporal e quadros faciais de um vídeo de entrada, redireciona-os para uma única imagem de referência e renderiza um resultado coerente e síncrono com a fala.

O fluxo de trabalho é adequado para editores, criadores e pesquisadores que desejam substituição confiável de personagens para entrevistas, rolos, VTubing, slides ou curtas dublados. Forneça um clipe de origem e uma imagem de referência limpa; o pipeline recria a pose e articulação labial no novo personagem e mistura a trilha sonora original na exportação final.

Modelos principais no fluxo de trabalho Comfyui Wan 2.2 Animate: Troca de Personagens & Sincronização Labial#

Wan 2.2 Animate 14B (FP8 scaled): o gerador de vídeo central que sintetiza o personagem redirecionado através de quadros usando sinais de pose, rosto e contexto. Model hub
Wan 2.1 VAE (bf16): codifica/decodifica latentes de vídeo usados pelo Wan durante a amostragem e saída. Weights
UMT5‑XXL Text Encoder (bf16): constrói embeddings de texto para prompts leves ou descritores de cenas. Weights
CLIP Vision H: extrai características robustas da imagem do retrato de referência para preservar a identidade. Weights
Lightx2v I2V 14B LoRA: melhora a estabilidade e fidelidade de imagem para vídeo ao conduzir com quadros de referência. LoRA
Wan22 Relight LoRA: ajuda a manter a consistência de sombreamento e reluzimento ao longo da cena. LoRA
YOLOv10m (ONNX): detecção rápida de pessoa/rosto usada antes da estimativa de pose. Model
ViTPose WholeBody Large (ONNX): pontos-chave esqueléticos de alta qualidade para transferência de movimento de corpo inteiro. Model
Segment Anything 2.1: segmentação para máscaras de primeiro plano limpas que orientam a substituição. Repo

Como usar o fluxo de trabalho Comfyui Wan 2.2 Animate: Troca de Personagens & Sincronização Labial#

O gráfico passa por sete grupos: carregar entradas, construir uma referência, pré-processar pose/rosto e máscaras, carregar modelos de geração, executar substituição de personagens, pré-visualizar diagnósticos, depois exportar com áudio.

Carregar vídeo#

Importe seu clipe de origem com VHS_LoadVideo (#63). O nó expõe largura/altura opcionais para redimensionamento e gera quadros de vídeo, áudio e contagem de quadros para uso subsequente. Mantenha o clipe aparado próximo à parte falada se desejar processamento mais rápido. O áudio é passado para o exportador, assim o vídeo final permanece alinhado com a trilha sonora original.

Imagem de referência#

Forneça um retrato limpo e único do personagem-alvo. A imagem é redimensionada com ImageResizeKJv2 (#64) para corresponder à sua resolução de trabalho e armazenada como a referência canônica usada pelo CLIP Vision e o gerador. Prefira uma imagem nítida e voltada para frente sob iluminação semelhante à sua cena de origem para reduzir desvio de cor e sombreamento.

Pré-processamento#

OnnxDetectionModelLoader (#178) carrega YOLO e ViTPose, depois PoseAndFaceDetection (#172) analisa cada quadro para produzir pontos-chave de corpo inteiro e recortes faciais por quadro. Sam2Segmentation (#104) cria uma máscara de primeiro plano usando caixas delimitadoras detectadas ou pontos de quadro-chave; se uma dica falhar, mude para a outra para melhor separação. A máscara é refinada com GrowMaskWithBlur (#182) e bloqueada com BlockifyMask (#108) para fornecer ao gerador uma região de assunto estável e inequívoca. Sobreposições opcionais (DrawViTPose (#173) e DrawMaskOnImage (#99)) ajudam a verificar visualmente a cobertura de pose e qualidade da máscara antes da geração.

Modelos#

WanVideoModelLoader (#22) carrega Wan 2.2 Animate 14B, e WanVideoVAELoader (#38) fornece o VAE. As características de identidade do retrato de referência são codificadas por CLIPVisionLoader (#71) e WanVideoClipVisionEncode (#70). Estilo e estabilidade são ajustados com WanVideoLoraSelectMulti (#171), enquanto WanVideoSetLoRAs (#48) e WanVideoSetBlockSwap (#50) aplicam LoRAs e configurações de troca de bloco ao modelo; essas ferramentas vêm da biblioteca de wrappers Wan. Veja ComfyUI‑WanVideoWrapper para detalhes de implementação.

Substituição de personagens#

WanVideoTextEncodeCached (#65) aceita um prompt descritivo curto se você quiser influenciar a aparência ou o humor da cena. WanVideoAnimateEmbeds (#62) funde a imagem de referência, pose por quadro, recortes de rosto, fundo e máscara em embeddings de imagem que preservam a identidade enquanto combinam movimento e formas da boca. WanVideoSampler (#27) então renderiza os quadros; seu agendador e etapas controlam o equilíbrio entre nitidez e movimento. Os quadros decodificados de WanVideoDecode (#28) são entregues a inspetores de tamanho/contagem para que você possa confirmar as dimensões antes da exportação.

Colagem de resultados#

Para QA rápido, o fluxo de trabalho concatena as entradas principais com ImageConcatMulti (#77, #66) para formar uma tira de comparação simples da referência, recortes faciais, visualização de pose e um quadro bruto. Use-a para verificar sanidade de pistas de identidade e formas da boca logo após um teste.

Saída#

VHS_VideoCombine (#30) produz o vídeo final e mistura o áudio original para um timing perfeito. Exportadores adicionais são incluídos para que você possa salvar diagnósticos intermediários ou cortes alternativos, se necessário. Para melhores resultados em clipes mais longos, exporte um teste curto primeiro, depois itere em misturas de LoRA e máscaras antes de comprometer-se a uma renderização completa.

Nós principais no fluxo de trabalho Comfyui Wan 2.2 Animate: Troca de Personagens & Sincronização Labial#

VHS_LoadVideo (#63) Carrega quadros e o áudio original em um único passo. Use-o para definir uma resolução de trabalho que se ajuste ao seu orçamento de GPU e para confirmar a contagem de quadros que os nós subsequentes irão consumir. De ComfyUI‑VideoHelperSuite.

PoseAndFaceDetection (#172) Executa YOLO e ViTPose para extrair caixas de pessoa, pontos-chave de corpo inteiro e recortes faciais por quadro. Bons pontos-chave são a espinha dorsal de uma transferência de movimento crível e são reutilizados diretamente para articulação labial. De ComfyUI‑WanAnimatePreprocess.

Sam2Segmentation (#104) Constrói uma máscara de primeiro plano ao redor do sujeito usando caixas delimitadoras ou dicas de pontos de quadro-chave. Se cabelo ou mãos forem perdidos, alterne o tipo de dica ou expanda as configurações de desfoque/crescimento antes de bloquear. De ComfyUI‑segment‑anything‑2.

WanVideoLoraSelectMulti (#171) Permite misturar LoRAs como Lightx2v e Wan22 Relight para equilibrar estabilidade de movimento, consistência de iluminação e força de identidade. Aumente o peso de um LoRA para mais influência, mas cuidado com a estilização excessiva em rostos. De ComfyUI‑WanVideoWrapper.

WanVideoAnimateEmbeds (#62) Combina o retrato de referência, imagens de pose, recortes de rosto, quadros de fundo e máscara em uma representação compacta que condiciona o Wan 2.2 Animate. Certifique-se de que width, height e num_frames correspondam à sua exportação pretendida para evitar artefatos de reamostragem. De ComfyUI‑WanVideoWrapper.

WanVideoSampler (#27) Gera os quadros finais. Use etapas mais altas e um agendador mais estável quando precisar de detalhes mais nítidos, ou uma programação mais leve para pré-visualizações rápidas. Para clipes muito longos, você pode opcionalmente introduzir controles de janela de contexto conectando WanVideoContextOptions (#110) para manter a consistência temporal através das janelas.

VHS_VideoCombine (#30) Exporta o vídeo finalizado e mistura o áudio original para que os movimentos labiais permaneçam sincronizados. A opção de cortar para o áudio mantém a duração alinhada com a trilha sonora. De ComfyUI‑VideoHelperSuite.

Extras opcionais#

Use uma referência nítida e voltada para frente com lábios neutros para a transferência de identidade mais limpa; evite maquiagem pesada ou obstruções.
Se a segmentação perder cabelo ou acessórios, tente alternar dicas de Sam2Segmentation entre caixas delimitadoras e pontos de quadro-chave, depois aumente ligeiramente a máscara antes de bloquear.
Lightx2v LoRA melhora a estabilidade de I2V; Wan22 Relight LoRA ajuda a igualar iluminação inconsistente. Pequenas mudanças de peso podem resolver cintilação sem exagerar no visual.
A troca de bloco pode reduzir o desvio de identidade em tomadas longas; se os rostos amolecerem com o tempo, ative-o em WanVideoSetBlockSwap (#50) e teste novamente.
Mantenha a resolução de trabalho proporcional à fonte para evitar distorção de aspecto; aumente apenas quando a imagem de referência for detalhada o suficiente para suportá-lo.
Para tempos de execução capazes, habilitar a compilação do torch e atenção eficiente nos nós do wrapper pode acelerar a amostragem; veja ComfyUI‑WanVideoWrapper para orientação.

Este fluxo de trabalho Wan 2.2 Animate: Troca de Personagens & Sincronização Labial oferece transferência de movimento consistente e formas de boca síncronas com a fala com configuração mínima, tornando trocas de personagens de alta qualidade rápidas e repetíveis dentro do ComfyUI.

Agradecimentos#

Este fluxo de trabalho implementa e se baseia nos seguintes trabalhos e recursos. Agradecemos @MDMZ por construir todo o fluxo de trabalho, Kijai por WAN 2.2 Animate e nós relacionados do ComfyUI, Wan-AI por ativos Wan2.2-Animate, incluindo detecção YOLOv10m, e Comfy-Org pelo modelo Wan 2.1 Clip Vision por suas contribuições e manutenção. Para detalhes autoritativos, consulte a documentação original e repositórios vinculados abaixo.

Recursos#

Tutorial de Fluxo de Trabalho
- Youtube: ComfyUI-Tutorial de @MDMZ

Nota: O uso dos modelos, conjuntos de dados e código referenciados está sujeito às respectivas licenças e termos fornecidos por seus autores e mantenedores.

Want More ComfyUI Workflows?

Wan 2.2 Lightning T2V I2V | 4 Etapas Ultra Rápido

Wan 2.2 agora 20x mais rápido! T2V + I2V em 4 etapas.

Wan 2.2 + Lightx2v V2 | Ultra Rápido I2V & T2V

Configuração Dual Light LoRA, 4X mais rápida.

Wan 2.2 FLF2V | Geração de Vídeo Quadro-Inicial-Final

Gere vídeos suaves a partir de um quadro inicial e final usando Wan 2.2 FLF2V.

Wan 2.2 | Líder em Geração de Vídeo Open-Source

Disponível agora! Melhor precisão + movimento mais suave.

EchoMimic | Animações de Retratos Guiadas por Áudio

Gere cabeças falantes realistas e gestos corporais sincronizados com o áudio fornecido.

BRIA AI RMBG 1.4 vs Segment Anything | Remoção de Fundo

Remove fundos de forma eficiente, comparando o RMBG 1.4 da BRIA AI com o Segment Anything.

Vid2Vid Parte 2 | SDXL Style Transfer

Aprimore a criatividade do Vid2Vid focando na composição e no mascaramento do seu vídeo original.

FLUX ControlNet Depth-V3 & Canny-V3

Obtenha melhor controle com FLUX-ControlNet-Depth & FLUX-ControlNet-Canny para FLUX.1 [dev].

Suporte

Recursos

Legal

RunComfy

RunComfy é a principal ComfyUI plataforma, oferecendo ComfyUI online ambiente e serviços, juntamente com fluxos de trabalho do ComfyUI apresentando visuais impressionantes. RunComfy também oferece AI Models, permitindo que artistas utilizem as mais recentes ferramentas de AI para criar arte incrível.

Wan 2.2 Animate | Troca de Personagens & Sincronização Labial