Tutorial de Fluxo de Trabalho
Wan 2.2 Animate: Troca de Personagens & Sincronização Labial
Substitua qualquer orador em câmera por seu próprio personagem enquanto mantém o movimento, expressões e formas da boca alinhados ao áudio original. Este fluxo de trabalho do ComfyUI, construído em torno do Wan 2.2 Animate: Troca de Personagens & Sincronização Labial, detecta pose corporal e quadros faciais de um vídeo de entrada, redireciona-os para uma única imagem de referência e renderiza um resultado coerente e síncrono com a fala.
O fluxo de trabalho é adequado para editores, criadores e pesquisadores que desejam substituição confiável de personagens para entrevistas, rolos, VTubing, slides ou curtas dublados. Forneça um clipe de origem e uma imagem de referência limpa; o pipeline recria a pose e articulação labial no novo personagem e mistura a trilha sonora original na exportação final.
Modelos principais no fluxo de trabalho Comfyui Wan 2.2 Animate: Troca de Personagens & Sincronização Labial
- Wan 2.2 Animate 14B (FP8 scaled): o gerador de vídeo central que sintetiza o personagem redirecionado através de quadros usando sinais de pose, rosto e contexto. Model hub
- Wan 2.1 VAE (bf16): codifica/decodifica latentes de vídeo usados pelo Wan durante a amostragem e saída. Weights
- UMT5‑XXL Text Encoder (bf16): constrói embeddings de texto para prompts leves ou descritores de cenas. Weights
- CLIP Vision H: extrai características robustas da imagem do retrato de referência para preservar a identidade. Weights
- Lightx2v I2V 14B LoRA: melhora a estabilidade e fidelidade de imagem para vídeo ao conduzir com quadros de referência. LoRA
- Wan22 Relight LoRA: ajuda a manter a consistência de sombreamento e reluzimento ao longo da cena. LoRA
- YOLOv10m (ONNX): detecção rápida de pessoa/rosto usada antes da estimativa de pose. Model
- ViTPose WholeBody Large (ONNX): pontos-chave esqueléticos de alta qualidade para transferência de movimento de corpo inteiro. Model
- Segment Anything 2.1: segmentação para máscaras de primeiro plano limpas que orientam a substituição. Repo
Como usar o fluxo de trabalho Comfyui Wan 2.2 Animate: Troca de Personagens & Sincronização Labial
O gráfico passa por sete grupos: carregar entradas, construir uma referência, pré-processar pose/rosto e máscaras, carregar modelos de geração, executar substituição de personagens, pré-visualizar diagnósticos, depois exportar com áudio.
Carregar vídeo
Importe seu clipe de origem com VHS_LoadVideo (#63). O nó expõe largura/altura opcionais para redimensionamento e gera quadros de vídeo, áudio e contagem de quadros para uso subsequente. Mantenha o clipe aparado próximo à parte falada se desejar processamento mais rápido. O áudio é passado para o exportador, assim o vídeo final permanece alinhado com a trilha sonora original.
Imagem de referência
Forneça um retrato limpo e único do personagem-alvo. A imagem é redimensionada com ImageResizeKJv2 (#64) para corresponder à sua resolução de trabalho e armazenada como a referência canônica usada pelo CLIP Vision e o gerador. Prefira uma imagem nítida e voltada para frente sob iluminação semelhante à sua cena de origem para reduzir desvio de cor e sombreamento.
Pré-processamento
OnnxDetectionModelLoader (#178) carrega YOLO e ViTPose, depois PoseAndFaceDetection (#172) analisa cada quadro para produzir pontos-chave de corpo inteiro e recortes faciais por quadro. Sam2Segmentation (#104) cria uma máscara de primeiro plano usando caixas delimitadoras detectadas ou pontos de quadro-chave; se uma dica falhar, mude para a outra para melhor separação. A máscara é refinada com GrowMaskWithBlur (#182) e bloqueada com BlockifyMask (#108) para fornecer ao gerador uma região de assunto estável e inequívoca. Sobreposições opcionais (DrawViTPose (#173) e DrawMaskOnImage (#99)) ajudam a verificar visualmente a cobertura de pose e qualidade da máscara antes da geração.
Modelos
WanVideoModelLoader (#22) carrega Wan 2.2 Animate 14B, e WanVideoVAELoader (#38) fornece o VAE. As características de identidade do retrato de referência são codificadas por CLIPVisionLoader (#71) e WanVideoClipVisionEncode (#70). Estilo e estabilidade são ajustados com WanVideoLoraSelectMulti (#171), enquanto WanVideoSetLoRAs (#48) e WanVideoSetBlockSwap (#50) aplicam LoRAs e configurações de troca de bloco ao modelo; essas ferramentas vêm da biblioteca de wrappers Wan. Veja ComfyUI‑WanVideoWrapper para detalhes de implementação.
Substituição de personagens
WanVideoTextEncodeCached (#65) aceita um prompt descritivo curto se você quiser influenciar a aparência ou o humor da cena. WanVideoAnimateEmbeds (#62) funde a imagem de referência, pose por quadro, recortes de rosto, fundo e máscara em embeddings de imagem que preservam a identidade enquanto combinam movimento e formas da boca. WanVideoSampler (#27) então renderiza os quadros; seu agendador e etapas controlam o equilíbrio entre nitidez e movimento. Os quadros decodificados de WanVideoDecode (#28) são entregues a inspetores de tamanho/contagem para que você possa confirmar as dimensões antes da exportação.
Colagem de resultados
Para QA rápido, o fluxo de trabalho concatena as entradas principais com ImageConcatMulti (#77, #66) para formar uma tira de comparação simples da referência, recortes faciais, visualização de pose e um quadro bruto. Use-a para verificar sanidade de pistas de identidade e formas da boca logo após um teste.
Saída
VHS_VideoCombine (#30) produz o vídeo final e mistura o áudio original para um timing perfeito. Exportadores adicionais são incluídos para que você possa salvar diagnósticos intermediários ou cortes alternativos, se necessário. Para melhores resultados em clipes mais longos, exporte um teste curto primeiro, depois itere em misturas de LoRA e máscaras antes de comprometer-se a uma renderização completa.
Nós principais no fluxo de trabalho Comfyui Wan 2.2 Animate: Troca de Personagens & Sincronização Labial
VHS_LoadVideo (#63) Carrega quadros e o áudio original em um único passo. Use-o para definir uma resolução de trabalho que se ajuste ao seu orçamento de GPU e para confirmar a contagem de quadros que os nós subsequentes irão consumir. De ComfyUI‑VideoHelperSuite.
PoseAndFaceDetection (#172) Executa YOLO e ViTPose para extrair caixas de pessoa, pontos-chave de corpo inteiro e recortes faciais por quadro. Bons pontos-chave são a espinha dorsal de uma transferência de movimento crível e são reutilizados diretamente para articulação labial. De ComfyUI‑WanAnimatePreprocess.
Sam2Segmentation (#104) Constrói uma máscara de primeiro plano ao redor do sujeito usando caixas delimitadoras ou dicas de pontos de quadro-chave. Se cabelo ou mãos forem perdidos, alterne o tipo de dica ou expanda as configurações de desfoque/crescimento antes de bloquear. De ComfyUI‑segment‑anything‑2.
WanVideoLoraSelectMulti (#171) Permite misturar LoRAs como Lightx2v e Wan22 Relight para equilibrar estabilidade de movimento, consistência de iluminação e força de identidade. Aumente o peso de um LoRA para mais influência, mas cuidado com a estilização excessiva em rostos. De ComfyUI‑WanVideoWrapper.
WanVideoAnimateEmbeds (#62) Combina o retrato de referência, imagens de pose, recortes de rosto, quadros de fundo e máscara em uma representação compacta que condiciona o Wan 2.2 Animate. Certifique-se de que width, height e num_frames correspondam à sua exportação pretendida para evitar artefatos de reamostragem. De ComfyUI‑WanVideoWrapper.
WanVideoSampler (#27) Gera os quadros finais. Use etapas mais altas e um agendador mais estável quando precisar de detalhes mais nítidos, ou uma programação mais leve para pré-visualizações rápidas. Para clipes muito longos, você pode opcionalmente introduzir controles de janela de contexto conectando WanVideoContextOptions (#110) para manter a consistência temporal através das janelas.
VHS_VideoCombine (#30) Exporta o vídeo finalizado e mistura o áudio original para que os movimentos labiais permaneçam sincronizados. A opção de cortar para o áudio mantém a duração alinhada com a trilha sonora. De ComfyUI‑VideoHelperSuite.
Extras opcionais
- Use uma referência nítida e voltada para frente com lábios neutros para a transferência de identidade mais limpa; evite maquiagem pesada ou obstruções.
- Se a segmentação perder cabelo ou acessórios, tente alternar dicas de
Sam2Segmentationentre caixas delimitadoras e pontos de quadro-chave, depois aumente ligeiramente a máscara antes de bloquear. - Lightx2v LoRA melhora a estabilidade de I2V; Wan22 Relight LoRA ajuda a igualar iluminação inconsistente. Pequenas mudanças de peso podem resolver cintilação sem exagerar no visual.
- A troca de bloco pode reduzir o desvio de identidade em tomadas longas; se os rostos amolecerem com o tempo, ative-o em
WanVideoSetBlockSwap(#50) e teste novamente. - Mantenha a resolução de trabalho proporcional à fonte para evitar distorção de aspecto; aumente apenas quando a imagem de referência for detalhada o suficiente para suportá-lo.
- Para tempos de execução capazes, habilitar a compilação do torch e atenção eficiente nos nós do wrapper pode acelerar a amostragem; veja ComfyUI‑WanVideoWrapper para orientação.
Este fluxo de trabalho Wan 2.2 Animate: Troca de Personagens & Sincronização Labial oferece transferência de movimento consistente e formas de boca síncronas com a fala com configuração mínima, tornando trocas de personagens de alta qualidade rápidas e repetíveis dentro do ComfyUI.
Agradecimentos
Este fluxo de trabalho implementa e se baseia nos seguintes trabalhos e recursos. Agradecemos @MDMZ por construir todo o fluxo de trabalho, Kijai por WAN 2.2 Animate e nós relacionados do ComfyUI, Wan-AI por ativos Wan2.2-Animate, incluindo detecção YOLOv10m, e Comfy-Org pelo modelo Wan 2.1 Clip Vision por suas contribuições e manutenção. Para detalhes autoritativos, consulte a documentação original e repositórios vinculados abaixo.
Recursos
- Tutorial de Fluxo de Trabalho
- Youtube: ComfyUI-Tutorial de @MDMZ
Nota: O uso dos modelos, conjuntos de dados e código referenciados está sujeito às respectivas licenças e termos fornecidos por seus autores e mantenedores.

