Substitua qualquer orador em câmera por seu próprio personagem enquanto mantém o movimento, expressões e formas da boca alinhados ao áudio original. Este fluxo de trabalho do ComfyUI, construído em torno do Wan 2.2 Animate: Troca de Personagens & Sincronização Labial, detecta pose corporal e quadros faciais de um vídeo de entrada, redireciona-os para uma única imagem de referência e renderiza um resultado coerente e síncrono com a fala.
O fluxo de trabalho é adequado para editores, criadores e pesquisadores que desejam substituição confiável de personagens para entrevistas, rolos, VTubing, slides ou curtas dublados. Forneça um clipe de origem e uma imagem de referência limpa; o pipeline recria a pose e articulação labial no novo personagem e mistura a trilha sonora original na exportação final.
O gráfico passa por sete grupos: carregar entradas, construir uma referência, pré-processar pose/rosto e máscaras, carregar modelos de geração, executar substituição de personagens, pré-visualizar diagnósticos, depois exportar com áudio.
Importe seu clipe de origem com VHS_LoadVideo (#63). O nó expõe largura/altura opcionais para redimensionamento e gera quadros de vídeo, áudio e contagem de quadros para uso subsequente. Mantenha o clipe aparado próximo à parte falada se desejar processamento mais rápido. O áudio é passado para o exportador, assim o vídeo final permanece alinhado com a trilha sonora original.
Forneça um retrato limpo e único do personagem-alvo. A imagem é redimensionada com ImageResizeKJv2 (#64) para corresponder à sua resolução de trabalho e armazenada como a referência canônica usada pelo CLIP Vision e o gerador. Prefira uma imagem nítida e voltada para frente sob iluminação semelhante à sua cena de origem para reduzir desvio de cor e sombreamento.
OnnxDetectionModelLoader (#178) carrega YOLO e ViTPose, depois PoseAndFaceDetection (#172) analisa cada quadro para produzir pontos-chave de corpo inteiro e recortes faciais por quadro. Sam2Segmentation (#104) cria uma máscara de primeiro plano usando caixas delimitadoras detectadas ou pontos de quadro-chave; se uma dica falhar, mude para a outra para melhor separação. A máscara é refinada com GrowMaskWithBlur (#182) e bloqueada com BlockifyMask (#108) para fornecer ao gerador uma região de assunto estável e inequívoca. Sobreposições opcionais (DrawViTPose (#173) e DrawMaskOnImage (#99)) ajudam a verificar visualmente a cobertura de pose e qualidade da máscara antes da geração.
WanVideoModelLoader (#22) carrega Wan 2.2 Animate 14B, e WanVideoVAELoader (#38) fornece o VAE. As características de identidade do retrato de referência são codificadas por CLIPVisionLoader (#71) e WanVideoClipVisionEncode (#70). Estilo e estabilidade são ajustados com WanVideoLoraSelectMulti (#171), enquanto WanVideoSetLoRAs (#48) e WanVideoSetBlockSwap (#50) aplicam LoRAs e configurações de troca de bloco ao modelo; essas ferramentas vêm da biblioteca de wrappers Wan. Veja ComfyUI‑WanVideoWrapper para detalhes de implementação.
WanVideoTextEncodeCached (#65) aceita um prompt descritivo curto se você quiser influenciar a aparência ou o humor da cena. WanVideoAnimateEmbeds (#62) funde a imagem de referência, pose por quadro, recortes de rosto, fundo e máscara em embeddings de imagem que preservam a identidade enquanto combinam movimento e formas da boca. WanVideoSampler (#27) então renderiza os quadros; seu agendador e etapas controlam o equilíbrio entre nitidez e movimento. Os quadros decodificados de WanVideoDecode (#28) são entregues a inspetores de tamanho/contagem para que você possa confirmar as dimensões antes da exportação.
Para QA rápido, o fluxo de trabalho concatena as entradas principais com ImageConcatMulti (#77, #66) para formar uma tira de comparação simples da referência, recortes faciais, visualização de pose e um quadro bruto. Use-a para verificar sanidade de pistas de identidade e formas da boca logo após um teste.
VHS_VideoCombine (#30) produz o vídeo final e mistura o áudio original para um timing perfeito. Exportadores adicionais são incluídos para que você possa salvar diagnósticos intermediários ou cortes alternativos, se necessário. Para melhores resultados em clipes mais longos, exporte um teste curto primeiro, depois itere em misturas de LoRA e máscaras antes de comprometer-se a uma renderização completa.
VHS_LoadVideo (#63)
Carrega quadros e o áudio original em um único passo. Use-o para definir uma resolução de trabalho que se ajuste ao seu orçamento de GPU e para confirmar a contagem de quadros que os nós subsequentes irão consumir. De ComfyUI‑VideoHelperSuite.
PoseAndFaceDetection (#172)
Executa YOLO e ViTPose para extrair caixas de pessoa, pontos-chave de corpo inteiro e recortes faciais por quadro. Bons pontos-chave são a espinha dorsal de uma transferência de movimento crível e são reutilizados diretamente para articulação labial. De ComfyUI‑WanAnimatePreprocess.
Sam2Segmentation (#104)
Constrói uma máscara de primeiro plano ao redor do sujeito usando caixas delimitadoras ou dicas de pontos de quadro-chave. Se cabelo ou mãos forem perdidos, alterne o tipo de dica ou expanda as configurações de desfoque/crescimento antes de bloquear. De ComfyUI‑segment‑anything‑2.
WanVideoLoraSelectMulti (#171)
Permite misturar LoRAs como Lightx2v e Wan22 Relight para equilibrar estabilidade de movimento, consistência de iluminação e força de identidade. Aumente o peso de um LoRA para mais influência, mas cuidado com a estilização excessiva em rostos. De ComfyUI‑WanVideoWrapper.
WanVideoAnimateEmbeds (#62)
Combina o retrato de referência, imagens de pose, recortes de rosto, quadros de fundo e máscara em uma representação compacta que condiciona o Wan 2.2 Animate. Certifique-se de que width, height e num_frames correspondam à sua exportação pretendida para evitar artefatos de reamostragem. De ComfyUI‑WanVideoWrapper.
WanVideoSampler (#27)
Gera os quadros finais. Use etapas mais altas e um agendador mais estável quando precisar de detalhes mais nítidos, ou uma programação mais leve para pré-visualizações rápidas. Para clipes muito longos, você pode opcionalmente introduzir controles de janela de contexto conectando WanVideoContextOptions (#110) para manter a consistência temporal através das janelas.
VHS_VideoCombine (#30)
Exporta o vídeo finalizado e mistura o áudio original para que os movimentos labiais permaneçam sincronizados. A opção de cortar para o áudio mantém a duração alinhada com a trilha sonora. De ComfyUI‑VideoHelperSuite.
Sam2Segmentation entre caixas delimitadoras e pontos de quadro-chave, depois aumente ligeiramente a máscara antes de bloquear.WanVideoSetBlockSwap (#50) e teste novamente.Este fluxo de trabalho Wan 2.2 Animate: Troca de Personagens & Sincronização Labial oferece transferência de movimento consistente e formas de boca síncronas com a fala com configuração mínima, tornando trocas de personagens de alta qualidade rápidas e repetíveis dentro do ComfyUI.
Este fluxo de trabalho implementa e se baseia nos seguintes trabalhos e recursos. Agradecemos @MDMZ por construir todo o fluxo de trabalho, Kijai por WAN 2.2 Animate e nós relacionados do ComfyUI, Wan-AI por ativos Wan2.2-Animate, incluindo detecção YOLOv10m, e Comfy-Org pelo modelo Wan 2.1 Clip Vision por suas contribuições e manutenção. Para detalhes autoritativos, consulte a documentação original e repositórios vinculados abaixo.
Nota: O uso dos modelos, conjuntos de dados e código referenciados está sujeito às respectivas licenças e termos fornecidos por seus autores e mantenedores.
RunComfy é a principal ComfyUI plataforma, oferecendo ComfyUI online ambiente e serviços, juntamente com fluxos de trabalho do ComfyUI apresentando visuais impressionantes. RunComfy também oferece AI Playground, permitindo que artistas utilizem as mais recentes ferramentas de AI para criar arte incrível.