Wan 2.2 Animate V2 é um fluxo de trabalho de geração de vídeo guiado por pose que transforma uma única imagem de referência mais um vídeo de pose em uma animação realista que preserva a identidade. Baseia-se na primeira versão com maior fidelidade, movimento mais suave e melhor consistência temporal, tudo enquanto segue de perto o movimento de corpo inteiro e as expressões do vídeo de origem.
Este fluxo de trabalho ComfyUI é projetado para criadores que desejam resultados rápidos e confiáveis para animação de personagens, clipes de dança e narrativa guiada por performance. Combina pré-processamento robusto (pose, rosto e máscara de sujeito) com a família de modelos Wan 2.2 e LoRAs opcionais, para que você possa ajustar estilo, iluminação e tratamento de fundo com confiança.
Em um nível alto, o pipeline extrai pistas de pose e rosto do vídeo de direção, codifica a identidade de uma única imagem de referência, opcionalmente isola o sujeito com uma máscara SAM 2 e então sintetiza um vídeo que corresponde ao movimento enquanto preserva a identidade. O fluxo de trabalho é organizado em quatro grupos que colaboram para produzir o resultado final e duas saídas de conveniência para QA rápido (pré-visualizações de pose e máscara).
Este grupo carrega sua imagem de retrato ou corpo inteiro, redimensiona-a para a resolução alvo e a disponibiliza em todo o gráfico. A imagem redimensionada é armazenada e reutilizada por Get_reference_image e pré-visualizada para que você possa avaliar rapidamente o enquadramento. As características de identidade são codificadas por WanVideoClipVisionEncode (CLIP Vision) (#70), e a mesma imagem alimenta WanVideoAnimateEmbeds (#62) como ref_images para uma preservação de identidade mais forte. Forneça uma referência clara e bem iluminada que corresponda ao tipo de sujeito no vídeo de direção para melhores resultados. Espaço acima da cabeça e mínimas oclusões ajudam o Wan 2.2 Animate V2 a se fixar na estrutura do rosto e nas roupas.
O vídeo de direção é carregado com VHS_LoadVideo (#191), que expõe quadros, áudio, contagem de quadros e fps de origem para uso posterior. Pistas de pose e rosto são extraídas por OnnxDetectionModelLoader (#178) e PoseAndFaceDetection (#172), então visualizadas com DrawViTPose (#173) para que você possa confirmar a qualidade do rastreamento. A isolação do sujeito é tratada por Sam2Segmentation (#104), seguida por GrowMaskWithBlur (#182) e BlockifyMask (#108) para produzir uma máscara limpa e estável; um auxiliar DrawMaskOnImage (#99) pré-visualiza o matte. O grupo também padroniza largura, altura e contagem de quadros do vídeo de direção, para que o Wan 2.2 Animate V2 possa corresponder às configurações espaciais e temporais sem adivinhações. Verificações rápidas exportam como vídeos curtos: uma sobreposição de pose e uma pré-visualização de máscara para validação zero-shot.
WanVideoVAELoader (#38) carrega o Wan VAE e WanVideoModelLoader (#22) carrega a espinha dorsal do Wan 2.2 Animate. LoRAs opcionais são escolhidas em WanVideoLoraSelectMulti (#171) e aplicadas via WanVideoSetLoRAs (#48); WanVideoBlockSwap (#51) pode ser ativado através de WanVideoSetBlockSwap (#50) para ajustes arquitetônicos que afetam o estilo e a fidelidade. Prompts são codificados por WanVideoTextEncodeCached (#65), enquanto WanVideoClipVisionEncode (#70) transforma a imagem de referência em embeddings de identidade robustos. WanVideoAnimateEmbeds (#62) funde as características CLIP, imagem de referência, imagens de pose, cortes de rosto, quadros de fundo opcionais, a máscara SAM 2 e a resolução e contagem de quadros escolhidas em um único embedding de animação. Esse feed impulsiona WanVideoSampler (#27), que sintetiza vídeo latente consistente com seu prompt, identidade e pistas de movimento, e WanVideoDecode (#28) converte latentes de volta para quadros RGB.
Para ajudar a comparar saídas, o fluxo de trabalho monta uma simples lado a lado: o vídeo gerado ao lado de uma tira vertical que mostra a imagem de referência, cortes de rosto, sobreposição de pose e um quadro do vídeo de direção. ImageConcatMulti (#77, #66) constrói a colagem visual, então VHS_VideoCombine (#30) renderiza um mp4 “Compare”. A saída final limpa é renderizada por VHS_VideoCombine (#189), que também carrega o áudio do driver para cortes de revisão rápida. Essas exportações facilitam julgar quão bem o Wan 2.2 Animate V2 seguiu o movimento, preservou a identidade e manteve o fundo pretendido.
VHS_LoadVideo (#191)
Carrega o vídeo de direção e expõe quadros, áudio e metadados usados em todo o gráfico. Mantenha o sujeito totalmente visível com mínimo desfoque de movimento para um rastreamento de pontos-chave mais forte. Se você deseja testes mais curtos, limite o número de quadros carregados; mantenha o fps de origem consistente a jusante para evitar desincronização de áudio na combinação final.
PoseAndFaceDetection (#172)
Executa YOLO e ViTPose para produzir pontos-chave de corpo inteiro e cortes de rosto que orientam diretamente a transferência de movimento. Alimente-o com as imagens do carregador e a largura e altura padronizadas; a entrada opcional retarget_image permite adaptar poses a um enquadramento diferente quando necessário. Se a sobreposição de pose parecer ruidosa, considere um modelo ViTPose de maior qualidade e certifique-se de que o sujeito não esteja fortemente ocluído. Referência: ComfyUI‑WanAnimatePreprocess.
Sam2Segmentation (#104)
Gera uma máscara de sujeito que pode preservar o fundo ou localizar relighting no Wan 2.2 Animate V2. Você pode usar as caixas delimitadoras detectadas de PoseAndFaceDetection ou desenhar pontos positivos rápidos, se necessário, para refinar o matte. Emparelhe com GrowMaskWithBlur para bordas mais limpas em movimento rápido e reveja o resultado com a exportação de pré-visualização da máscara. Referência: Segment Anything 2.
WanVideoClipVisionEncode (#70)
Codifica a imagem de referência com CLIP Vision para capturar pistas de identidade como estrutura facial, cabelo e roupas. Você pode fazer a média de várias imagens de referência para estabilizar a identidade ou usar uma imagem negativa para suprimir características indesejadas. Cortes centralizados com iluminação consistente ajudam a produzir embeddings mais fortes.
WanVideoAnimateEmbeds (#62)
Funde características de identidade, imagens de pose, cortes de rosto, quadros de fundo opcionais e a máscara SAM 2 em um único embedding de animação. Alinhe width, height e num_frames com seu vídeo de direção para menos artefatos. Se você vir deriva de fundo, forneça quadros de fundo limpos e uma máscara sólida; se o rosto derivar, certifique-se de que cortes de rosto estejam presentes e bem iluminados.
WanVideoSampler (#27)
Produz os latentes de vídeo reais guiados pelo seu prompt, LoRAs e o embedding de animação. Para clipes longos, escolha entre uma estratégia de janela deslizante ou as opções de contexto do modelo; combine a janela com o comprimento do clipe para equilibrar a nitidez do movimento e a consistência de longo alcance. Ajuste o agendador e a força de orientação para equilibrar fidelidade, aderência ao estilo e suavidade de movimento, e considere ativar a troca de bloco se sua pilha LoRA se beneficiar disso.
Recursos úteis usados neste fluxo de trabalho:
Este fluxo de trabalho implementa e se baseia nos seguintes trabalhos e recursos. Agradecemos a equipe do Benji’s AI Playground pelo fluxo de trabalho e à equipe Wan pelo modelo Wan 2.2 Animate V2 por suas contribuições e manutenção. Para detalhes autoritativos, consulte a documentação original e os repositórios vinculados abaixo.
Nota: O uso dos modelos, conjuntos de dados e código referenciados está sujeito às respectivas licenças e termos fornecidos por seus autores e mantenedores.
RunComfy é a principal ComfyUI plataforma, oferecendo ComfyUI online ambiente e serviços, juntamente com fluxos de trabalho do ComfyUI apresentando visuais impressionantes. RunComfy também oferece AI Playground, permitindo que artistas utilizem as mais recentes ferramentas de AI para criar arte incrível.