Wan 2.2 Animate V2 é um fluxo de trabalho de geração de vídeo guiado por pose que transforma uma única imagem de referência mais um vídeo de pose motriz em uma animação realista e preservadora de identidade. Baseia-se na primeira versão com maior fidelidade, movimento mais suave e melhor consistência temporal, tudo enquanto segue de perto o movimento de corpo inteiro e expressões do vídeo de origem.
Este fluxo de trabalho ComfyUI é projetado para criadores que desejam resultados rápidos e confiáveis para animação de personagens, clipes de dança e narração orientada por performance. Combina pré-processamento robusto (pose, rosto e mascaramento de sujeito) com a família de modelos Wan 2.2 e LoRAs opcionais, para que você possa ajustar o estilo, iluminação e tratamento de fundo com confiança.
Em um nível alto, o pipeline extrai dicas de pose e rosto do vídeo motriz, codifica a identidade a partir de uma única imagem de referência, opcionalmente isola o sujeito com uma máscara SAM 2 e, em seguida, sintetiza um vídeo que corresponde ao movimento enquanto preserva a identidade. O fluxo de trabalho está organizado em quatro grupos que colaboram para produzir o resultado final e duas saídas de conveniência para QA rápido (pré-visualizações de pose e máscara).
Este grupo carrega sua imagem de retrato ou de corpo inteiro, redimensiona-a para a resolução alvo e a disponibiliza em todo o gráfico. A imagem redimensionada é armazenada e reutilizada por Get_reference_image
e pré-visualizada para que você possa rapidamente avaliar o enquadramento. As características de identidade são codificadas por WanVideoClipVisionEncode
(CLIP Vision
) (#70), e a mesma imagem alimenta WanVideoAnimateEmbeds
(#62) como ref_images
para uma preservação de identidade mais forte. Forneça uma referência clara e bem iluminada que corresponda ao tipo de sujeito no vídeo motriz para melhores resultados. Espaço para a cabeça e oclusões mínimas ajudam o Wan 2.2 Animate V2 a se fixar na estrutura facial e na roupa.
O vídeo motriz é carregado com VHS_LoadVideo
(#191), que expõe quadros, áudio, contagem de quadros e fps de origem para uso posterior. Dicas de pose e rosto são extraídas por OnnxDetectionModelLoader
(#178) e PoseAndFaceDetection
(#172), então visualizadas com DrawViTPose
(#173) para que você possa confirmar a qualidade do rastreamento. A isolação do sujeito é tratada por Sam2Segmentation
(#104), seguida por GrowMaskWithBlur
(#182) e BlockifyMask
(#108) para produzir uma máscara limpa e estável; um ajudante DrawMaskOnImage
(#99) pré-visualiza o matte. O grupo também padroniza largura, altura e contagem de quadros do vídeo motriz, para que o Wan 2.2 Animate V2 possa corresponder às configurações espaciais e temporais sem adivinhações. Verificações rápidas exportam como vídeos curtos: uma sobreposição de pose e uma pré-visualização de máscara para validação zero-shot.
WanVideoVAELoader
(#38) carrega o Wan VAE e WanVideoModelLoader
(#22) carrega a base Wan 2.2 Animate. LoRAs opcionais são escolhidos em WanVideoLoraSelectMulti
(#171) e aplicados via WanVideoSetLoRAs
(#48); WanVideoBlockSwap
(#51) pode ser ativado por WanVideoSetBlockSwap
(#50) para ajustes arquitetônicos que afetam estilo e fidelidade. Prompts são codificados por WanVideoTextEncodeCached
(#65), enquanto WanVideoClipVisionEncode
(#70) transforma a imagem de referência em embeddings de identidade robustos. WanVideoAnimateEmbeds
(#62) funde as características CLIP, imagem de referência, imagens de pose, recortes de rosto, quadros de fundo opcionais, a máscara SAM 2 e a resolução e contagem de quadros escolhidas em um único embedding de animação. Esse feed impulsiona WanVideoSampler
(#27), que sintetiza vídeo latente consistente com seu prompt, identidade e dicas de movimento, e WanVideoDecode
(#28) converte latentes de volta para quadros RGB.
Para ajudar a comparar saídas, o fluxo de trabalho monta uma simples comparação lado a lado: o vídeo gerado ao lado de uma faixa vertical que mostra a imagem de referência, recortes de rosto, sobreposição de pose e um quadro do vídeo motriz. ImageConcatMulti
(#77, #66) constrói a colagem visual, então VHS_VideoCombine
(#30) renderiza um mp4 "Compare". A saída limpa final é renderizada por VHS_VideoCombine
(#189), que também carrega o áudio do motriz para cortes de revisão rápida. Essas exportações facilitam o julgamento de como bem o Wan 2.2 Animate V2 seguiu o movimento, preservou a identidade e manteve o fundo pretendido.
VHS_LoadVideo
(#191)
Carrega o vídeo motriz e expõe quadros, áudio e metadados usados em todo o gráfico. Mantenha o sujeito totalmente visível com desfoque de movimento mínimo para rastreamento de pontos-chave mais forte. Se você quiser testes mais curtos, limite o número de quadros carregados; mantenha o fps de origem consistente a jusante para evitar desincronização de áudio na combinação final.
PoseAndFaceDetection
(#172)
Executa YOLO e ViTPose para produzir pontos-chave de corpo inteiro e recortes de rosto que guiam diretamente a transferência de movimento. Alimente-o com as imagens do carregador e a largura e altura padronizadas; a entrada opcional retarget_image
permite adaptar poses para um enquadramento diferente quando necessário. Se a sobreposição de pose parecer ruidosa, considere um modelo ViTPose de maior qualidade e certifique-se de que o sujeito não esteja fortemente ocluído. Referência: ComfyUI‑WanAnimatePreprocess.
Sam2Segmentation
(#104)
Gera uma máscara de sujeito que pode preservar o fundo ou localizar relighting no Wan 2.2 Animate V2. Você pode usar as caixas delimitadoras detectadas de PoseAndFaceDetection
ou desenhar pontos positivos rápidos, se necessário, para refinar o matte. Emparelhe-o com GrowMaskWithBlur
para bordas mais limpas em movimentos rápidos e revise o resultado com a exportação de pré-visualização de máscara. Referência: Segment Anything 2.
WanVideoClipVisionEncode
(#70)
Codifica a imagem de referência com CLIP Vision para capturar dicas de identidade como estrutura facial, cabelo e roupas. Você pode fazer a média de várias imagens de referência para estabilizar a identidade ou usar uma imagem negativa para suprimir características indesejadas. Recortes centralizados com iluminação consistente ajudam a produzir embeddings mais fortes.
WanVideoAnimateEmbeds
(#62)
Funde características de identidade, imagens de pose, recortes de rosto, quadros de fundo opcionais e a máscara SAM 2 em um único embedding de animação. Alinhe width
, height
e num_frames
com seu vídeo motriz para menos artefatos. Se você vir deriva de fundo, forneça quadros de fundo limpos e uma máscara sólida; se o rosto derivar, certifique-se de que os recortes de rosto estejam presentes e bem iluminados.
WanVideoSampler
(#27)
Produz os latentes de vídeo reais guiados por seu prompt, LoRAs e o embedding de animação. Para clipes longos, escolha entre uma estratégia de janela deslizante ou as opções de contexto do modelo; combine o enquadramento com o comprimento do clipe para equilibrar a nitidez do movimento e a consistência de longo alcance. Ajuste o agendador e a força de orientação para equilibrar fidelidade, aderência ao estilo e suavidade de movimento, e considere habilitar a troca de bloco se sua pilha LoRA se beneficiar disso.
Recursos úteis utilizados neste fluxo de trabalho:
Este fluxo de trabalho implementa e se baseia nos seguintes trabalhos e recursos. Agradecemos ao Benji’s AI Playground pelo fluxo de trabalho e à equipe Wan pelo modelo Wan 2.2 Animate V2 por suas contribuições e manutenção. Para detalhes autoritativos, consulte a documentação original e os repositórios vinculados abaixo.
Nota: O uso dos modelos, conjuntos de dados e códigos referenciados está sujeito às respectivas licenças e termos fornecidos por seus autores e mantenedores.
RunComfy é a principal ComfyUI plataforma, oferecendo ComfyUI online ambiente e serviços, juntamente com fluxos de trabalho do ComfyUI apresentando visuais impressionantes. RunComfy também oferece AI Playground, permitindo que artistas utilizem as mais recentes ferramentas de AI para criar arte incrível.