Fluxo de trabalho de geração de vídeo guiado por pose Wan 2.2 Animate V2 para ComfyUI
Wan 2.2 Animate V2 é um fluxo de trabalho de geração de vídeo guiado por pose que transforma uma única imagem de referência mais um vídeo de pose em uma animação realista que preserva a identidade. Baseia-se na primeira versão com maior fidelidade, movimento mais suave e melhor consistência temporal, tudo enquanto segue de perto o movimento de corpo inteiro e as expressões do vídeo de origem.
Este fluxo de trabalho ComfyUI é projetado para criadores que desejam resultados rápidos e confiáveis para animação de personagens, clipes de dança e narrativa guiada por performance. Combina pré-processamento robusto (pose, rosto e máscara de sujeito) com a família de modelos Wan 2.2 e LoRAs opcionais, para que você possa ajustar estilo, iluminação e tratamento de fundo com confiança.
Modelos principais no fluxo de trabalho ComfyUI Wan 2.2 Animate V2
- Wan 2.2 Animate 14B. Modelo de difusão de vídeo central que sintetiza quadros temporais consistentes a partir de embeddings multimodais. Pesos: Kijai/WanVideo_comfy_fp8_scaled (Wan22Animate).
- Wan 2.1 VAE. Decodificador/encoder de vídeo latente usado pela família Wan para reconstruir quadros RGB com perda mínima. Pesos: Wan2_1_VAE_bf16.safetensors.
- UMT5‑XXL encoder de texto. Codifica prompts que guiam aparência, cena e cinematografia. Pesos: umt5‑xxl‑enc‑bf16.safetensors.
- CLIP Vision (ViT‑H/14). Extrai características que preservam a identidade da imagem de referência. Artigo: CLIP.
- ViTPose Whole‑Body (ONNX). Estima pontos-chave densos do corpo que impulsionam a transferência de movimento. Modelos: ViTPose‑L WholeBody e ViTPose‑H WholeBody. Artigo: ViTPose.
- Detector YOLOv10. Fornece caixas de pessoas para estabilizar a detecção de pose e segmentação. Exemplo: yolov10m.onnx.
- Segment Anything 2. Máscaras de sujeito de alta qualidade para preservação de fundo, composição ou pré-visualizações de relighting. Repositório: facebookresearch/segment-anything-2.
- LoRAs opcionais para estilo e transporte de luz. Útil para relighting e detalhe de textura nas saídas do Wan 2.2 Animate V2. Exemplos: Lightx2v e Wan22_relight.
Como usar o fluxo de trabalho ComfyUI Wan 2.2 Animate V2
Em um nível alto, o pipeline extrai pistas de pose e rosto do vídeo de direção, codifica a identidade de uma única imagem de referência, opcionalmente isola o sujeito com uma máscara SAM 2 e então sintetiza um vídeo que corresponde ao movimento enquanto preserva a identidade. O fluxo de trabalho é organizado em quatro grupos que colaboram para produzir o resultado final e duas saídas de conveniência para QA rápido (pré-visualizações de pose e máscara).
Imagem de Referência
Este grupo carrega sua imagem de retrato ou corpo inteiro, redimensiona-a para a resolução alvo e a disponibiliza em todo o gráfico. A imagem redimensionada é armazenada e reutilizada por Get_reference_image e pré-visualizada para que você possa avaliar rapidamente o enquadramento. As características de identidade são codificadas por WanVideoClipVisionEncode (CLIP Vision) (#70), e a mesma imagem alimenta WanVideoAnimateEmbeds (#62) como ref_images para uma preservação de identidade mais forte. Forneça uma referência clara e bem iluminada que corresponda ao tipo de sujeito no vídeo de direção para melhores resultados. Espaço acima da cabeça e mínimas oclusões ajudam o Wan 2.2 Animate V2 a se fixar na estrutura do rosto e nas roupas.
Pré-processamento
O vídeo de direção é carregado com VHS_LoadVideo (#191), que expõe quadros, áudio, contagem de quadros e fps de origem para uso posterior. Pistas de pose e rosto são extraídas por OnnxDetectionModelLoader (#178) e PoseAndFaceDetection (#172), então visualizadas com DrawViTPose (#173) para que você possa confirmar a qualidade do rastreamento. A isolação do sujeito é tratada por Sam2Segmentation (#104), seguida por GrowMaskWithBlur (#182) e BlockifyMask (#108) para produzir uma máscara limpa e estável; um auxiliar DrawMaskOnImage (#99) pré-visualiza o matte. O grupo também padroniza largura, altura e contagem de quadros do vídeo de direção, para que o Wan 2.2 Animate V2 possa corresponder às configurações espaciais e temporais sem adivinhações. Verificações rápidas exportam como vídeos curtos: uma sobreposição de pose e uma pré-visualização de máscara para validação zero-shot.
Modelos
WanVideoVAELoader (#38) carrega o Wan VAE e WanVideoModelLoader (#22) carrega a espinha dorsal do Wan 2.2 Animate. LoRAs opcionais são escolhidas em WanVideoLoraSelectMulti (#171) e aplicadas via WanVideoSetLoRAs (#48); WanVideoBlockSwap (#51) pode ser ativado através de WanVideoSetBlockSwap (#50) para ajustes arquitetônicos que afetam o estilo e a fidelidade. Prompts são codificados por WanVideoTextEncodeCached (#65), enquanto WanVideoClipVisionEncode (#70) transforma a imagem de referência em embeddings de identidade robustos. WanVideoAnimateEmbeds (#62) funde as características CLIP, imagem de referência, imagens de pose, cortes de rosto, quadros de fundo opcionais, a máscara SAM 2 e a resolução e contagem de quadros escolhidas em um único embedding de animação. Esse feed impulsiona WanVideoSampler (#27), que sintetiza vídeo latente consistente com seu prompt, identidade e pistas de movimento, e WanVideoDecode (#28) converte latentes de volta para quadros RGB.
Colagem de Resultado
Para ajudar a comparar saídas, o fluxo de trabalho monta uma simples lado a lado: o vídeo gerado ao lado de uma tira vertical que mostra a imagem de referência, cortes de rosto, sobreposição de pose e um quadro do vídeo de direção. ImageConcatMulti (#77, #66) constrói a colagem visual, então VHS_VideoCombine (#30) renderiza um mp4 “Compare”. A saída final limpa é renderizada por VHS_VideoCombine (#189), que também carrega o áudio do driver para cortes de revisão rápida. Essas exportações facilitam julgar quão bem o Wan 2.2 Animate V2 seguiu o movimento, preservou a identidade e manteve o fundo pretendido.
Nós principais no fluxo de trabalho ComfyUI Wan 2.2 Animate V2
VHS_LoadVideo (#191) Carrega o vídeo de direção e expõe quadros, áudio e metadados usados em todo o gráfico. Mantenha o sujeito totalmente visível com mínimo desfoque de movimento para um rastreamento de pontos-chave mais forte. Se você deseja testes mais curtos, limite o número de quadros carregados; mantenha o fps de origem consistente a jusante para evitar desincronização de áudio na combinação final.
PoseAndFaceDetection (#172) Executa YOLO e ViTPose para produzir pontos-chave de corpo inteiro e cortes de rosto que orientam diretamente a transferência de movimento. Alimente-o com as imagens do carregador e a largura e altura padronizadas; a entrada opcional retarget_image permite adaptar poses a um enquadramento diferente quando necessário. Se a sobreposição de pose parecer ruidosa, considere um modelo ViTPose de maior qualidade e certifique-se de que o sujeito não esteja fortemente ocluído. Referência: ComfyUI‑WanAnimatePreprocess.
Sam2Segmentation (#104) Gera uma máscara de sujeito que pode preservar o fundo ou localizar relighting no Wan 2.2 Animate V2. Você pode usar as caixas delimitadoras detectadas de PoseAndFaceDetection ou desenhar pontos positivos rápidos, se necessário, para refinar o matte. Emparelhe com GrowMaskWithBlur para bordas mais limpas em movimento rápido e reveja o resultado com a exportação de pré-visualização da máscara. Referência: Segment Anything 2.
WanVideoClipVisionEncode (#70) Codifica a imagem de referência com CLIP Vision para capturar pistas de identidade como estrutura facial, cabelo e roupas. Você pode fazer a média de várias imagens de referência para estabilizar a identidade ou usar uma imagem negativa para suprimir características indesejadas. Cortes centralizados com iluminação consistente ajudam a produzir embeddings mais fortes.
WanVideoAnimateEmbeds (#62) Funde características de identidade, imagens de pose, cortes de rosto, quadros de fundo opcionais e a máscara SAM 2 em um único embedding de animação. Alinhe width, height e num_frames com seu vídeo de direção para menos artefatos. Se você vir deriva de fundo, forneça quadros de fundo limpos e uma máscara sólida; se o rosto derivar, certifique-se de que cortes de rosto estejam presentes e bem iluminados.
WanVideoSampler (#27) Produz os latentes de vídeo reais guiados pelo seu prompt, LoRAs e o embedding de animação. Para clipes longos, escolha entre uma estratégia de janela deslizante ou as opções de contexto do modelo; combine a janela com o comprimento do clipe para equilibrar a nitidez do movimento e a consistência de longo alcance. Ajuste o agendador e a força de orientação para equilibrar fidelidade, aderência ao estilo e suavidade de movimento, e considere ativar a troca de bloco se sua pilha LoRA se beneficiar disso.
Extras Opcionais
- Comece com um clipe de driver limpo: câmera estável, iluminação simples e mínima oclusão dão a Wan 2.2 Animate V2 a melhor chance de rastrear o movimento com clareza.
- Use uma referência que corresponda à roupa e enquadramento alvo; evite ângulos extremos ou filtros pesados que entrem em conflito com seu prompt ou LoRAs.
- Preserve ou substitua fundos com a máscara SAM 2; ao compor, mantenha as bordas suficientemente suaves para evitar halo em movimento rápido.
- Mantenha o fps consistente do carregamento à exportação para manter a sincronização labial e o alinhamento do ritmo ao transferir áudio.
- Para iteração rápida, teste primeiro um segmento curto, depois estenda a faixa de quadros uma vez que a pose, identidade e iluminação pareçam corretas.
Recursos úteis usados neste fluxo de trabalho:
- Nós de pré-processamento: kijai/ComfyUI‑WanAnimatePreprocess
- Modelos ViTPose ONNX: ViTPose‑L, ViTPose‑H model e data
- Detector YOLOv10: yolov10m.onnx
- Pesos Wan 2.2 Animate 14B: Wan22Animate
- LoRAs: Lightx2v, Wan22_relight
Agradecimentos
Este fluxo de trabalho implementa e se baseia nos seguintes trabalhos e recursos. Agradecemos a equipe do Benji’s AI Playground pelo fluxo de trabalho e à equipe Wan pelo modelo Wan 2.2 Animate V2 por suas contribuições e manutenção. Para detalhes autoritativos, consulte a documentação original e os repositórios vinculados abaixo.
Recursos
- Equipe Wan/Wan 2.2 Animate V2
- Documentos / Notas de Lançamento: YouTube @Benji’s AI Playground
Nota: O uso dos modelos, conjuntos de dados e código referenciados está sujeito às respectivas licenças e termos fornecidos por seus autores e mantenedores.

