Wan 2.2 Animate V2 em ComfyUI | Fluxo de Trabalho de Animação Guiada por Pose

ComfyUI Wan 2.2 Animate V2 Workflow

Wan 2.2 Animate V2 in ComfyUI | Pose-Driven Animation Workflow

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

ComfyUI Wan 2.2 Animate V2 Examples

Fluxo de trabalho de geração de vídeo guiado por pose Wan 2.2 Animate V2 para ComfyUI#

Wan 2.2 Animate V2 é um fluxo de trabalho de geração de vídeo guiado por pose que transforma uma única imagem de referência mais um vídeo de pose em uma animação realista que preserva a identidade. Baseia-se na primeira versão com maior fidelidade, movimento mais suave e melhor consistência temporal, tudo enquanto segue de perto o movimento de corpo inteiro e as expressões do vídeo de origem.

Este fluxo de trabalho ComfyUI é projetado para criadores que desejam resultados rápidos e confiáveis para animação de personagens, clipes de dança e narrativa guiada por performance. Combina pré-processamento robusto (pose, rosto e máscara de sujeito) com a família de modelos Wan 2.2 e LoRAs opcionais, para que você possa ajustar estilo, iluminação e tratamento de fundo com confiança.

Modelos principais no fluxo de trabalho ComfyUI Wan 2.2 Animate V2#

Wan 2.2 Animate 14B. Modelo de difusão de vídeo central que sintetiza quadros temporais consistentes a partir de embeddings multimodais. Pesos: Kijai/WanVideo_comfy_fp8_scaled (Wan22Animate).
Wan 2.1 VAE. Decodificador/encoder de vídeo latente usado pela família Wan para reconstruir quadros RGB com perda mínima. Pesos: Wan2_1_VAE_bf16.safetensors.
UMT5‑XXL encoder de texto. Codifica prompts que guiam aparência, cena e cinematografia. Pesos: umt5‑xxl‑enc‑bf16.safetensors.
CLIP Vision (ViT‑H/14). Extrai características que preservam a identidade da imagem de referência. Artigo: CLIP.
ViTPose Whole‑Body (ONNX). Estima pontos-chave densos do corpo que impulsionam a transferência de movimento. Modelos: ViTPose‑L WholeBody e ViTPose‑H WholeBody. Artigo: ViTPose.
Detector YOLOv10. Fornece caixas de pessoas para estabilizar a detecção de pose e segmentação. Exemplo: yolov10m.onnx.
Segment Anything 2. Máscaras de sujeito de alta qualidade para preservação de fundo, composição ou pré-visualizações de relighting. Repositório: facebookresearch/segment-anything-2.
LoRAs opcionais para estilo e transporte de luz. Útil para relighting e detalhe de textura nas saídas do Wan 2.2 Animate V2. Exemplos: Lightx2v e Wan22_relight.

Como usar o fluxo de trabalho ComfyUI Wan 2.2 Animate V2#

Em um nível alto, o pipeline extrai pistas de pose e rosto do vídeo de direção, codifica a identidade de uma única imagem de referência, opcionalmente isola o sujeito com uma máscara SAM 2 e então sintetiza um vídeo que corresponde ao movimento enquanto preserva a identidade. O fluxo de trabalho é organizado em quatro grupos que colaboram para produzir o resultado final e duas saídas de conveniência para QA rápido (pré-visualizações de pose e máscara).

Imagem de Referência#

Este grupo carrega sua imagem de retrato ou corpo inteiro, redimensiona-a para a resolução alvo e a disponibiliza em todo o gráfico. A imagem redimensionada é armazenada e reutilizada por Get_reference_image e pré-visualizada para que você possa avaliar rapidamente o enquadramento. As características de identidade são codificadas por WanVideoClipVisionEncode (CLIP Vision) (#70), e a mesma imagem alimenta WanVideoAnimateEmbeds (#62) como ref_images para uma preservação de identidade mais forte. Forneça uma referência clara e bem iluminada que corresponda ao tipo de sujeito no vídeo de direção para melhores resultados. Espaço acima da cabeça e mínimas oclusões ajudam o Wan 2.2 Animate V2 a se fixar na estrutura do rosto e nas roupas.

Pré-processamento#

O vídeo de direção é carregado com VHS_LoadVideo (#191), que expõe quadros, áudio, contagem de quadros e fps de origem para uso posterior. Pistas de pose e rosto são extraídas por OnnxDetectionModelLoader (#178) e PoseAndFaceDetection (#172), então visualizadas com DrawViTPose (#173) para que você possa confirmar a qualidade do rastreamento. A isolação do sujeito é tratada por Sam2Segmentation (#104), seguida por GrowMaskWithBlur (#182) e BlockifyMask (#108) para produzir uma máscara limpa e estável; um auxiliar DrawMaskOnImage (#99) pré-visualiza o matte. O grupo também padroniza largura, altura e contagem de quadros do vídeo de direção, para que o Wan 2.2 Animate V2 possa corresponder às configurações espaciais e temporais sem adivinhações. Verificações rápidas exportam como vídeos curtos: uma sobreposição de pose e uma pré-visualização de máscara para validação zero-shot.

Modelos#

WanVideoVAELoader (#38) carrega o Wan VAE e WanVideoModelLoader (#22) carrega a espinha dorsal do Wan 2.2 Animate. LoRAs opcionais são escolhidas em WanVideoLoraSelectMulti (#171) e aplicadas via WanVideoSetLoRAs (#48); WanVideoBlockSwap (#51) pode ser ativado através de WanVideoSetBlockSwap (#50) para ajustes arquitetônicos que afetam o estilo e a fidelidade. Prompts são codificados por WanVideoTextEncodeCached (#65), enquanto WanVideoClipVisionEncode (#70) transforma a imagem de referência em embeddings de identidade robustos. WanVideoAnimateEmbeds (#62) funde as características CLIP, imagem de referência, imagens de pose, cortes de rosto, quadros de fundo opcionais, a máscara SAM 2 e a resolução e contagem de quadros escolhidas em um único embedding de animação. Esse feed impulsiona WanVideoSampler (#27), que sintetiza vídeo latente consistente com seu prompt, identidade e pistas de movimento, e WanVideoDecode (#28) converte latentes de volta para quadros RGB.

Colagem de Resultado#

Para ajudar a comparar saídas, o fluxo de trabalho monta uma simples lado a lado: o vídeo gerado ao lado de uma tira vertical que mostra a imagem de referência, cortes de rosto, sobreposição de pose e um quadro do vídeo de direção. ImageConcatMulti (#77, #66) constrói a colagem visual, então VHS_VideoCombine (#30) renderiza um mp4 “Compare”. A saída final limpa é renderizada por VHS_VideoCombine (#189), que também carrega o áudio do driver para cortes de revisão rápida. Essas exportações facilitam julgar quão bem o Wan 2.2 Animate V2 seguiu o movimento, preservou a identidade e manteve o fundo pretendido.

Nós principais no fluxo de trabalho ComfyUI Wan 2.2 Animate V2#

VHS_LoadVideo (#191) Carrega o vídeo de direção e expõe quadros, áudio e metadados usados em todo o gráfico. Mantenha o sujeito totalmente visível com mínimo desfoque de movimento para um rastreamento de pontos-chave mais forte. Se você deseja testes mais curtos, limite o número de quadros carregados; mantenha o fps de origem consistente a jusante para evitar desincronização de áudio na combinação final.

PoseAndFaceDetection (#172) Executa YOLO e ViTPose para produzir pontos-chave de corpo inteiro e cortes de rosto que orientam diretamente a transferência de movimento. Alimente-o com as imagens do carregador e a largura e altura padronizadas; a entrada opcional retarget_image permite adaptar poses a um enquadramento diferente quando necessário. Se a sobreposição de pose parecer ruidosa, considere um modelo ViTPose de maior qualidade e certifique-se de que o sujeito não esteja fortemente ocluído. Referência: ComfyUI‑WanAnimatePreprocess.

Sam2Segmentation (#104) Gera uma máscara de sujeito que pode preservar o fundo ou localizar relighting no Wan 2.2 Animate V2. Você pode usar as caixas delimitadoras detectadas de PoseAndFaceDetection ou desenhar pontos positivos rápidos, se necessário, para refinar o matte. Emparelhe com GrowMaskWithBlur para bordas mais limpas em movimento rápido e reveja o resultado com a exportação de pré-visualização da máscara. Referência: Segment Anything 2.

WanVideoClipVisionEncode (#70) Codifica a imagem de referência com CLIP Vision para capturar pistas de identidade como estrutura facial, cabelo e roupas. Você pode fazer a média de várias imagens de referência para estabilizar a identidade ou usar uma imagem negativa para suprimir características indesejadas. Cortes centralizados com iluminação consistente ajudam a produzir embeddings mais fortes.

WanVideoAnimateEmbeds (#62) Funde características de identidade, imagens de pose, cortes de rosto, quadros de fundo opcionais e a máscara SAM 2 em um único embedding de animação. Alinhe width, height e num_frames com seu vídeo de direção para menos artefatos. Se você vir deriva de fundo, forneça quadros de fundo limpos e uma máscara sólida; se o rosto derivar, certifique-se de que cortes de rosto estejam presentes e bem iluminados.

WanVideoSampler (#27) Produz os latentes de vídeo reais guiados pelo seu prompt, LoRAs e o embedding de animação. Para clipes longos, escolha entre uma estratégia de janela deslizante ou as opções de contexto do modelo; combine a janela com o comprimento do clipe para equilibrar a nitidez do movimento e a consistência de longo alcance. Ajuste o agendador e a força de orientação para equilibrar fidelidade, aderência ao estilo e suavidade de movimento, e considere ativar a troca de bloco se sua pilha LoRA se beneficiar disso.

Extras Opcionais#

Comece com um clipe de driver limpo: câmera estável, iluminação simples e mínima oclusão dão a Wan 2.2 Animate V2 a melhor chance de rastrear o movimento com clareza.
Use uma referência que corresponda à roupa e enquadramento alvo; evite ângulos extremos ou filtros pesados que entrem em conflito com seu prompt ou LoRAs.
Preserve ou substitua fundos com a máscara SAM 2; ao compor, mantenha as bordas suficientemente suaves para evitar halo em movimento rápido.
Mantenha o fps consistente do carregamento à exportação para manter a sincronização labial e o alinhamento do ritmo ao transferir áudio.
Para iteração rápida, teste primeiro um segmento curto, depois estenda a faixa de quadros uma vez que a pose, identidade e iluminação pareçam corretas.

Recursos úteis usados neste fluxo de trabalho:

Nós de pré-processamento: kijai/ComfyUI‑WanAnimatePreprocess
Modelos ViTPose ONNX: ViTPose‑L, ViTPose‑H model e data
Detector YOLOv10: yolov10m.onnx
Pesos Wan 2.2 Animate 14B: Wan22Animate
LoRAs: Lightx2v, Wan22_relight

Agradecimentos#

Este fluxo de trabalho implementa e se baseia nos seguintes trabalhos e recursos. Agradecemos a equipe do Benji’s AI Playground pelo fluxo de trabalho e à equipe Wan pelo modelo Wan 2.2 Animate V2 por suas contribuições e manutenção. Para detalhes autoritativos, consulte a documentação original e os repositórios vinculados abaixo.

Recursos#

Equipe Wan/Wan 2.2 Animate V2
- Documentos / Notas de Lançamento: YouTube @Benji’s AI Playground

Nota: O uso dos modelos, conjuntos de dados e código referenciados está sujeito às respectivas licenças e termos fornecidos por seus autores e mantenedores.

Want More ComfyUI Workflows?

Wan 2.2 | Líder em Geração de Vídeo Open-Source

Disponível agora! Melhor precisão + movimento mais suave.

Wan 2.2 FLF2V | Geração de Vídeo Quadro-Inicial-Final

Gere vídeos suaves a partir de um quadro inicial e final usando Wan 2.2 FLF2V.

Wan 2.2 + Lightx2v V2 | Ultra Rápido I2V & T2V

Configuração Dual Light LoRA, 4X mais rápida.

Wan 2.2 Lightning T2V I2V | 4 Etapas Ultra Rápido

Wan 2.2 agora 20x mais rápido! T2V + I2V em 4 etapas.

Wan2.2 Animate | Foto para Vídeo de Movimento Realista

Transforme imagens em personagens realistas e em movimento com movimento natural de corpo e rosto.

Sonic | Animação de Retratos com Sincronização Labial

Sonic oferece sincronização labial avançada e dirigida por áudio para retratos com animação de alta qualidade.

Reallusion AI Render | Coleção de Fluxos de Trabalho de 3D para ComfyUI

ComfyUI + Reallusion = Velocidade, Acessibilidade e Facilidade para visuais 3D

LTX 2.3 VBVR | Gerador de Vídeo Sensível ao Contexto

Adiciona lógica e fluxo a cada sequência de vídeo gerada.

Suporte

Recursos

Legal

RunComfy

RunComfy é a principal ComfyUI plataforma, oferecendo ComfyUI online ambiente e serviços, juntamente com fluxos de trabalho do ComfyUI apresentando visuais impressionantes. RunComfy também oferece AI Models, permitindo que artistas utilizem as mais recentes ferramentas de AI para criar arte incrível.

Wan 2.2 Animate V2 | Gerador de Vídeo de Pose Realista