logo
RunComfy
ComfyUIPlaygroundPricing
discord logo
ComfyUI>Fluxos de Trabalho>Wan 2.2 Animate V2 | Gerador de Vídeo de Pose Realista

Wan 2.2 Animate V2 | Gerador de Vídeo de Pose Realista

Workflow Name: RunComfy/Wan-2-2-Animate-V2
Workflow ID: 0000...1300
Este fluxo de trabalho aprimorado permite transformar imagens de referência e vídeos de pose em animações realistas de corpo inteiro. Com realismo e fluidez de movimento melhorados, captura expressões e dinâmicas corporais com precisão. A consistência temporal aprimorada garante resultados cinematográficos todas as vezes. Ideal para animadores, contadores de histórias e criadores de conteúdo que buscam movimento natural. Você pode criar cenas de dança, renderizações de performance ou clipes realistas de personagens de forma eficiente. Experimente um controle de movimento mais suave e saídas de alta fidelidade como nunca antes.

Fluxo de trabalho de geração de vídeo guiado por pose Wan 2.2 Animate V2 para ComfyUI

Wan 2.2 Animate V2 é um fluxo de trabalho de geração de vídeo guiado por pose que transforma uma única imagem de referência mais um vídeo de pose motriz em uma animação realista e preservadora de identidade. Baseia-se na primeira versão com maior fidelidade, movimento mais suave e melhor consistência temporal, tudo enquanto segue de perto o movimento de corpo inteiro e expressões do vídeo de origem.

Este fluxo de trabalho ComfyUI é projetado para criadores que desejam resultados rápidos e confiáveis para animação de personagens, clipes de dança e narração orientada por performance. Combina pré-processamento robusto (pose, rosto e mascaramento de sujeito) com a família de modelos Wan 2.2 e LoRAs opcionais, para que você possa ajustar o estilo, iluminação e tratamento de fundo com confiança.

Modelos principais no fluxo de trabalho ComfyUI Wan 2.2 Animate V2

  • Wan 2.2 Animate 14B. Modelo de difusão de vídeo central que sintetiza quadros temporalmente consistentes a partir de embeddings multimodais. Pesos: Kijai/WanVideo_comfy_fp8_scaled (Wan22Animate).
  • Wan 2.1 VAE. Decodificador/encoder de vídeo latente usado pela família Wan para reconstruir quadros RGB com perda mínima. Pesos: Wan2_1_VAE_bf16.safetensors.
  • UMT5‑XXL codificador de texto. Codifica prompts que orientam aparência, cena e cinematografia. Pesos: umt5‑xxl‑enc‑bf16.safetensors.
  • CLIP Vision (ViT‑H/14). Extrai características preservadoras de identidade da imagem de referência. Artigo: CLIP.
  • ViTPose Corpo Inteiro (ONNX). Estima pontos-chave densos do corpo que impulsionam a transferência de movimento. Modelos: ViTPose‑L WholeBody e ViTPose‑H WholeBody. Artigo: ViTPose.
  • Detector YOLOv10. Fornece caixas de pessoas para estabilizar a detecção de pose e segmentação. Exemplo: yolov10m.onnx.
  • Segment Anything 2. Máscaras de sujeito de alta qualidade para preservação de fundo, composição ou pré-visualizações de relighting. Repositório: facebookresearch/segment-anything-2.
  • LoRAs opcionais para estilo e transporte de luz. Útil para relighting e detalhes de textura nas saídas do Wan 2.2 Animate V2. Exemplos: Lightx2v e Wan22_relight.

Como usar o fluxo de trabalho ComfyUI Wan 2.2 Animate V2

Em um nível alto, o pipeline extrai dicas de pose e rosto do vídeo motriz, codifica a identidade a partir de uma única imagem de referência, opcionalmente isola o sujeito com uma máscara SAM 2 e, em seguida, sintetiza um vídeo que corresponde ao movimento enquanto preserva a identidade. O fluxo de trabalho está organizado em quatro grupos que colaboram para produzir o resultado final e duas saídas de conveniência para QA rápido (pré-visualizações de pose e máscara).

Imagem de Referência

Este grupo carrega sua imagem de retrato ou de corpo inteiro, redimensiona-a para a resolução alvo e a disponibiliza em todo o gráfico. A imagem redimensionada é armazenada e reutilizada por Get_reference_image e pré-visualizada para que você possa rapidamente avaliar o enquadramento. As características de identidade são codificadas por WanVideoClipVisionEncode (CLIP Vision) (#70), e a mesma imagem alimenta WanVideoAnimateEmbeds (#62) como ref_images para uma preservação de identidade mais forte. Forneça uma referência clara e bem iluminada que corresponda ao tipo de sujeito no vídeo motriz para melhores resultados. Espaço para a cabeça e oclusões mínimas ajudam o Wan 2.2 Animate V2 a se fixar na estrutura facial e na roupa.

Pré-processamento

O vídeo motriz é carregado com VHS_LoadVideo (#191), que expõe quadros, áudio, contagem de quadros e fps de origem para uso posterior. Dicas de pose e rosto são extraídas por OnnxDetectionModelLoader (#178) e PoseAndFaceDetection (#172), então visualizadas com DrawViTPose (#173) para que você possa confirmar a qualidade do rastreamento. A isolação do sujeito é tratada por Sam2Segmentation (#104), seguida por GrowMaskWithBlur (#182) e BlockifyMask (#108) para produzir uma máscara limpa e estável; um ajudante DrawMaskOnImage (#99) pré-visualiza o matte. O grupo também padroniza largura, altura e contagem de quadros do vídeo motriz, para que o Wan 2.2 Animate V2 possa corresponder às configurações espaciais e temporais sem adivinhações. Verificações rápidas exportam como vídeos curtos: uma sobreposição de pose e uma pré-visualização de máscara para validação zero-shot.

Modelos

WanVideoVAELoader (#38) carrega o Wan VAE e WanVideoModelLoader (#22) carrega a base Wan 2.2 Animate. LoRAs opcionais são escolhidos em WanVideoLoraSelectMulti (#171) e aplicados via WanVideoSetLoRAs (#48); WanVideoBlockSwap (#51) pode ser ativado por WanVideoSetBlockSwap (#50) para ajustes arquitetônicos que afetam estilo e fidelidade. Prompts são codificados por WanVideoTextEncodeCached (#65), enquanto WanVideoClipVisionEncode (#70) transforma a imagem de referência em embeddings de identidade robustos. WanVideoAnimateEmbeds (#62) funde as características CLIP, imagem de referência, imagens de pose, recortes de rosto, quadros de fundo opcionais, a máscara SAM 2 e a resolução e contagem de quadros escolhidas em um único embedding de animação. Esse feed impulsiona WanVideoSampler (#27), que sintetiza vídeo latente consistente com seu prompt, identidade e dicas de movimento, e WanVideoDecode (#28) converte latentes de volta para quadros RGB.

Colagem de Resultados

Para ajudar a comparar saídas, o fluxo de trabalho monta uma simples comparação lado a lado: o vídeo gerado ao lado de uma faixa vertical que mostra a imagem de referência, recortes de rosto, sobreposição de pose e um quadro do vídeo motriz. ImageConcatMulti (#77, #66) constrói a colagem visual, então VHS_VideoCombine (#30) renderiza um mp4 "Compare". A saída limpa final é renderizada por VHS_VideoCombine (#189), que também carrega o áudio do motriz para cortes de revisão rápida. Essas exportações facilitam o julgamento de como bem o Wan 2.2 Animate V2 seguiu o movimento, preservou a identidade e manteve o fundo pretendido.

Nós principais no fluxo de trabalho ComfyUI Wan 2.2 Animate V2

VHS_LoadVideo (#191)
Carrega o vídeo motriz e expõe quadros, áudio e metadados usados em todo o gráfico. Mantenha o sujeito totalmente visível com desfoque de movimento mínimo para rastreamento de pontos-chave mais forte. Se você quiser testes mais curtos, limite o número de quadros carregados; mantenha o fps de origem consistente a jusante para evitar desincronização de áudio na combinação final.

PoseAndFaceDetection (#172)
Executa YOLO e ViTPose para produzir pontos-chave de corpo inteiro e recortes de rosto que guiam diretamente a transferência de movimento. Alimente-o com as imagens do carregador e a largura e altura padronizadas; a entrada opcional retarget_image permite adaptar poses para um enquadramento diferente quando necessário. Se a sobreposição de pose parecer ruidosa, considere um modelo ViTPose de maior qualidade e certifique-se de que o sujeito não esteja fortemente ocluído. Referência: ComfyUI‑WanAnimatePreprocess.

Sam2Segmentation (#104)
Gera uma máscara de sujeito que pode preservar o fundo ou localizar relighting no Wan 2.2 Animate V2. Você pode usar as caixas delimitadoras detectadas de PoseAndFaceDetection ou desenhar pontos positivos rápidos, se necessário, para refinar o matte. Emparelhe-o com GrowMaskWithBlur para bordas mais limpas em movimentos rápidos e revise o resultado com a exportação de pré-visualização de máscara. Referência: Segment Anything 2.

WanVideoClipVisionEncode (#70)
Codifica a imagem de referência com CLIP Vision para capturar dicas de identidade como estrutura facial, cabelo e roupas. Você pode fazer a média de várias imagens de referência para estabilizar a identidade ou usar uma imagem negativa para suprimir características indesejadas. Recortes centralizados com iluminação consistente ajudam a produzir embeddings mais fortes.

WanVideoAnimateEmbeds (#62)
Funde características de identidade, imagens de pose, recortes de rosto, quadros de fundo opcionais e a máscara SAM 2 em um único embedding de animação. Alinhe width, height e num_frames com seu vídeo motriz para menos artefatos. Se você vir deriva de fundo, forneça quadros de fundo limpos e uma máscara sólida; se o rosto derivar, certifique-se de que os recortes de rosto estejam presentes e bem iluminados.

WanVideoSampler (#27)
Produz os latentes de vídeo reais guiados por seu prompt, LoRAs e o embedding de animação. Para clipes longos, escolha entre uma estratégia de janela deslizante ou as opções de contexto do modelo; combine o enquadramento com o comprimento do clipe para equilibrar a nitidez do movimento e a consistência de longo alcance. Ajuste o agendador e a força de orientação para equilibrar fidelidade, aderência ao estilo e suavidade de movimento, e considere habilitar a troca de bloco se sua pilha LoRA se beneficiar disso.

Extras opcionais

  • Comece com um clipe motriz limpo: câmera estável, iluminação simples e oclusão mínima dão ao Wan 2.2 Animate V2 a melhor chance de rastrear o movimento com clareza.
  • Use uma referência que corresponda à roupa e enquadramento alvo; evite ângulos extremos ou filtros pesados que conflitem com seu prompt ou LoRAs.
  • Preserve ou substitua fundos com a máscara SAM 2; ao compor, mantenha as bordas suaves o suficiente para evitar halos em movimentos rápidos.
  • Mantenha o fps consistente desde o carregamento até a exportação para manter a sincronização labial e o alinhamento com o ritmo ao transferir áudio.
  • Para iteração rápida, teste um segmento curto primeiro, depois estenda o intervalo de quadros uma vez que pose, identidade e iluminação estejam corretos.

Recursos úteis utilizados neste fluxo de trabalho:

  • Nós de pré-processamento: kijai/ComfyUI‑WanAnimatePreprocess
  • Modelos ViTPose ONNX: ViTPose‑L, modelo ViTPose‑H e dados
  • Detector YOLOv10: yolov10m.onnx
  • Pesos Wan 2.2 Animate 14B: Wan22Animate
  • LoRAs: Lightx2v, Wan22_relight

Agradecimentos

Este fluxo de trabalho implementa e se baseia nos seguintes trabalhos e recursos. Agradecemos ao Benji’s AI Playground pelo fluxo de trabalho e à equipe Wan pelo modelo Wan 2.2 Animate V2 por suas contribuições e manutenção. Para detalhes autoritativos, consulte a documentação original e os repositórios vinculados abaixo.

Recursos

  • Equipe Wan/Wan 2.2 Animate V2
    • Documentação / Notas de Lançamento: YouTube @Benji’s AI Playground

Nota: O uso dos modelos, conjuntos de dados e códigos referenciados está sujeito às respectivas licenças e termos fornecidos por seus autores e mantenedores.

Want More ComfyUI Workflows?

Wan 2.2 | Líder em Geração de Vídeo Open-Source

Disponível agora! Melhor precisão + movimento mais suave.

Wan 2.2 FLF2V | Geração de Vídeo Quadro-Inicial-Final

Gere vídeos suaves a partir de um quadro inicial e final usando Wan 2.2 FLF2V.

Wan 2.2 + Lightx2v V2 | Ultra Rápido I2V & T2V

Configuração Dual Light LoRA, 4X mais rápida.

Wan 2.2 Lightning T2V I2V | 4 Etapas Ultra Rápido

Wan 2.2 agora 20x mais rápido! T2V + I2V em 4 etapas.

Wan2.2 Animate | Foto para Vídeo de Movimento Realista

Transforme imagens em personagens realistas e em movimento com movimento natural de corpo e rosto.

LivePortrait | Anima Retratos | Vid2Vid

Atualizado em 16/06/2025: versão do ComfyUI atualizada para v0.3.39 para melhorar a estabilidade e compatibilidade. Transfira expressões faciais e movimentos de um vídeo de condução para um vídeo fonte.

Anyline + MistoLine | Sketch para Imagem de Alta Qualidade

Anyline + MistoLine | Sketch para Imagem de Alta Qualidade

O MistoLine se adapta a várias entradas de line art, gerando facilmente imagens de alta qualidade a partir de sketches.

PMRF Aprimorador Ultra Rápido | Baixo VRAM ComfyUI

Aprimorador PMRF ultra rápido! 3.79s em máquina média. Escala 2x.

Siga-nos
  • LinkedIn
  • Facebook
  • Instagram
  • Twitter
Suporte
  • Discord
  • E-mail
  • Status do Sistema
  • afiliado
Recursos
  • ComfyUI Online Gratuito
  • Guias do ComfyUI
  • RunComfy API
  • Tutoriais do ComfyUI
  • Nós do ComfyUI
  • Saiba Mais
Legal
  • Termos de Serviço
  • Política de Privacidade
  • Política de Cookies
RunComfy
Copyright 2025 RunComfy. Todos os Direitos Reservados.

RunComfy é a principal ComfyUI plataforma, oferecendo ComfyUI online ambiente e serviços, juntamente com fluxos de trabalho do ComfyUI apresentando visuais impressionantes. RunComfy também oferece AI Playground, permitindo que artistas utilizem as mais recentes ferramentas de AI para criar arte incrível.