Wan2.2 Animate: animação de referência completa para vídeo no ComfyUI
O Wan2.2 Animate transforma uma única imagem de referência em uma performance realista que segue o movimento completo do corpo e as expressões faciais de um vídeo de condução. Este fluxo de trabalho Wan2.2 Animate do ComfyUI funde transferência de pose, captura facial, controle de fundo e complementos LoRA para que os personagens se movam naturalmente enquanto a identidade permanece intacta.
Projetado para avatares, recriações de performances, videoclipes e batidas de história, o Wan2.2 Animate produz clipes limpos e estáveis temporalmente com passagem de áudio opcional, ampliação de qualidade e interpolação. Ele é fornecido como um gráfico guiado com padrões sensatos, para que você possa se concentrar em escolhas criativas em vez de encanamentos.
Modelos principais no fluxo de trabalho Wan2.2 Animate do ComfyUI
- Wan 2.2 Animate 14B (I2V) fp8 escalado. O modelo de vídeo principal que interpreta pose, rosto, imagem e orientação de texto para sintetizar a trilha de movimento com preservação de identidade. Conjunto de Modelos
- Wan 2.1 VAE bf16. O VAE correspondente usado para codificar/decodificar latentes para a família Wan, garantindo fidelidade de cor e nitidez. VAE
- Codificador de texto UMT5‑XXL. Fornece condicionamento de texto multilíngue robusto para prompts positivos e negativos. Codificador
- Codificador de visão CLIP ViT‑H/14. Extrai embeddings visuais da imagem de referência para preservar a identidade e o estilo. Artigo
- LoRAs Wan opcionais. Adaptadores leves para controle de iluminação e comportamento I2V, como Lightx2v I2V 14B e Relight. Lightx2v • Relight
- Segment Anything 2 (SAM 2). Segmentação de imagem/vídeo de alta qualidade usada para isolar o sujeito ou fundo. Artigo
- DWPose. Estimativa de pose 2D precisa usada para cortes e máscaras conscientes de rosto/pose. Repositório
- RIFE. Interpolação rápida de quadros de vídeo para aumentar a suavidade da reprodução. Artigo
Como usar o fluxo de trabalho Wan2.2 Animate do ComfyUI
Fluxo geral. O gráfico ingere um vídeo de condução e uma única imagem de referência, prepara um sujeito/fundo limpo e um corte consciente de rosto, depois alimenta pose, rosto, imagem e embeddings de texto no Wan2.2 Animate para amostragem e decodificação. Uma etapa final amplia detalhes e opcionalmente interpola quadros antes da exportação.
- Modelos
- Este grupo carrega a base Wan2.2 Animate, o VAE correspondente, codificadores de texto/visão e quaisquer LoRAs selecionados. O
WanVideoModelLoader(#22) e oWanVideoSetLoRAs(#48) conectam o modelo e adaptadores, enquanto oWanVideoVAELoader(#38) e oCLIPLoader(#175) fornecem as bases VAE e de texto. - Se você planeja ajustar LoRAs (por exemplo, relighting ou estilo I2V), mantenha apenas um ou dois ativos por vez para evitar conflitos e visualize com os nós de colagem fornecidos.
- Este grupo carrega a base Wan2.2 Animate, o VAE correspondente, codificadores de texto/visão e quaisquer LoRAs selecionados. O
Tamanho
- Defina sua
larguraealturaalvo no grupo de tamanho e confirme se oframe_countcorresponde aos quadros que você planeja carregar do vídeo de condução.VHS_LoadVideo(#63) relata a contagem; mantenha onum_framesdo amostrador consistente para evitar truncamento de cauda. - O
PixelPerfectResolution(#152) ajuda a ler o clipe de condução para sugerir tamanhos de geração estáveis.
Máscara de Fundo
- Carregue seu vídeo de condução em
VHS_LoadVideo(#63); o áudio é extraído automaticamente para passagem posterior. UsePointsEditor(#107) para colocar alguns pontos positivos no sujeito e executeSam2Segmentation(#104) para gerar uma máscara limpa. GrowMask(#100) eBlockifyMask(#108) estabilizam e expandem bordas, eDrawMaskOnImage(#99) fornece uma verificação rápida de sanidade. Essa máscara permite que o Wan2.2 Animate se concentre no performer enquanto respeita o fundo original.
Imagem de Referência
- Insira um único retrato ou corpo inteiro bem iluminado.
ImageResizeKJv2(#64) o ajusta à sua resolução de trabalho, e a saída é armazenada para a etapa de animação. - Para melhor retenção de identidade, escolha uma imagem de referência com rosto claro e mínimas obstruções.
Imagens Faciais
- O pipeline constrói um corte consciente de rosto para conduzir micro-expressões.
DWPreprocessor(#177) encontra pontos-chave de pose,FaceMaskFromPoseKeypoints(#120) isola a região do rosto, eImageCropByMaskAndResize(#96) produz cortes de rosto alinhados. Um pequeno exportador de visualização está incluído para QA rápido (VHS_VideoCombine(#112)).
Amostragem e Decodificação
- A imagem de referência é embutida via
WanVideoClipVisionEncode(#70), prompts são codificados comCLIPTextEncode(#172, #182, #183), e tudo é fundido porWanVideoAnimateEmbeds(#62). WanVideoSampler(#27) executa a difusão principal do Wan2.2 Animate. Você pode trabalhar no modo “janela de contexto” para clipes muito longos ou usar o caminho original de geração longa; a nota incluída explica quando combinar a janela de contexto com a contagem de quadros para estabilidade. A saída do amostrador é decodificada porWanVideoDecode(#28) e salva com passagem de áudio opcional (VHS_VideoCombine(#30)).
Colagem de resultados
ImageConcatMulti(#77, #66) eGetImageSizeAndCount(#42) montam um painel lado a lado de referência, rosto, pose e saída. Use-o para verificar a identidade e o alinhamento do movimento antes da exportação final.
Ampliar e Interpolar
UltimateSDUpscaleNoUpscale(#180) refina bordas e texturas com o UNet fornecido (UNETLoader(#181)) e VAE (VAELoader(#184)); prompts positivos/negativos podem suavemente direcionar detalhes.RIFEInterpolation(#188) opcionalmente dobra a suavidade do movimento, eVHS_VideoCombine(#189) escreve o clipe final do Wan2.2 Animate.
Nós principais no fluxo de trabalho Wan2.2 Animate do ComfyUI
VHS_LoadVideo(#63)- Função. Carrega o vídeo de condução, fornece os quadros, extrai o áudio e relata a contagem de quadros para consistência a jusante.
- Dica. Mantenha o total de quadros relatado alinhado com o comprimento de geração do amostrador para evitar corte antecipado ou quadros pretos.
Sam2Segmentation(#104) +PointsEditor(#107)- Função. Máscara de sujeito interativa que ajuda o Wan2.2 Animate a focar no performer e evitar emaranhamento de fundo.
- Dica. Alguns pontos positivos bem colocados mais um
GrowMaskmodesto tendem a estabilizar fundos complexos sem halos. Veja SAM 2 para orientação de segmentação consciente de vídeo. Artigo
DWPreprocessor(#177) +FaceMaskFromPoseKeypoints(#120)- Função. Deriva máscaras faciais robustas e cortes alinhados a partir de pontos-chave detectados para melhorar a fidelidade dos lábios, olhos e mandíbula.
- Dica. Se as expressões parecerem atenuadas, verifique se a máscara facial cobre toda a linha da mandíbula e bochechas; reexecute o corte após ajustar os pontos. Repositório
WanVideoModelLoader(#22) eWanVideoSetLoRAs(#48)WanVideoAnimateEmbeds(#62) eWanVideoSampler(#27)- Função. Fundir condicionamento de imagem, rosto, pose e texto em latentes de vídeo e amostrar a sequência com Wan2.2 Animate.
- Dica. Para clipes muito longos, mude para o modo de janela de contexto e mantenha seu comprimento sincronizado com a contagem de quadros pretendida para preservar a coerência temporal. Repositório de wrapper
UltimateSDUpscaleNoUpscale(#180)- Função. Passagem de detalhe leve após decodificação com suporte a tiling para manter a memória estável.
- Dica. Se você vir costuras de tiles, aumente modestamente a sobreposição e mantenha a direção do prompt muito suave para evitar texturas fora do modelo. KJNodes
RIFEInterpolation(#188)- Função. Suaviza o movimento inserindo quadros intermediários sem re-renderizar o clipe.
- Dica. Aplique a interpolação após a ampliação para que o fluxo óptico veja o perfil de detalhe final. Artigo
Extras opcionais
- Para a identidade mais limpa, escolha uma referência nítida e de frente e mantenha os acessórios consistentes com o vídeo de condução.
- Se aparecer cintilação de fundo, refine a máscara SAM 2 e execute novamente; a máscara é frequentemente a correção mais rápida para vazamento de cena.
- Mantenha largura e altura alinhadas com sua plataforma de destino e a proporção do input; pixel quadrado, múltiplos de 16 funcionam bem no Wan2.2 Animate.
- O áudio do vídeo de condução pode ser passado na exportação; se preferir silêncio, desative o áudio no nó de salvamento.
- Comece com um LoRA; se adicionar relight e I2V juntos, teste cada um separadamente primeiro para entender sua influência.
Links que você pode achar úteis:
- Modelo e ativos Wan2.2 Animate por Kijai: Modelos WanAnimate, Wan 2.1 VAE, Codificador UMT5, Lightx2v
- Wrappers e nós do ComfyUI usados: ComfyUI‑WanVideoWrapper, ComfyUI‑KJNodes
Agradecimentos
Este fluxo de trabalho implementa e se baseia nos seguintes trabalhos e recursos. Agradecemos sinceramente ao Wan2.2 e @ArtOfficialLabs pelo Wan2.2 Animate Demo por suas contribuições e manutenção. Para detalhes autorizados, consulte a documentação original e os repositórios vinculados abaixo.
Recursos
- Wan2.2/Wan2.2 Animate Demo
- Documentação / Notas de Lançamento: Wan2.2 Animate Demo @ArtOfficialLabs
Nota: O uso dos modelos, conjuntos de dados e código referenciados está sujeito às respectivas licenças e termos fornecidos por seus autores e mantenedores.


