Geração de vídeo guiada por pose Wan 2.2 VACE para ComfyUI
Este fluxo de trabalho ComfyUI Wan 2.2 VACE transforma uma única imagem de referência em um vídeo com correspondência de movimento que segue a pose, o ritmo e o movimento da câmera de um clipe de origem. Ele usa Wan 2.2 VACE para preservar a identidade enquanto traduz movimentos corporais complexos em animação suave e realista.
Projetado para geração de dança, transferência de movimento e animação criativa de personagens, o fluxo de trabalho automatiza o estilo a partir da imagem de referência, extrai sinais de movimento do vídeo de origem e executa um amostrador Wan 2.2 de duas etapas que equilibra coerência de movimento e detalhes finos.
Modelos-chave no fluxo de trabalho Comfyui Wan 2.2 VACE
- Modelos Text-to-Video Wan 2.2 14B (variantes de alto ruído e baixo ruído). Duas etapas usam uma base de alto ruído para modelagem de movimento robusta, seguida por uma base de baixo ruído para refinamento de detalhes.
- Wan 2.1 VAE (bf16). Decodifica e codifica quadros de vídeo latentes para Wan 2.2 VACE.
- Google UMT5-XXL Encoder. Fornece recursos de texto de alta capacidade usados por Wan 2.2 para condicionamento. Model card
- Microsoft Florence-2 (Flux Large). Gera uma legenda rica da imagem de referência para iniciar e estilizar o prompt. Repo
- Depth Anything v2 (ViT-L). Produz mapas de profundidade por quadro do vídeo de origem para guiar estrutura e movimento. Repo
Como usar o fluxo de trabalho Comfyui Wan 2.2 VACE
O fluxo de trabalho tem cinco etapas agrupadas: Entradas, PROMPT, Modelos, AMOSTRAGEM, e Saída. Você fornece uma imagem de referência e um vídeo curto de movimento. O gráfico então calcula a orientação de movimento, codifica as características de identidade VACE, executa um amostrador Wan 2.2 em duas passagens e salva tanto a animação final quanto uma prévia opcional lado a lado.
Entradas
Carregue um clipe de origem de movimento em VHS_LoadVideo (#141). Você pode cortar com controles simples e limitar quadros para memória. Os quadros são redimensionados para consistência, então DepthAnythingV2Preprocessor (#135) calcula uma sequência de profundidade densa que captura pose, layout e movimento da câmera. Carregue sua imagem de identidade com LoadImage (#113); ela é redimensionada automaticamente e pré-visualizada para que você possa verificar o enquadramento antes da amostragem.
PROMPT
Florence2Run (#137) analisa a imagem de referência e retorna uma legenda detalhada. Style Prompt (#138) concatena essa legenda com uma curta frase de estilo, então WanVideoTextEncode (#16) codifica os prompts positivos e negativos finais usando UMT5-XXL. Você pode editar livremente a frase de estilo ou substituir completamente o prompt positivo se quiser uma direção criativa mais forte. Este embutimento de prompt condiciona ambas as etapas do amostrador para que o vídeo gerado permaneça fiel à sua referência.
Modelos
WanVideoVAELoader (#38) carrega o Wan VAE usado em toda a codificação/decodificação. Dois nós WanVideoModelLoader preparam modelos Wan 2.2 14B: um de alto ruído e um de baixo ruído, cada um aumentado com um módulo VACE selecionado em WanVideoExtraModelSelect (#99, #107). Um refinamento opcional de LoRA é anexado através de WanVideoLoraSelect (#56, #97), permitindo ajustar nitidez ou estilo sem alterar os modelos base. A configuração é projetada para que você possa trocar pesos VACE, LoRA ou a variante de ruído sem tocar no resto do gráfico.
AMOSTRAGEM
WanVideoVACEEncode (#100) funde três sinais em embutimentos VACE: a sequência de movimento (quadros de profundidade), sua imagem de referência e a geometria do vídeo alvo. O primeiro WanVideoSampler (#27) executa o modelo de alto ruído até um passo de divisão para estabelecer movimento, perspectiva e estilo global. O segundo WanVideoSampler (#90) retoma desse latente e termina com o modelo de baixo ruído para recuperar texturas, bordas e pequenos detalhes enquanto mantém o movimento preso à fonte. Um cronograma curto de CFG e divisão de etapas controlam quanto cada estágio influencia o resultado.
Saída
WanVideoDecode (#28) converte o latente final de volta para quadros. Você obtém dois vídeos salvos: uma renderização limpa e uma concatenação lado a lado que coloca os quadros gerados ao lado da referência para QA rápido. Uma "Prévia de Mapa de Profundidade" separada mostra a sequência de profundidade inferida para que você possa diagnosticar a orientação de movimento rapidamente. Configurações de taxa de quadros e nome de arquivo estão disponíveis nas saídas VHS_VideoCombine (#139, #60, #144).
Nós-chave no fluxo de trabalho Comfyui Wan 2.2 VACE
WanVideoVACEEncode (#100)
Cria os embutimentos de identidade e geometria VACE usados por ambos os amostradores. Forneça seus quadros de movimento e a imagem de referência; o nó lida com largura, altura e contagem de quadros. Se você alterar a duração ou o aspecto, mantenha este nó sincronizado para que os embutimentos correspondam ao layout do vídeo alvo.
WanVideoSampler (#27)
Amostrador de primeira etapa usando o modelo Wan 2.2 de alto ruído. Ajuste steps, uma programação curta de cfg e a divisão end_step para decidir quanto da trajetória é alocada para a modelagem de movimento. Mudanças maiores de movimento ou câmera se beneficiam de uma divisão um pouco mais tarde.
WanVideoSampler (#90)
Amostrador de segunda etapa usando o modelo Wan 2.2 de baixo ruído. Defina start_step para o mesmo valor de divisão para que continue sem problemas da primeira etapa. Se você observar nitidez excessiva de textura ou deriva, reduza os valores cfg posteriores ou diminua a força do LoRA.
DepthAnythingV2Preprocessor (#135)
Extrai uma sequência de profundidade estável do vídeo de origem. Usar profundidade como orientação de movimento ajuda Wan 2.2 VACE a reter layout de cena, pose de mão e oclusão. Para iteração rápida, você pode redimensionar quadros de entrada menores; para renderizações finais, forneça quadros de maior resolução para melhor fidelidade estrutural.
WanVideoTextEncode (#16)
Codifica os prompts positivos e negativos com UMT5-XXL. O prompt é construído automaticamente a partir de Florence2Run, mas você pode substituí-lo para direção de arte. Mantenha os prompts concisos; com orientação de identidade VACE, menos palavras-chave geralmente resultam em uma transferência de movimento mais limpa e menos restrita.
Extras opcionais
- Escolha clipes de movimento com separação clara de sujeito e iluminação consistente para as transferências Wan 2.2 VACE mais estáveis.
- Use a saída lado a lado para verificar alinhamento facial e continuidade de figurino antes de renderizar uma passagem final.
- Se o movimento parecer muito rígido, mova a divisão um pouco mais cedo para que a etapa de baixo ruído tenha mais espaço para refinar.
- Se a identidade estiver derivando, aumente ligeiramente a influência do LoRA ou simplifique o prompt.
- A prévia de profundidade é sua amiga: se a profundidade estiver ruidosa, tente um clipe de origem diferente ou ajuste o redimensionamento de entrada para reduzir artefatos.
Agradecimentos
Este fluxo de trabalho implementa e desenvolve os seguintes trabalhos e recursos. Agradecemos sinceramente aos criadores da comunidade ComfyUI de Wan 2.2 VACE Source pelo fluxo de trabalho, por suas contribuições e manutenção. Para detalhes autoritativos, consulte a documentação original e os repositórios vinculados abaixo.
Recursos
- Wan 2.2 VACE Source/Wan 2.2 VACE Source
- Docs / Release Notes: Wan 2.2 VACE @ComfyUI
Nota: O uso dos modelos, conjuntos de dados e código referenciados está sujeito às respectivas licenças e termos fornecidos por seus autores e mantenedores.
