Wan2.2 VACE Fun é um fluxo de trabalho criativo, orientado por prompts, de referência para vídeo no ComfyUI. Forneça uma única imagem de referência e uma descrição de texto, e o gráfico anima seu sujeito em um vídeo coerente enquanto preserva a identidade e o estilo. Construído sobre o módulo Wan 2.2 VACE com um sampler em estágios, equilibra movimento, fidelidade e tempo de execução, tornando-o ideal para rolos de conceito, testes de personagens e clipes curtos de narração.
Este fluxo de trabalho ComfyUI Wan2.2 VACE Fun foca em três coisas: forte adesão ao sujeito a partir da imagem de referência, movimento expressivo guiado pelo seu prompt e exportação confiável para um vídeo MP4. Use-o quando precisar de iterações rápidas que ainda pareçam cinematográficas, ou quando quiser transformar uma imagem estática em uma cena dinâmica sem keyframing complexo.
O fluxo de trabalho é executado em estágios: você define controles globais, prepara a imagem de referência, escreve prompts, gera um vídeo latente condicionado por VACE, refina-o através de amostragem em estágios, depois decodifica e exporta. Os grupos são organizados para que você possa trabalhar de cima para baixo com o mínimo de atrito.
Este grupo centraliza os controles que o restante do gráfico lê: width
, height
, length
(quadros), fps
, steps
, sampling_shift
e seed
. Altere esses valores uma vez e todos os nós a jusante captam os valores via pares SetNode
/GetNode
. A resolução e o comprimento influenciam tanto a qualidade quanto o VRAM, enquanto o fps
controla o movimento percebido no MP4 final. Mantenha width
e height
alinhados ao aspecto de sua imagem de referência para evitar distorção. A seed é exposta para reprodutibilidade em execuções.
Carregue seu sujeito com LoadImage
(#118), depois a imagem é redimensionada em ImageResizeKJv2
(#112) para corresponder à sua resolução alvo. RMBG
(#73) remove o fundo para que o VACE possa se fixar mais confiavelmente no sujeito do primeiro plano, ajudando na consistência da identidade entre os quadros. Um nó de visualização permite que você inspecione rapidamente o recorte antes da geração. A imagem processada é armazenada como referência e alimentada a jusante.
Os prompts são codificados com CLIP Text Encode (Positive Prompt)
(#56) e CLIP Text Encode (Negative Prompt)
(#54) usando o codificador UMT5-XXL. Escreva verbos de ação claros, linguagem de câmera e contexto de cena no prompt positivo para direcionar movimento e composição. Use o prompt negativo para suprimir artefatos indesejados, estilos ou desordem; frases multilíngues funcionam bem. As saídas fornecem condicionamento rico para a etapa VACE e os samplers que seguem.
O gráfico carrega os pesos Wan 2.2 T2V A14B e aplica o módulo Wan2.2 VACE Fun, depois aumenta a atenção e o agendamento para estabilidade. O ramo HIGH passa por PathchSageAttentionKJ
(#8) e ModelSamplingSD3
(#57), enquanto o ramo LOW usa LoraLoaderModelOnly
(#61), PathchSageAttentionKJ
(#66) e ModelSamplingSD3
(#20). Esta divisão oferece um passe inicial de detalhes e um refinamento focado em movimento. Todas as escolhas de modelo são pré-configuradas; você simplesmente executa o gráfico quando suas configurações e prompts estão prontos.
WanVaceToVideo
(#43) injeta sua reference_image
, condicionamento positivo/negativo e VAE, depois gera uma sequência de vídeo latente inicial dimensionada por width
, height
e length
. Pense nisso como o momento em que a imagem estática "aprende" a se mover de acordo com seu prompt. O nó retorna ambos os fluxos de condicionamento para reutilização e um inteiro para o corte latente para manter o pipeline consistente em termos de quadros. Nenhuma máscara manual ou vídeo de controle é necessário, a menos que você queira experimentar.
Uma pilha de sampler de três estágios molda o resultado. O primeiro passe KSamplerAdvanced
(#108) semeia a sequência latente para dicas gerais de composição e movimento. O segundo passe KSamplerAdvanced
(#107) aprofunda o detalhe e a estabilidade temporal usando o mesmo condicionamento enquanto preserva o layout da cena. O passe final KSamplerAdvanced
(#109) é executado na variante LOW para polir o movimento e reduzir artefatos, encontrando um equilíbrio prático entre velocidade e qualidade. TrimVideoLatent
(#65) alinha os quadros ao comprimento alvo antes da decodificação.
VAEDecode
(#19) transforma os latentes refinados em quadros RGB. VHS_VideoCombine
(#69) então monta esses quadros em um MP4 na fps
escolhida, salvando com um padrão de nome de arquivo sensato. Este grupo é otimizado para ciclos rápidos de revisão, para que você possa iterar em prompts, comprimento ou resolução sem tocar no restante do gráfico. Quando satisfeito, mantenha a mesma seed para repetibilidade ou mude-a para explorar variações.
WanVaceToVideo
(#43)
O coração do Wan2.2 VACE Fun: vincula a semântica do prompt à sua imagem de referência e produz os latentes iniciais do vídeo. Ajuste width
, height
e length
aqui através das configurações compartilhadas para corresponder ao seu objetivo criativo e orçamento de VRAM. Mantenha o sujeito de referência centralizado e bem iluminado para melhor retenção de identidade. Se o movimento parecer errado, revise o prompt positivo para enfatizar ações, movimentos de câmera e palavras de tempo.
KSamplerAdvanced
(#108, #107, #109)
Uma cadeia de samplers em estágios que melhora progressivamente a composição, o detalhe e a suavidade do movimento. Aumente os steps
quando precisar de mais detalhes ou estabilidade temporal, e reutilize a mesma seed
para comparar mudanças de forma justa. O passe final na variante LOW frequentemente limpa artefatos sutis; se os resultados parecerem muito suaves, desloque alguns passos para os passes anteriores. sampling_shift
é exposto para ajustar o cronograma em direção a ênfase de movimento ou textura mais fina.
RMBG
(#73)
A remoção automática de fundo melhora a adesão ao sujeito para o Wan2.2 VACE Fun, especialmente com cenas ocupadas ou de baixo contraste. Use referências de alta qualidade e não borradas para minimizar erros de recorte. Se você quiser fundos naturais, substitua-os posteriormente em pós-produção ou componha uma placa atrás dos quadros decodificados.
TrimVideoLatent
(#65)
Mantém a sequência latente alinhada ao length
solicitado. Se você estender ou encurtar um clipe, deixe este nó lidar com a contabilidade; ele evita desvios sutis de quadros através dos estágios de sampler.
VHS_VideoCombine
(#69)
Codifica os quadros finais para MP4. Ajuste frame_rate
para controlar a duração do clipe em relação ao length
(duração igual a quadros divididos por fps). Aumente a qualidade para entrega final ou diminua para pré-visualizações rápidas; qualidade mais alta aumenta o tamanho do arquivo e o tempo de codificação.
width
e height
alvo para evitar distorções e cortes indesejados.length
e fps
sincronizados com seu objetivo: fps mais alto parece mais suave, mas encurta a duração total para a mesma contagem de quadros.RMBG
e adicione uma breve cláusula de identidade no prompt (roupa, cor ou equipamento).Este fluxo de trabalho implementa e constrói sobre os seguintes trabalhos e recursos. Agradecemos a @BenjisAIPlayground pelo fluxo de trabalho “Wan2.2 VACE Fun Demo” e por suas contribuições e manutenção. Para detalhes autoritativos, consulte a documentação original e os repositórios vinculados abaixo.
Nota: O uso dos modelos, conjuntos de dados e códigos referenciados está sujeito às respectivas licenças e termos fornecidos por seus autores e mantenedores.
RunComfy é a principal ComfyUI plataforma, oferecendo ComfyUI online ambiente e serviços, juntamente com fluxos de trabalho do ComfyUI apresentando visuais impressionantes. RunComfy também oferece AI Playground, permitindo que artistas utilizem as mais recentes ferramentas de AI para criar arte incrível.