Este fluxo de trabalho transforma uma imagem de referência em um vídeo curto onde o mesmo rosto e estilo persistem ao longo dos quadros. Alimentado pela família Wan 2.1 e um Stand In LoRA construído para esse propósito, é projetado para contadores de histórias, animadores e criadores de avatares que precisam de identidade estável com configuração mínima. O pipeline Wan2.1 Stand In cuida da limpeza do fundo, corte, mascaramento e incorporação, para que você possa se concentrar no seu prompt e movimento.
Use o fluxo de trabalho Wan2.1 Stand In quando você quiser continuidade de identidade confiável a partir de uma única foto, iteração rápida e MP4s prontos para exportação, além de uma saída de comparação lado a lado opcional.
Em resumo: carregue uma imagem de referência limpa e voltada para frente, o fluxo de trabalho prepara uma máscara e composição focada no rosto, codifica-a em um latente, mescla essa identidade nos embeds de imagem Wan 2.1, então amostra quadros de vídeo e exporta MP4. Duas saídas são salvas: a renderização principal e uma comparação lado a lado.
Comece com uma imagem bem iluminada e voltada para frente em um fundo simples. O pipeline carrega sua imagem em LoadImage
(#58), padroniza o tamanho com ImageResizeKJv2
(#142) e cria uma máscara centrada no rosto usando MediaPipe-FaceMeshPreprocessor
(#144) e BinaryPreprocessor
(#151). O fundo é removido em TransparentBGSession+
(#127) e ImageRemoveBackground+
(#128), então o sujeito é composto sobre uma tela limpa com ImageCompositeMasked
(#108) para minimizar o sangramento de cores. Finalmente, ImagePadKJ
(#129) e ImageResizeKJv2
(#68) alinham o aspecto para geração; o quadro preparado é codificado em um latente via WanVideoEncode
(#104).
Se você quiser controle de movimento de um clipe existente, carregue-o com VHS_LoadVideo
(#161) e opcionalmente um guia secundário ou vídeo alfa com VHS_LoadVideo
(#168). Os quadros passam por DWPreprocessor
(#163) para pistas de pose e ImageResizeKJv2
(#169) para correspondência de forma; ImageToMask
(#171) e ImageCompositeMasked
(#174) permitem que você misture imagens de controle com precisão. WanVideoVACEEncode
(#160) transforma estes em embeddings VACE. Este caminho é opcional; deixe-o intocado quando você quiser movimento dirigido por texto apenas de Wan 2.1.
WanVideoModelLoader
(#22) carrega a base Wan 2.1 14B mais o Stand In LoRA para que a identidade seja incorporada desde o início. Recursos de velocidade amigáveis ao VRAM estão disponíveis através de WanVideoBlockSwap
(#39) e aplicados com WanVideoSetBlockSwap
(#70). Você pode anexar um adaptador extra, como LightX2V via WanVideoSetLoRAs
(#79). Os prompts são codificados com WanVideoTextEncodeCached
(#159), usando UMT5‑XXL nos bastidores para controle multilíngue. Mantenha os prompts concisos e descritivos; enfatize a roupa, o ângulo e a iluminação do sujeito para complementar a identidade do Stand In.
WanVideoEmptyEmbeds
(#177) estabelece a forma alvo para embeddings de imagem, e WanVideoAddStandInLatent
(#102) injeta seu latente de referência codificado para carregar a identidade ao longo do tempo. As embeddings de imagem e texto combinadas alimentam WanVideoSampler
(#27), que gera uma sequência de vídeo latente usando o agendador e etapas configuradas. Após a amostragem, os quadros são decodificados com WanVideoDecode
(#28) e escritos em um MP4 em VHS_VideoCombine
(#180).
Para QA instantâneo, ImageConcatMulti
(#122) empilha os quadros gerados ao lado da referência redimensionada para que você possa julgar a semelhança quadro a quadro. VHS_VideoCombine
(#74) salva isso como um MP4 "Compare" separado. O fluxo de trabalho Wan2.1 Stand In, portanto, produz um vídeo final limpo mais uma verificação lado a lado sem esforço extra.
WanVideoModelLoader
(#22). Carrega Wan 2.1 14B e aplica o Stand In LoRA na inicialização do modelo. Mantenha o adaptador Stand In conectado aqui em vez de mais tarde no gráfico para que a identidade seja imposta ao longo do caminho de remoção de ruído. Emparelhe com WanVideoVAELoader
(#38) para o Wan‑VAE correspondente.WanVideoAddStandInLatent
(#102). Funde seu latente de imagem de referência codificado nos embeddings de imagem. Se a identidade se desviar, aumente sua influência; se o movimento parecer excessivamente restrito, reduza-o ligeiramente.WanVideoSampler
(#27). O gerador principal. Ajustar etapas, escolha do agendador e estratégia de orientação aqui tem o maior impacto no detalhe, riqueza de movimento e estabilidade temporal. Ao aumentar a resolução ou o comprimento, considere ajustar as configurações do amostrador antes de alterar qualquer coisa a montante.WanVideoSetBlockSwap
(#70) com WanVideoBlockSwap
(#39). Troca memória GPU por velocidade trocando blocos de atenção entre dispositivos. Se você ver erros de falta de memória, aumente o descarregamento; se você tiver espaço, reduza o descarregamento para iteração mais rápida.ImageRemoveBackground+
(#128) e ImageCompositeMasked
(#108). Estes garantem que o sujeito seja isolado de maneira limpa e colocado em uma tela neutra, o que reduz a contaminação de cores e melhora o bloqueio de identidade do Stand In ao longo dos quadros.VHS_VideoCombine
(#180). Controla a codificação, taxa de quadros e nomeação de arquivos para a saída principal MP4. Use-o para definir seu FPS preferido e alvo de qualidade para entrega.Recursos
Este fluxo de trabalho implementa e se baseia em trabalhos e recursos do ArtOfficial Labs. Agradecemos sinceramente ao ArtOfficial Labs e aos autores do Wan 2.1 por Wan2.1 Demo por suas contribuições e manutenção. Para detalhes autoritativos, consulte a documentação original e os repositórios vinculados abaixo.
Nota: O uso dos modelos, conjuntos de dados e códigos referenciados está sujeito às respectivas licenças e termos fornecidos por seus autores e mantenedores.
RunComfy é a principal ComfyUI plataforma, oferecendo ComfyUI online ambiente e serviços, juntamente com fluxos de trabalho do ComfyUI apresentando visuais impressionantes. RunComfy também oferece AI Playground, permitindo que artistas utilizem as mais recentes ferramentas de AI para criar arte incrível.