Este fluxo de trabalho aplica Wan 2.1 Ditto para reformular qualquer vídeo de entrada enquanto preserva a estrutura da cena e o movimento. É projetado para editores e criadores que desejam aparências cinematográficas, artísticas ou experimentais com forte consistência temporal. Você carrega um clipe, descreve o visual desejado e o Wan 2.1 Ditto produz uma renderização estilizada limpa além de uma comparação lado a lado opcional para revisão rápida.
O gráfico emparelha a espinha dorsal de texto para vídeo Wan 2.1 com a transferência de estilo do Ditto no nível do modelo, para que as mudanças ocorram de forma coerente entre os quadros em vez de como filtros quadro a quadro. Casos de uso comuns incluem conversões de anime, pixel art, claymation, aquarela, steampunk ou edições de sim para real. Se você já gera conteúdo com Wan, este fluxo de trabalho Wan 2.1 Ditto se encaixa diretamente no seu pipeline para um estilo de vídeo confiável e sem cintilação.
O fluxo de trabalho é executado em quatro etapas: carregar modelos, preparar o vídeo de entrada, codificar texto e visuais, depois amostrar e exportar. Os grupos operam em sequência para produzir tanto uma renderização estilizada quanto uma comparação lado a lado opcional.
Este grupo prepara tudo o que o Wan 2.1 Ditto precisa. A espinha dorsal base é carregada com WanVideoModelLoader
(#130) e emparelhada com o WanVideoVAELoader
(#60) e LoadWanVideoT5TextEncoder
(#80). O componente Ditto é selecionado com WanVideoVACEModelSelect
(#128), que aponta a espinha dorsal para os pesos de estilização dedicados do Ditto. Se você precisar de uma transformação mais forte, pode anexar um LoRA com WanVideoLoraSelect
(#122). WanVideoBlockSwap
(#68) está disponível para gerenciamento de memória para que modelos maiores possam rodar suavemente em VRAM limitada.
Carregue seu clipe de origem com VHS_LoadVideo
(#101). Os quadros são então redimensionados para geometria consistente usando LayerUtility: ImageScaleByAspectRatio V2
(#76), que preserva a proporção enquanto visa uma resolução no lado longo controlada por uma entrada de número inteiro simples JWInteger
(#89). GetImageSizeAndCount
(#65) lê os quadros preparados e encaminha a largura, altura e contagem de quadros para os nós a jusante para que o Wan 2.1 Ditto amostre o tamanho espacial e a duração corretos. Um pequeno assistente de prompt CR Text
(#104) está incluído se você preferir escrever o prompt em seu próprio campo. O grupo intitulado "Limite Máximo de Variação" lembra você de manter o alvo de pixels no lado longo em um intervalo prático para resultados consistentes e uso estável de memória.
O condicionamento ocorre em duas faixas paralelas. WanVideoTextEncode
(#111) transforma seu prompt em embeddings de texto que definem a intenção e o estilo. WanVideoVACEEncode
(#126) codifica o vídeo preparado em embeddings visuais que preservam a estrutura e o movimento para edição. Um módulo de orientação opcional WanVideoSLG
(#129) controla como o modelo equilibra estilo e conteúdo através da trajetória de desnoising. WanVideoSampler
(#119) então funde a espinha dorsal Wan 2.1 com Ditto, os embeddings de texto e os embeddings visuais para gerar latentes estilizados. Finalmente, WanVideoDecode
(#87) reconstrói quadros a partir de latentes para produzir a sequência estilizada com a consistência temporal pela qual o Wan 2.1 Ditto é conhecido.
A exportação principal usa VHS_VideoCombine
(#95) para salvar a renderização Wan 2.1 Ditto na taxa de quadros selecionada. Para revisão rápida, o gráfico junta quadros originais e estilizados usando ImageConcatMulti
(#94), dimensiona a comparação com ImageScaleToTotalPixels
(#133) e grava um filme lado a lado via VHS_VideoCombine
(#100). Você geralmente obterá dois vídeos na pasta de saída: uma renderização estilizada limpa e um clipe de comparação que ajuda as partes interessadas a aprovar ou iterar mais rapidamente.
Você pode começar com prompts curtos e claros e iterar. Exemplos que funcionam bem com Wan 2.1 Ditto:
WanVideoVACEModelSelect
(#128)
Escolha quais pesos do Ditto usar para estilização. O modelo padrão global do Ditto é uma escolha equilibrada para a maioria das filmagens. Se seu objetivo é a conversão de anime para real, selecione a variante sim‑to‑real do Ditto referenciada na nota do nó. Trocar as variantes do Ditto muda o caráter do restilo sem alterar outras configurações.
WanVideoVACEEncode
(#126)
Constrói o condicionamento visual a partir de seus quadros de entrada. Os controles principais são width
, height
e num_frames
, que devem corresponder ao vídeo preparado para os melhores resultados. Use strength
para ajustar quão assertivamente o estilo do Ditto influencia a edição, e vace_start_percent
e vace_end_percent
para limitar quando o condicionamento se aplica ao longo da trajetória de difusão. Ative tiled_vae
em resoluções muito grandes para reduzir a pressão de memória.
WanVideoTextEncode
(#111)
Codifica prompts positivos e negativos via o codificador mT5‑XXL para guiar estilo e conteúdo. Mantenha os prompts positivos concisos e descritivos, e use negativos para suprimir artefatos como cintilação ou super-saturação. As opções force_offload
e device
permitem que você troque velocidade por memória se estiver executando modelos grandes.
WanVideoSampler
(#119)
Executa a espinha dorsal Wan 2.1 com estilização Ditto para gerar os latentes finais. As configurações mais impactantes são steps
, cfg
, scheduler
e seed
. Use denoise_strength
quando quiser preservar mais da estrutura original, e mantenha slg_args
conectado para equilibrar fidelidade de conteúdo contra a força do estilo. Aumentar os passos ou a orientação pode melhorar o detalhe ao custo de tempo.
ImageScaleByAspectRatio V2
(#76)
Define um tamanho alvo estável para todos os quadros antes do condicionamento. Dirija o alvo do lado longo com o inteiro independente para que você possa testar pré-visualizações pequenas e rápidas e depois aumentar a resolução para renderizações finais. Mantenha a escala consistente entre as iterações para que as comparações A/B sejam significativas.
VHS_LoadVideo
(#101) e VHS_VideoCombine
(#95, #100)
Esses nós lidam com a decodificação e codificação. Combine taxas de quadros com a fonte quando você se importa com o tempo. O escritor de comparação é útil durante a exploração e pode ser desativado para exportações finais se você quiser apenas o resultado estilizado.
WanVideoVACEModelSelect
antes da amostragem.Este fluxo de trabalho Wan 2.1 Ditto torna a restilização de vídeo de alta qualidade previsível e rápida, com prompts limpos, movimento coerente e saídas prontas para revisão imediata ou entrega.
Este fluxo de trabalho implementa e se baseia nos seguintes trabalhos e recursos. Agradecemos imensamente a EzioBy por Wan 2.1 Ditto Source por suas contribuições e manutenção. Para detalhes autoritativos, consulte a documentação original e os repositórios vinculados abaixo.
Nota: O uso dos modelos, conjuntos de dados e códigos referenciados está sujeito às respectivas licenças e termos fornecidos por seus autores e mantenedores.
RunComfy é a principal ComfyUI plataforma, oferecendo ComfyUI online ambiente e serviços, juntamente com fluxos de trabalho do ComfyUI apresentando visuais impressionantes. RunComfy também oferece AI Playground, permitindo que artistas utilizem as mais recentes ferramentas de AI para criar arte incrível.