Wan 2.1 Ditto em ComfyUI | Estilização de Vídeo e Consistência de Movimento

Fluxo de trabalho de restilização de vídeo Wan 2.1 Ditto para ComfyUI

Este fluxo de trabalho aplica Wan 2.1 Ditto para reformular qualquer vídeo de entrada enquanto preserva a estrutura da cena e o movimento. É projetado para editores e criadores que desejam aparências cinematográficas, artísticas ou experimentais com forte consistência temporal. Você carrega um clipe, descreve o visual desejado e o Wan 2.1 Ditto produz uma renderização estilizada limpa além de uma comparação lado a lado opcional para revisão rápida.

O gráfico emparelha a espinha dorsal de texto para vídeo Wan 2.1 com a transferência de estilo do Ditto no nível do modelo, para que as mudanças ocorram de forma coerente entre os quadros em vez de como filtros quadro a quadro. Casos de uso comuns incluem conversões de anime, pixel art, claymation, aquarela, steampunk ou edições de sim para real. Se você já gera conteúdo com Wan, este fluxo de trabalho Wan 2.1 Ditto se encaixa diretamente no seu pipeline para um estilo de vídeo confiável e sem cintilação.

Principais modelos no fluxo de trabalho Comfyui Wan 2.1 Ditto

Modelo de texto para vídeo Wan2.1‑T2V‑14B. Serve como a espinha dorsal generativa que sintetiza movimento temporalmente consistente dado o texto e o condicionamento visual.
Wan 2.1 VAE. Codifica e decodifica latentes de vídeo para que o amostrador possa trabalhar em um espaço compacto e, em seguida, reconstruir quadros de resolução completa de forma confiável.
Codificador de texto mT5‑XXL. Converte prompts em embeddings de linguagem ricos que direcionam o conteúdo e o estilo da cena. Para informações sobre o mT5, veja o artigo de Xue et al. mT5: A Massively Multilingual Pre‑trained Text‑to‑Text Transformer.
Modelo de estilização Ditto para Wan 2.1. Fornece restilização robusta e global com forte coerência temporal. A abordagem Ditto e os arquivos do modelo estão documentados aqui: EzioBy/Ditto.
LoRA opcional para Wan 2.1 14B. Adiciona mudanças leves de estilo ou comportamento sem re-treinamento do modelo base, seguindo o método LoRA descrito em Hu et al., 2021.

Como usar o fluxo de trabalho Comfyui Wan 2.1 Ditto

O fluxo de trabalho é executado em quatro etapas: carregar modelos, preparar o vídeo de entrada, codificar texto e visuais, depois amostrar e exportar. Os grupos operam em sequência para produzir tanto uma renderização estilizada quanto uma comparação lado a lado opcional.

Modelos

Este grupo prepara tudo o que o Wan 2.1 Ditto precisa. A espinha dorsal base é carregada com WanVideoModelLoader (#130) e emparelhada com o WanVideoVAELoader (#60) e LoadWanVideoT5TextEncoder (#80). O componente Ditto é selecionado com WanVideoVACEModelSelect (#128), que aponta a espinha dorsal para os pesos de estilização dedicados do Ditto. Se você precisar de uma transformação mais forte, pode anexar um LoRA com WanVideoLoraSelect (#122). WanVideoBlockSwap (#68) está disponível para gerenciamento de memória para que modelos maiores possam rodar suavemente em VRAM limitada.

Parâmetros de entrada

Carregue seu clipe de origem com VHS_LoadVideo (#101). Os quadros são então redimensionados para geometria consistente usando LayerUtility: ImageScaleByAspectRatio V2 (#76), que preserva a proporção enquanto visa uma resolução no lado longo controlada por uma entrada de número inteiro simples JWInteger (#89). GetImageSizeAndCount (#65) lê os quadros preparados e encaminha a largura, altura e contagem de quadros para os nós a jusante para que o Wan 2.1 Ditto amostre o tamanho espacial e a duração corretos. Um pequeno assistente de prompt CR Text (#104) está incluído se você preferir escrever o prompt em seu próprio campo. O grupo intitulado "Limite Máximo de Variação" lembra você de manter o alvo de pixels no lado longo em um intervalo prático para resultados consistentes e uso estável de memória.

Amostragem

O condicionamento ocorre em duas faixas paralelas. WanVideoTextEncode (#111) transforma seu prompt em embeddings de texto que definem a intenção e o estilo. WanVideoVACEEncode (#126) codifica o vídeo preparado em embeddings visuais que preservam a estrutura e o movimento para edição. Um módulo de orientação opcional WanVideoSLG (#129) controla como o modelo equilibra estilo e conteúdo através da trajetória de desnoising. WanVideoSampler (#119) então funde a espinha dorsal Wan 2.1 com Ditto, os embeddings de texto e os embeddings visuais para gerar latentes estilizados. Finalmente, WanVideoDecode (#87) reconstrói quadros a partir de latentes para produzir a sequência estilizada com a consistência temporal pela qual o Wan 2.1 Ditto é conhecido.

Saídas e comparações

A exportação principal usa VHS_VideoCombine (#95) para salvar a renderização Wan 2.1 Ditto na taxa de quadros selecionada. Para revisão rápida, o gráfico junta quadros originais e estilizados usando ImageConcatMulti (#94), dimensiona a comparação com ImageScaleToTotalPixels (#133) e grava um filme lado a lado via VHS_VideoCombine (#100). Você geralmente obterá dois vídeos na pasta de saída: uma renderização estilizada limpa e um clipe de comparação que ajuda as partes interessadas a aprovar ou iterar mais rapidamente.

Ideias de prompts

Você pode começar com prompts curtos e claros e iterar. Exemplos que funcionam bem com Wan 2.1 Ditto:

Transforme em estilo de anime japonês, vídeo com sombreamento.
Transforme em vídeo de Pixel Art.
Transforme em estilo de esboço a lápis.
Transforme em vídeo de Claymation.
Transforme em estilo de desenho em aquarela.
Transforme em estilo Steampunk com engrenagens, tubos e detalhes em latão.
Transforme em estilo Cyberpunk com neon e implantes futuristas.
Transforme em estilo Ukiyo‑e.
Transforme em estilo de arte renascentista.
Transforme em um desenho de Van Gogh.
Transforme em estilo LEGO.
Transforme em estilo Ghibli.
Transforme em estilo Chibi 3D.
Transforme em estilo de corte de papel.

Nós chave no fluxo de trabalho Comfyui Wan 2.1 Ditto

WanVideoVACEModelSelect (#128) Escolha quais pesos do Ditto usar para estilização. O modelo padrão global do Ditto é uma escolha equilibrada para a maioria das filmagens. Se seu objetivo é a conversão de anime para real, selecione a variante sim‑to‑real do Ditto referenciada na nota do nó. Trocar as variantes do Ditto muda o caráter do restilo sem alterar outras configurações.

WanVideoVACEEncode (#126) Constrói o condicionamento visual a partir de seus quadros de entrada. Os controles principais são width, height e num_frames, que devem corresponder ao vídeo preparado para os melhores resultados. Use strength para ajustar quão assertivamente o estilo do Ditto influencia a edição, e vace_start_percent e vace_end_percent para limitar quando o condicionamento se aplica ao longo da trajetória de difusão. Ative tiled_vae em resoluções muito grandes para reduzir a pressão de memória.

WanVideoTextEncode (#111) Codifica prompts positivos e negativos via o codificador mT5‑XXL para guiar estilo e conteúdo. Mantenha os prompts positivos concisos e descritivos, e use negativos para suprimir artefatos como cintilação ou super-saturação. As opções force_offload e device permitem que você troque velocidade por memória se estiver executando modelos grandes.

WanVideoSampler (#119) Executa a espinha dorsal Wan 2.1 com estilização Ditto para gerar os latentes finais. As configurações mais impactantes são steps, cfg, scheduler e seed. Use denoise_strength quando quiser preservar mais da estrutura original, e mantenha slg_args conectado para equilibrar fidelidade de conteúdo contra a força do estilo. Aumentar os passos ou a orientação pode melhorar o detalhe ao custo de tempo.

ImageScaleByAspectRatio V2 (#76) Define um tamanho alvo estável para todos os quadros antes do condicionamento. Dirija o alvo do lado longo com o inteiro independente para que você possa testar pré-visualizações pequenas e rápidas e depois aumentar a resolução para renderizações finais. Mantenha a escala consistente entre as iterações para que as comparações A/B sejam significativas.

VHS_LoadVideo (#101) e VHS_VideoCombine (#95, #100) Esses nós lidam com a decodificação e codificação. Combine taxas de quadros com a fonte quando você se importa com o tempo. O escritor de comparação é útil durante a exploração e pode ser desativado para exportações finais se você quiser apenas o resultado estilizado.

Extras opcionais

Para edições de anime para real, escolha a variante sim‑to‑real do Ditto em WanVideoVACEModelSelect antes da amostragem.
Comece com prompts curtos como "Transforme em estilo de desenho em aquarela" e refine com 1 ou 2 descritores. Listas longas tendem a diluir a força do estilo.
Use prompts negativos para reduzir cintilação, artefatos de compressão e destaques excessivamente brilhantes ao empurrar visuais fortes.
Mantenha sua resolução do lado longo consistente entre as iterações para estabilizar os resultados e tornar as sementes reproduzíveis.
Quando a VRAM estiver apertada, ative as opções de descarregamento de modelo e mosaico, ou visualize em um valor menor do lado longo antes de renderizar em tamanho completo.

Este fluxo de trabalho Wan 2.1 Ditto torna a restilização de vídeo de alta qualidade previsível e rápida, com prompts limpos, movimento coerente e saídas prontas para revisão imediata ou entrega.

Agradecimentos

Este fluxo de trabalho implementa e se baseia nos seguintes trabalhos e recursos. Agradecemos imensamente a EzioBy por Wan 2.1 Ditto Source por suas contribuições e manutenção. Para detalhes autoritativos, consulte a documentação original e os repositórios vinculados abaixo.

Recursos

EzioBy/Wan 2.1 Ditto Source
- GitHub: EzioBy/Ditto

Nota: O uso dos modelos, conjuntos de dados e códigos referenciados está sujeito às respectivas licenças e termos fornecidos por seus autores e mantenedores.

Want More ComfyUI Workflows?

Wan 2.1 Video Restyle | Transformação Consistente de Estilo de Vídeo

Transforme o estilo do seu vídeo aplicando o primeiro quadro reestilizado usando o fluxo de trabalho Wan 2.1 video restyle.

Wan 2.1 LoRA

Melhore a geração de vídeo Wan 2.1 com modelos LoRA para estilo e personalização aprimorados.

Wan 2.1 Control LoRA | Profundidade e Azulejo

Avance na geração de vídeo Wan 2.1 com LoRAs de profundidade e azulejo leves para melhorar a estrutura e o detalhe.

Wan 2.1 | Geração de Vídeo Revolucionária

Crie vídeos incríveis a partir de texto ou imagens com IA revolucionária rodando em CPUs comuns.

Wan FusionX | T2V+I2V+VACE Completo

A solução de geração de vídeo mais poderosa até agora! Detalhe com qualidade de cinema, seu estúdio de cinema pessoal.

Reallusion AI Render | Coleção de Fluxos de Trabalho de 3D para ComfyUI

ComfyUI + Reallusion = Velocidade, Acessibilidade e Facilidade para visuais 3D

Hallo2 | Animação de Retrato com Sincronização Labial

Sincronização labial guiada por áudio para animação de retratos em 4K.

Controle de Pose LipSync S2V | Gerador de Vídeo Expressivo

Transforme imagens em personagens falantes e em movimento com controle de pose e áudio.

Suporte

Recursos

Legal

RunComfy

RunComfy é a principal ComfyUI plataforma, oferecendo ComfyUI online ambiente e serviços, juntamente com fluxos de trabalho do ComfyUI apresentando visuais impressionantes. RunComfy também oferece AI Models, permitindo que artistas utilizem as mais recentes ferramentas de AI para criar arte incrível.

Wan 2.1 Ditto | Gerador de Restilização de Vídeo Cinematográfico

Fluxo de trabalho de restilização de vídeo Wan 2.1 Ditto para ComfyUI

Principais modelos no fluxo de trabalho Comfyui Wan 2.1 Ditto

Como usar o fluxo de trabalho Comfyui Wan 2.1 Ditto

Modelos

Parâmetros de entrada

Amostragem

Saídas e comparações

Ideias de prompts

Nós chave no fluxo de trabalho Comfyui Wan 2.1 Ditto

Extras opcionais

Agradecimentos

Recursos

Want More ComfyUI Workflows?

Wan 2.1 Video Restyle | Transformação Consistente de Estilo de Vídeo

Wan 2.1 LoRA

Wan 2.1 Control LoRA | Profundidade e Azulejo

Wan 2.1 | Geração de Vídeo Revolucionária

Wan FusionX | T2V+I2V+VACE Completo

Reallusion AI Render | Coleção de Fluxos de Trabalho de 3D para ComfyUI

Hallo2 | Animação de Retrato com Sincronização Labial

Controle de Pose LipSync S2V | Gerador de Vídeo Expressivo