Wan Alpha: texto-a-vídeo transparente para composição profissional
Wan Alpha é um fluxo de trabalho ComfyUI desenvolvido especificamente para gerar vídeos com um canal alpha nativo usando a família Wan 2.1. Produz simultaneamente RGB e alpha para que personagens, adereços e efeitos caiam diretamente nas linhas do tempo sem keying ou rotoscopia. Para VFX, gráficos em movimento e aplicativos interativos, Wan Alpha oferece bordas limpas, efeitos semi-transparentes e máscaras precisas para produção.
Construído em torno de Wan2.1‑T2V‑14B e um par de VAE ciente de alpha, Wan Alpha equilibra fidelidade e velocidade. A aceleração opcional LightX2V LoRA encurta a amostragem enquanto preserva os detalhes, e o fluxo de trabalho exporta sequências de quadros RGBA, além de uma prévia animada em WebP para revisão rápida.
Modelos principais no fluxo de trabalho Comfyui Wan Alpha
- Wan2.1‑T2V‑14B. Modelo base de texto-a-vídeo que impulsiona a estrutura da cena, movimento e qualidade de renderização. Pesos e códigos oficiais são mantidos na organização Wan-Video no GitHub. Wan-Video/Wan2.1
- Codificador de texto UMT5‑XXL. Codificador multilíngue usado para tokenizar e incorporar prompts para modelos Wan, permitindo frases de prompt ricas em vários idiomas. google/umt5-xxl e UMT5 docs
- Par de VAE Wan‑Alpha. Um design de VAE que aprende RGB e alpha conjuntamente para que o alpha decodificado alinhe pixel a pixel com RGB, suportando bordas finas e semi-transparência. Veja o relatório técnico Wan‑Alpha para mais informações. Wan‑Alpha (arXiv)
- LightX2V LoRA. Aceleração LoRA opcional que destila longos amostradores para alguns passos para texto-a-vídeo mais rápido enquanto mantém a qualidade perceptual. ModelTC/LightX2V
Como usar o fluxo de trabalho Comfyui Wan Alpha
Este gráfico ComfyUI segue um caminho direto do prompt para quadros RGBA: carregar modelos, codificar texto, alocar um latente de vídeo, amostrar, decodificar RGB e alpha em sincronia, e então salvar.
Carregamento de Modelo e LoRA
- Comece em
Load Wan 2.1 t2v 14B(#37) para trazer o modelo base. Se você usar aceleração ou refinamentos de estilo, aplique-os comLoraLoaderModelOnly(#59) eLoraLoaderModelOnly(#65) em sequência. O modelo então passa porModelSamplingSD3(#48), que configura um amostrador compatível com o ponto de verificação carregado. Esta pilha define o movimento anterior e o estilo de renderização que Wan Alpha refinará nas etapas posteriores.
Codificação de Prompt
Load Text Encoder(#38) carrega o codificador de texto UMT5‑XXL. Insira sua descrição emCLIP Text Encode (Positive Prompt)(#6); mantenha seu assunto, ação, enquadramento de câmera e a frase “fundo transparente” concisos. UseCLIP Text Encode (Negative Prompt) Useless s(#7) para desviar de halos ou desordem de fundo, se necessário. Essas codificações condicionam tanto a geração de RGB quanto de alpha, para que bordas e sinais de transparência sigam sua intenção.
Configuração de Canvas de Vídeo
- Use
EmptyHunyuanLatentVideo(#40) para definir o canvas de vídeo latente. Definalargura,altura,quadrosefpspara ajustar sua cena; resoluções mais altas ou clipes mais longos exigem mais memória. Este nó aloca um volume latente temporalmente consistente que Wan Alpha preencherá com movimento e aparência. Considere combinar a duração e a taxa de quadros com sua edição para evitar reamostragem depois.
Geração
- O
KSampler(#3) realiza difusão no vídeo latente usando sua pilha de modelos e condicionamento de prompt. Ajusteseedpara variações e selecione umsamplereschedulerque equilibrem velocidade e detalhe. Quando o LightX2V LoRA está ativo, você pode usar menos etapas para renderizações mais rápidas enquanto mantém a estabilidade. A saída é um único fluxo latente compartilhado pelo próximo estágio de decodificação para garantir alinhamento perfeito de RGBA.
Decodificação de RGB e alpha
RGB VAE Decode(#8) emparelha comVAELoader(#39) para reconstruir quadros RGB. Em paralelo,Alpha VAE Decode(#52) emparelha comVAELoader(#51) para reconstruir o canal alpha. Ambos os decodificadores leem o mesmo latente para que o matte alinhe exatamente com os pixels de cor, uma ideia central no design Wan‑Alpha para transparência consistente. Esta decodificação de caminho duplo é o que torna Wan Alpha pronto para composição direta.
Salvando e Visualizando
SavePNGZIP_and_Preview_RGBA_AnimatedWEBP(#73) escreve dois entregáveis: um arquivo zip de quadros PNG RGBA e uma prévia animada em WebP compacta. A sequência de quadros é amigável para produção em NLEs e compositores, enquanto a prévia acelera as revisões. Nomeie seu conjunto de saída, escolha um comprimento e qualidade de prévia, e execute o nó para empacotar seu resultado.
Nós principais no fluxo de trabalho Comfyui Wan Alpha
EmptyHunyuanLatentVideo (#40)
- Função: define a resolução espacial e temporal do clipe gerado. Ajuste
largura,altura,quadrosefpspara corresponder à entrega. Canvas maiores e durações mais longas aumentam as necessidades de VRAM; considere rascunhos mais curtos para desenvolvimento visual e, em seguida, escale para finais.
KSampler (#3)
- Função: o principal removedor de ruído para Wan Alpha. Ajuste
seedpara explorações,stepspara trocar velocidade por detalhe,samplereschedulerpara estabilidade, ecfgpara equilibrar adesão ao prompt com movimento natural. Com LightX2V LoRA ativo, você pode reduzirstepssignificativamente enquanto preserva a qualidade graças à destilação de etapas. Veja LightX2V para contexto sobre amostragem rápida. ModelTC/LightX2V
LoraLoaderModelOnly (#59)
- Função: carrega o LightX2V LoRA que acelera a amostragem Wan2.1. Use o controle
strengthpara misturar seu efeito se você ver superafiação ou artefatos de tempo. Mantenha este LoRA mais próximo do modelo base na cadeia para que LoRAs a jusante herdem seus benefícios de velocidade.
LoraLoaderModelOnly (#65)
- Função: carrega um LoRA adicional para refinamento de estilo ou domínio. Modere
strengthpara evitar sobrecarregar a coerência de movimento; combine com seu prompt em vez de substituí-lo. Se aparecerem artefatos, reduza este LoRA antes de alterar o amostrador.
VAELoader (#39) RGB
- Função: fornece o VAE RGB usado por
RGB VAE Decode(#8). Mantenha este emparelhado com o VAE alpha Wan‑Alpha para garantir que ambos os decodificadores interpretem latentes de forma coerente. Trocar por VAEs não relacionados pode desalinhá-los ou suavizar a transparência. Antecedentes sobre o design conjunto RGB–alpha estão no relatório Wan‑Alpha. Wan‑Alpha (arXiv)
VAELoader (#51) Alpha
- Função: fornece o VAE alpha usado por
Alpha VAE Decode(#52). Reconstrói o matte do mesmo espaço latente que o RGB, para que a transparência corresponda ao movimento e detalhe. Se você personalizar os VAEs, teste se RGB e alpha ainda se alinham em bordas subpixel, como cabelo.
SavePNGZIP_and_Preview_RGBA_AnimatedWEBP (#73)
- Função: exporta ativos. Defina um
output_nameclaro para versionamento, escolha qualidade de prévia e taxa de quadros que reflitam o clipe gerado e mantenha a exportação PNG como seu master para composição sem perdas. Evite redimensionar entre decodificação e salvamento para preservar a fidelidade das bordas.
Extras Opcionais
- Prompts fortes para Wan Alpha descrevem explicitamente assunto, ação, câmera, iluminação e “fundo transparente.” Adicione materiais sutis como “cabelo esvoaçante” ou “vidro” para exercitar detalhes alpha.
- Para iteração rápida, use durações mais curtas ou taxas de quadros mais baixas, depois aumente as configurações quando aparência e movimento estiverem bloqueados.
- Se você vir halos, adicione negativos como “fundo, contorno, tela verde, franja branca” e mantenha a iluminação consistente no prompt.
- Ao combinar vários LoRAs, coloque LoRAs de aceleração mais cedo e LoRAs de estilo mais tarde, e mantenha forças modestas para reter realismo de movimento.
- Importe a sequência PNG RGBA diretamente para seu compositor; use o WebP animado apenas para prévias, não como um master.
Recursos usados no Wan Alpha
- Família de modelos Wan2.1 e código: Wan-Video/Wan2.1
- Codificador de texto UMT5: google/umt5-xxl e UMT5 docs
- Visão geral do método Wan‑Alpha: Wan‑Alpha (arXiv)
- Aceleração LightX2V: ModelTC/LightX2V
Agradecimentos
Este fluxo de trabalho implementa e constrói sobre os seguintes trabalhos e recursos. Agradecemos a WeChatCV por Wan-Alpha por suas contribuições e manutenção. Para detalhes autoritativos, consulte a documentação e os repositórios originais vinculados abaixo.
Recursos
- WeChatCV/Wan-Alpha
- GitHub: WeChatCV/Wan-Alpha
Nota: O uso dos modelos, conjuntos de dados e código referenciados está sujeito às respectivas licenças e termos fornecidos por seus autores e mantenedores.
