Wan2.2 S2V no ComfyUI Workflow | Áudio para Vídeo Falante

ComfyUI Wan2.2 S2V Workflow

Wan2.2 S2V in ComfyUI Workflow | Audio to Talking Video

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

ComfyUI Wan2.2 S2V Examples

Wan2.2 S2V: Som para Vídeo a partir de uma Única Imagem no ComfyUI#

Wan2.2 S2V é um fluxo de trabalho de som para vídeo que transforma uma imagem de referência e um clipe de áudio em um vídeo sincronizado. É construído em torno da família de modelos Wan 2.2 e projetado para criadores que desejam movimento expressivo, sincronização labial e dinâmica de cena que seguem som ou fala. Use Wan2.2 S2V para avatares falantes, loops musicais e batidas de história rápidas sem animação manual.

Este gráfico do ComfyUI acopla recursos de áudio com prompts de texto e uma imagem estática para gerar um clipe curto, depois mescla os quadros com o áudio original. O resultado é um pipeline compacto e confiável que mantém a aparência de sua imagem de referência enquanto permite que o áudio dirija o tempo e a expressão.

Modelos principais no fluxo de trabalho do ComfyUI Wan2.2 S2V#

Wan 2.2 S2V UNet (14B, bf16). O gerador central que funde recursos de áudio, condicionamento de texto e uma imagem de referência para produzir latentes de vídeo.
Wan VAE (wan_2.1_vae). Codifica/decodifica entre espaço latente e espaço de pixels para preservar detalhes e fidelidade de cor nas renderizações do Wan2.2 S2V.
Codificador de texto UMT5-XXL. Fornece condicionamento de prompt para estilo e conteúdo; veja o cartão do modelo base para referência: google/umt5-xxl.
Codificador de áudio Wav2Vec2 Large. Extrai recursos robustos de fala e ritmo para geração condicionada por som; veja um cartão arquetípico como facebook/wav2vec2-large-960h.

Como usar o fluxo de trabalho ComfyUI Wan2.2 S2V#

O fluxo de trabalho está organizado em três grupos. Você pode executá-los de ponta a ponta ou ajustar cada estágio conforme necessário.

1) Entradas#

Este grupo carrega os componentes de texto, imagem e VAE do Wan e prepara seus prompts. Use CLIPLoader (#38) com CLIPTextEncode (#6) para o prompt positivo e CLIPTextEncode (#7) para o prompt negativo para direcionar estilo e qualidade. Carregue sua imagem de referência com LoadImage (#52); isso ancora identidade, enquadramento e paleta para Wan2.2 S2V. Mantenha os prompts positivos descritivos mas breves para que o áudio retenha controle sobre o movimento. O VAE (VAELoader (#39)) e o carregador de modelo (UNETLoader (#37)) estão pré-conectados e geralmente são deixados como estão.

2) Carregar Áudio TTS ou Áudio Personalizado#

Escolha como fornecer áudio. Para testes rápidos, gere fala com UnifiedTTSTextNode (#71) e visualize com PreviewAudio (#65). Para usar sua própria música ou diálogo, use LoadAudio (#78) para arquivos locais ou VHS_LoadAudioUpload (#87) para uploads; ambos alimentam um Reroute (#88) para que os nós a jusante vejam uma única fonte de áudio. A duração é medida por Audio Duration (mtb) (#68), depois convertida para uma contagem de quadros por MathExpression|pysssss (#67) rotulado como “Áudio para Quadro em 16 FPS.” Os recursos de áudio são produzidos por AudioEncoderLoader (#57) e AudioEncoderEncode (#56), que juntos fornecem o nó Wan2.2 S2V com um AUDIO_ENCODER_OUTPUT.

3) KSampler e Saída#

WanSoundImageToVideo (#55) é o coração do Wan2.2 S2V. Ele consome seus prompts, VAE, recursos de áudio, imagem de referência e um inteiro length (quadros) para emitir uma sequência latente condicionada. Essa latente vai para KSampler (#3), cujas configurações do sampler governam a coerência geral e os detalhes enquanto respeitam o tempo orientado pelo áudio. A latente amostrada é decodificada por VAEDecode (#8) em quadros, depois VHS_VideoCombine (#66) monta o vídeo e mescla seu áudio original para produzir um MP4. ModelSamplingSD3 (#54) é usado para definir a família de sampler correta para o backbone Wan.

Nós principais no fluxo de trabalho ComfyUI Wan2.2 S2V#

`WanSoundImageToVideo` (#55)#

Dirige o movimento sincronizado com áudio a partir de uma única imagem. Defina ref_image para o retrato ou cena que você deseja animar, conecte audio_encoder_output do codificador e forneça um length em quadros. Aumente length para clipes mais longos ou reduza para pré-visualizações mais rápidas. Se você alterar FPS em outro lugar, atualize o valor dos quadros de acordo para que o tempo permaneça sincronizado.

`AudioEncoderLoader` (#57) e `AudioEncoderEncode` (#56)#

Carregue e execute o codificador baseado em Wav2Vec2 que transforma fala ou música em recursos que o Wan pode seguir. Use fala limpa para sincronização labial, ou áudio percussivo/com forte batida para movimento rítmico. Se seu idioma de entrada ou domínio for diferente, troque por um checkpoint Wav2Vec2 compatível para melhorar o alinhamento.

`CLIPTextEncode` (#6) e `CLIPTextEncode` (#7)#

Codificadores de prompt positivo e negativo para condicionamento UMT5/CLIP. Mantenha os prompts positivos concisos, focando em termos de assunto, estilo e tomada; use prompts negativos para evitar artefatos indesejados. Prompts excessivamente forçados podem lutar contra o áudio, então prefira orientações leves e deixe Wan2.2 S2V lidar com o movimento.

`KSampler` (#3)#

Amostra a sequência latente produzida pelo nó Wan2.2 S2V. Ajuste o tipo de sampler e os passos para trocar velocidade por fidelidade; mantenha uma semente fixa quando quiser tempo reprodutível com o mesmo áudio. Se o movimento parecer muito rígido ou ruidoso, pequenas mudanças aqui podem melhorar notavelmente a estabilidade temporal.

`VHS_VideoCombine` (#66)#

Cria o vídeo final e anexa o áudio. Defina frame_rate para corresponder ao seu FPS pretendido e confirme se o comprimento do clipe corresponde aos seus quadros length. O contêiner, o formato de pixel e os controles de qualidade são expostos para exportações rápidas; use qualidade mais alta quando você planeja pós-processar em um editor.

Extras opcionais#

Comece com uma imagem de referência bem iluminada e de frente no seu aspecto de proporção alvo para minimizar desvio de identidade e corte.
Para sincronização labial, mantenha a boca desobstruída e use narração limpa; música com transientes fortes funciona bem para movimento orientado por batida.
A conversão de FPS padrão assume 16 fps; se você alterar FPS, atualize a matemática em “Áudio para Quadro em 16 FPS” para que os quadros se alinhem com a duração do áudio.
Use a pré-visualização de áudio e a pré-visualização ao vivo do VHS para iterar rapidamente, depois aumente a qualidade assim que gostar do tempo.
Clipes mais longos escalam computação e VRAM; corte silêncio ou divida roteiros longos em cenas curtas ao produzir vídeos com várias tomadas com Wan2.2 S2V.

Agradecimentos#

Este fluxo de trabalho implementa e se baseia nos seguintes trabalhos e recursos. Agradecemos imensamente ao Wan-Video por Wan2.2 (incluindo código de inferência S2V), Wan-AI por Wan2.2-S2V-14B, e Gao et al. (2025) por Wan-S2V: Geração de Vídeo Cinemático Orientada por Áudio por suas contribuições e manutenção. Para detalhes autoritários, consulte a documentação original e repositórios vinculados abaixo.

Recursos#

Demo Wan-Video/Wan2.2 S2V
- GitHub: Wan-Video/Wan2.2
- Hugging Face: Wan-AI/Wan2.2-S2V-14B
- arXiv: Wan-S2V: Geração de Vídeo Cinemático Orientada por Áudio
- Docs / Notas de Lançamento: Wan2.2 S2V Demo

Nota: O uso dos modelos, conjuntos de dados e código referenciados está sujeito às respectivas licenças e termos fornecidos por seus autores e mantenedores.

Want More ComfyUI Workflows?

EchoMimic | Animações de Retratos Guiadas por Áudio

Gere cabeças falantes realistas e gestos corporais sincronizados com o áudio fornecido.

Mochi 1 | Genmo Texto para Vídeo

Demonstração de Texto para Vídeo Usando o Modelo Genmo Mochi 1

Hallo2 | Animação de Retrato com Sincronização Labial

Sincronização labial guiada por áudio para animação de retratos em 4K.

Fluxo de Trabalho LTX-2.3 ICLoRA LipDub | Gerador de Vídeo com Sincronização Labial

Transforme qualquer vídeo em uma obra-prima falada com sincronização labial perfeita.

Z Image ControlNet | Gerador de Imagens de Precisão

Controle total sobre poses de imagem, bordas e layouts de profundidade.

AnimateDiff + ControlNet | Estilo de Escultura de Mármore

Transforme seus vídeos em esculturas de mármore atemporais, capturando a essência da arte clássica.

Creative Software Soap

Combine IPAdapter e ControlNet para aplicação eficiente de texturas e visuais aprimorados.

Stable Diffusion 3 (SD3) | Texto para Imagem

Integre o Stable Diffusion 3 medium em seu fluxo de trabalho para produzir arte de IA excepcional.

Suporte

Recursos

Legal

RunComfy

RunComfy é a principal ComfyUI plataforma, oferecendo ComfyUI online ambiente e serviços, juntamente com fluxos de trabalho do ComfyUI apresentando visuais impressionantes. RunComfy também oferece AI Models, permitindo que artistas utilizem as mais recentes ferramentas de AI para criar arte incrível.

Wan2.2 S2V | Gerador de Som para Vídeo