Wan2.2 S2V: Som para Vídeo a partir de uma Única Imagem no ComfyUI
Wan2.2 S2V é um fluxo de trabalho de som para vídeo que transforma uma imagem de referência e um clipe de áudio em um vídeo sincronizado. É construído em torno da família de modelos Wan 2.2 e projetado para criadores que desejam movimento expressivo, sincronização labial e dinâmica de cena que seguem som ou fala. Use Wan2.2 S2V para avatares falantes, loops musicais e batidas de história rápidas sem animação manual.
Este gráfico do ComfyUI acopla recursos de áudio com prompts de texto e uma imagem estática para gerar um clipe curto, depois mescla os quadros com o áudio original. O resultado é um pipeline compacto e confiável que mantém a aparência de sua imagem de referência enquanto permite que o áudio dirija o tempo e a expressão.
Modelos principais no fluxo de trabalho do ComfyUI Wan2.2 S2V
- Wan 2.2 S2V UNet (14B, bf16). O gerador central que funde recursos de áudio, condicionamento de texto e uma imagem de referência para produzir latentes de vídeo.
- Wan VAE (wan_2.1_vae). Codifica/decodifica entre espaço latente e espaço de pixels para preservar detalhes e fidelidade de cor nas renderizações do Wan2.2 S2V.
- Codificador de texto UMT5-XXL. Fornece condicionamento de prompt para estilo e conteúdo; veja o cartão do modelo base para referência: google/umt5-xxl.
- Codificador de áudio Wav2Vec2 Large. Extrai recursos robustos de fala e ritmo para geração condicionada por som; veja um cartão arquetípico como facebook/wav2vec2-large-960h.
Como usar o fluxo de trabalho ComfyUI Wan2.2 S2V
O fluxo de trabalho está organizado em três grupos. Você pode executá-los de ponta a ponta ou ajustar cada estágio conforme necessário.
1) Entradas
Este grupo carrega os componentes de texto, imagem e VAE do Wan e prepara seus prompts. Use CLIPLoader (#38) com CLIPTextEncode (#6) para o prompt positivo e CLIPTextEncode (#7) para o prompt negativo para direcionar estilo e qualidade. Carregue sua imagem de referência com LoadImage (#52); isso ancora identidade, enquadramento e paleta para Wan2.2 S2V. Mantenha os prompts positivos descritivos mas breves para que o áudio retenha controle sobre o movimento. O VAE (VAELoader (#39)) e o carregador de modelo (UNETLoader (#37)) estão pré-conectados e geralmente são deixados como estão.
2) Carregar Áudio TTS ou Áudio Personalizado
Escolha como fornecer áudio. Para testes rápidos, gere fala com UnifiedTTSTextNode (#71) e visualize com PreviewAudio (#65). Para usar sua própria música ou diálogo, use LoadAudio (#78) para arquivos locais ou VHS_LoadAudioUpload (#87) para uploads; ambos alimentam um Reroute (#88) para que os nós a jusante vejam uma única fonte de áudio. A duração é medida por Audio Duration (mtb) (#68), depois convertida para uma contagem de quadros por MathExpression|pysssss (#67) rotulado como “Áudio para Quadro em 16 FPS.” Os recursos de áudio são produzidos por AudioEncoderLoader (#57) e AudioEncoderEncode (#56), que juntos fornecem o nó Wan2.2 S2V com um AUDIO_ENCODER_OUTPUT.
3) KSampler e Saída
WanSoundImageToVideo (#55) é o coração do Wan2.2 S2V. Ele consome seus prompts, VAE, recursos de áudio, imagem de referência e um inteiro length (quadros) para emitir uma sequência latente condicionada. Essa latente vai para KSampler (#3), cujas configurações do sampler governam a coerência geral e os detalhes enquanto respeitam o tempo orientado pelo áudio. A latente amostrada é decodificada por VAEDecode (#8) em quadros, depois VHS_VideoCombine (#66) monta o vídeo e mescla seu áudio original para produzir um MP4. ModelSamplingSD3 (#54) é usado para definir a família de sampler correta para o backbone Wan.
Nós principais no fluxo de trabalho ComfyUI Wan2.2 S2V
WanSoundImageToVideo (#55)
Dirige o movimento sincronizado com áudio a partir de uma única imagem. Defina ref_image para o retrato ou cena que você deseja animar, conecte audio_encoder_output do codificador e forneça um length em quadros. Aumente length para clipes mais longos ou reduza para pré-visualizações mais rápidas. Se você alterar FPS em outro lugar, atualize o valor dos quadros de acordo para que o tempo permaneça sincronizado.
AudioEncoderLoader (#57) e AudioEncoderEncode (#56)
Carregue e execute o codificador baseado em Wav2Vec2 que transforma fala ou música em recursos que o Wan pode seguir. Use fala limpa para sincronização labial, ou áudio percussivo/com forte batida para movimento rítmico. Se seu idioma de entrada ou domínio for diferente, troque por um checkpoint Wav2Vec2 compatível para melhorar o alinhamento.
CLIPTextEncode (#6) e CLIPTextEncode (#7)
Codificadores de prompt positivo e negativo para condicionamento UMT5/CLIP. Mantenha os prompts positivos concisos, focando em termos de assunto, estilo e tomada; use prompts negativos para evitar artefatos indesejados. Prompts excessivamente forçados podem lutar contra o áudio, então prefira orientações leves e deixe Wan2.2 S2V lidar com o movimento.
KSampler (#3)
Amostra a sequência latente produzida pelo nó Wan2.2 S2V. Ajuste o tipo de sampler e os passos para trocar velocidade por fidelidade; mantenha uma semente fixa quando quiser tempo reprodutível com o mesmo áudio. Se o movimento parecer muito rígido ou ruidoso, pequenas mudanças aqui podem melhorar notavelmente a estabilidade temporal.
VHS_VideoCombine (#66)
Cria o vídeo final e anexa o áudio. Defina frame_rate para corresponder ao seu FPS pretendido e confirme se o comprimento do clipe corresponde aos seus quadros length. O contêiner, o formato de pixel e os controles de qualidade são expostos para exportações rápidas; use qualidade mais alta quando você planeja pós-processar em um editor.
Extras opcionais
- Comece com uma imagem de referência bem iluminada e de frente no seu aspecto de proporção alvo para minimizar desvio de identidade e corte.
- Para sincronização labial, mantenha a boca desobstruída e use narração limpa; música com transientes fortes funciona bem para movimento orientado por batida.
- A conversão de FPS padrão assume 16 fps; se você alterar FPS, atualize a matemática em “Áudio para Quadro em 16 FPS” para que os quadros se alinhem com a duração do áudio.
- Use a pré-visualização de áudio e a pré-visualização ao vivo do VHS para iterar rapidamente, depois aumente a qualidade assim que gostar do tempo.
- Clipes mais longos escalam computação e VRAM; corte silêncio ou divida roteiros longos em cenas curtas ao produzir vídeos com várias tomadas com Wan2.2 S2V.
Agradecimentos
Este fluxo de trabalho implementa e se baseia nos seguintes trabalhos e recursos. Agradecemos imensamente ao Wan-Video por Wan2.2 (incluindo código de inferência S2V), Wan-AI por Wan2.2-S2V-14B, e Gao et al. (2025) por Wan-S2V: Geração de Vídeo Cinemático Orientada por Áudio por suas contribuições e manutenção. Para detalhes autoritários, consulte a documentação original e repositórios vinculados abaixo.
Recursos
- Demo Wan-Video/Wan2.2 S2V
- GitHub: Wan-Video/Wan2.2
- Hugging Face: Wan-AI/Wan2.2-S2V-14B
- arXiv: Wan-S2V: Geração de Vídeo Cinemático Orientada por Áudio
- Docs / Notas de Lançamento: Wan2.2 S2V Demo
Nota: O uso dos modelos, conjuntos de dados e código referenciados está sujeito às respectivas licenças e termos fornecidos por seus autores e mantenedores.

