logo
RunComfy
ComfyUIPlaygroundPricing
discord logo
Loading...
ComfyUI>Fluxos de Trabalho>Wan2.2 S2V | Gerador de Som para Vídeo

Wan2.2 S2V | Gerador de Som para Vídeo

Workflow Name: RunComfy/Wan2.2-S2V
Workflow ID: 0000...1280
Este fluxo de trabalho permite criar vídeo a partir de som e uma imagem, tornando possível visuais orientados por fala ou música. Você pode gerar rapidamente avatares falantes, loops musicais ou clipes expressivos sem animação manual. Preserva a fidelidade da imagem enquanto sincroniza lábios e expressões com o áudio. Você só precisa fornecer a voz ou música junto com uma imagem de referência, e ele produz um vídeo correspondente. Configuração fácil significa menos ajustes, mais criação. É projetado para animação sincronizada sem falhas.

ComfyUI Wan2.2 S2V Workflow

Wan2.2 S2V in ComfyUI Workflow | Audio to Talking Video
Want to run this workflow?
  • Fully operational workflows
  • No missing nodes or models
  • No manual setups required
  • Features stunning visuals

ComfyUI Wan2.2 S2V Examples

ComfyUI Wan2.2 S2V Description

Wan2.2 S2V: Som para Vídeo a partir de uma Única Imagem no ComfyUI

Wan2.2 S2V é um fluxo de trabalho de som para vídeo que transforma uma imagem de referência e um clipe de áudio em um vídeo sincronizado. É construído em torno da família de modelos Wan 2.2 e projetado para criadores que desejam movimento expressivo, sincronização labial e dinâmica de cena que seguem som ou fala. Use Wan2.2 S2V para avatares falantes, loops musicais e batidas de história rápidas sem animação manual.

Este gráfico do ComfyUI acopla recursos de áudio com prompts de texto e uma imagem estática para gerar um clipe curto, depois mescla os quadros com o áudio original. O resultado é um pipeline compacto e confiável que mantém a aparência de sua imagem de referência enquanto permite que o áudio dirija o tempo e a expressão.

Modelos principais no fluxo de trabalho do ComfyUI Wan2.2 S2V

  • Wan 2.2 S2V UNet (14B, bf16). O gerador central que funde recursos de áudio, condicionamento de texto e uma imagem de referência para produzir latentes de vídeo.
  • Wan VAE (wan_2.1_vae). Codifica/decodifica entre espaço latente e espaço de pixels para preservar detalhes e fidelidade de cor nas renderizações do Wan2.2 S2V.
  • Codificador de texto UMT5-XXL. Fornece condicionamento de prompt para estilo e conteúdo; veja o cartão do modelo base para referência: .
  • Codificador de áudio Wav2Vec2 Large. Extrai recursos robustos de fala e ritmo para geração condicionada por som; veja um cartão arquetípico como .

Como usar o fluxo de trabalho ComfyUI Wan2.2 S2V

O fluxo de trabalho está organizado em três grupos. Você pode executá-los de ponta a ponta ou ajustar cada estágio conforme necessário.

1) Entradas

Este grupo carrega os componentes de texto, imagem e VAE do Wan e prepara seus prompts. Use CLIPLoader (#38) com CLIPTextEncode (#6) para o prompt positivo e CLIPTextEncode (#7) para o prompt negativo para direcionar estilo e qualidade. Carregue sua imagem de referência com LoadImage (#52); isso ancora identidade, enquadramento e paleta para Wan2.2 S2V. Mantenha os prompts positivos descritivos mas breves para que o áudio retenha controle sobre o movimento. O VAE (VAELoader (#39)) e o carregador de modelo (UNETLoader (#37)) estão pré-conectados e geralmente são deixados como estão.

2) Carregar Áudio TTS ou Áudio Personalizado

Escolha como fornecer áudio. Para testes rápidos, gere fala com UnifiedTTSTextNode (#71) e visualize com PreviewAudio (#65). Para usar sua própria música ou diálogo, use LoadAudio (#78) para arquivos locais ou VHS_LoadAudioUpload (#87) para uploads; ambos alimentam um Reroute (#88) para que os nós a jusante vejam uma única fonte de áudio. A duração é medida por Audio Duration (mtb) (#68), depois convertida para uma contagem de quadros por MathExpression|pysssss (#67) rotulado como “Áudio para Quadro em 16 FPS.” Os recursos de áudio são produzidos por AudioEncoderLoader (#57) e AudioEncoderEncode (#56), que juntos fornecem o nó Wan2.2 S2V com um AUDIO_ENCODER_OUTPUT.

3) KSampler e Saída

WanSoundImageToVideo (#55) é o coração do Wan2.2 S2V. Ele consome seus prompts, VAE, recursos de áudio, imagem de referência e um inteiro length (quadros) para emitir uma sequência latente condicionada. Essa latente vai para KSampler (#3), cujas configurações do sampler governam a coerência geral e os detalhes enquanto respeitam o tempo orientado pelo áudio. A latente amostrada é decodificada por VAEDecode (#8) em quadros, depois VHS_VideoCombine (#66) monta o vídeo e mescla seu áudio original para produzir um MP4. ModelSamplingSD3 (#54) é usado para definir a família de sampler correta para o backbone Wan.

Nós principais no fluxo de trabalho ComfyUI Wan2.2 S2V

WanSoundImageToVideo (#55)

Dirige o movimento sincronizado com áudio a partir de uma única imagem. Defina ref_image para o retrato ou cena que você deseja animar, conecte audio_encoder_output do codificador e forneça um length em quadros. Aumente length para clipes mais longos ou reduza para pré-visualizações mais rápidas. Se você alterar FPS em outro lugar, atualize o valor dos quadros de acordo para que o tempo permaneça sincronizado.

AudioEncoderLoader (#57) e AudioEncoderEncode (#56)

Carregue e execute o codificador baseado em Wav2Vec2 que transforma fala ou música em recursos que o Wan pode seguir. Use fala limpa para sincronização labial, ou áudio percussivo/com forte batida para movimento rítmico. Se seu idioma de entrada ou domínio for diferente, troque por um checkpoint Wav2Vec2 compatível para melhorar o alinhamento.

CLIPTextEncode (#6) e CLIPTextEncode (#7)

Codificadores de prompt positivo e negativo para condicionamento UMT5/CLIP. Mantenha os prompts positivos concisos, focando em termos de assunto, estilo e tomada; use prompts negativos para evitar artefatos indesejados. Prompts excessivamente forçados podem lutar contra o áudio, então prefira orientações leves e deixe Wan2.2 S2V lidar com o movimento.

KSampler (#3)

Amostra a sequência latente produzida pelo nó Wan2.2 S2V. Ajuste o tipo de sampler e os passos para trocar velocidade por fidelidade; mantenha uma semente fixa quando quiser tempo reprodutível com o mesmo áudio. Se o movimento parecer muito rígido ou ruidoso, pequenas mudanças aqui podem melhorar notavelmente a estabilidade temporal.

VHS_VideoCombine (#66)

Cria o vídeo final e anexa o áudio. Defina frame_rate para corresponder ao seu FPS pretendido e confirme se o comprimento do clipe corresponde aos seus quadros length. O contêiner, o formato de pixel e os controles de qualidade são expostos para exportações rápidas; use qualidade mais alta quando você planeja pós-processar em um editor.

Extras opcionais

  • Comece com uma imagem de referência bem iluminada e de frente no seu aspecto de proporção alvo para minimizar desvio de identidade e corte.
  • Para sincronização labial, mantenha a boca desobstruída e use narração limpa; música com transientes fortes funciona bem para movimento orientado por batida.
  • A conversão de FPS padrão assume 16 fps; se você alterar FPS, atualize a matemática em “Áudio para Quadro em 16 FPS” para que os quadros se alinhem com a duração do áudio.
  • Use a pré-visualização de áudio e a pré-visualização ao vivo do VHS para iterar rapidamente, depois aumente a qualidade assim que gostar do tempo.
  • Clipes mais longos escalam computação e VRAM; corte silêncio ou divida roteiros longos em cenas curtas ao produzir vídeos com várias tomadas com Wan2.2 S2V.

Agradecimentos

Este fluxo de trabalho implementa e se baseia nos seguintes trabalhos e recursos. Agradecemos imensamente ao Wan-Video por Wan2.2 (incluindo código de inferência S2V), Wan-AI por Wan2.2-S2V-14B, e Gao et al. (2025) por Wan-S2V: Geração de Vídeo Cinemático Orientada por Áudio por suas contribuições e manutenção. Para detalhes autoritários, consulte a documentação original e repositórios vinculados abaixo.

Recursos

  • Demo Wan-Video/Wan2.2 S2V
    • GitHub:
    • Hugging Face:
    • arXiv:
    • Docs / Notas de Lançamento:

Nota: O uso dos modelos, conjuntos de dados e código referenciados está sujeito às respectivas licenças e termos fornecidos por seus autores e mantenedores.

Want More ComfyUI Workflows?

Loading preview...
Loading preview...
Loading preview...
Loading preview...
Loading preview...
Loading preview...
Loading preview...
Loading preview...
Siga-nos
  • LinkedIn
  • Facebook
  • Instagram
  • Twitter
Suporte
  • Discord
  • E-mail
  • Status do Sistema
  • afiliado
Recursos
  • ComfyUI Online Gratuito
  • Guias do ComfyUI
  • RunComfy API
  • Tutoriais do ComfyUI
  • Nós do ComfyUI
  • Saiba Mais
Legal
  • Termos de Serviço
  • Política de Privacidade
  • Política de Cookies
RunComfy
Copyright 2025 RunComfy. Todos os Direitos Reservados.

RunComfy é a principal ComfyUI plataforma, oferecendo ComfyUI online ambiente e serviços, juntamente com fluxos de trabalho do ComfyUI apresentando visuais impressionantes. RunComfy também oferece AI Playground, permitindo que artistas utilizem as mais recentes ferramentas de AI para criar arte incrível.