Wan2.2 S2V é um fluxo de trabalho de som para vídeo que transforma uma imagem de referência e um clipe de áudio em um vídeo sincronizado. É construído em torno da família de modelos Wan 2.2 e projetado para criadores que desejam movimento expressivo, sincronização labial e dinâmica de cena que seguem som ou fala. Use Wan2.2 S2V para avatares falantes, loops musicais e batidas de história rápidas sem animação manual.
Este gráfico do ComfyUI acopla recursos de áudio com prompts de texto e uma imagem estática para gerar um clipe curto, depois mescla os quadros com o áudio original. O resultado é um pipeline compacto e confiável que mantém a aparência de sua imagem de referência enquanto permite que o áudio dirija o tempo e a expressão.
O fluxo de trabalho está organizado em três grupos. Você pode executá-los de ponta a ponta ou ajustar cada estágio conforme necessário.
Este grupo carrega os componentes de texto, imagem e VAE do Wan e prepara seus prompts. Use CLIPLoader
(#38) com CLIPTextEncode
(#6) para o prompt positivo e CLIPTextEncode
(#7) para o prompt negativo para direcionar estilo e qualidade. Carregue sua imagem de referência com LoadImage
(#52); isso ancora identidade, enquadramento e paleta para Wan2.2 S2V. Mantenha os prompts positivos descritivos mas breves para que o áudio retenha controle sobre o movimento. O VAE (VAELoader
(#39)) e o carregador de modelo (UNETLoader
(#37)) estão pré-conectados e geralmente são deixados como estão.
Escolha como fornecer áudio. Para testes rápidos, gere fala com UnifiedTTSTextNode
(#71) e visualize com PreviewAudio
(#65). Para usar sua própria música ou diálogo, use LoadAudio
(#78) para arquivos locais ou VHS_LoadAudioUpload
(#87) para uploads; ambos alimentam um Reroute
(#88) para que os nós a jusante vejam uma única fonte de áudio. A duração é medida por Audio Duration (mtb)
(#68), depois convertida para uma contagem de quadros por MathExpression|pysssss
(#67) rotulado como “Áudio para Quadro em 16 FPS.” Os recursos de áudio são produzidos por AudioEncoderLoader
(#57) e AudioEncoderEncode
(#56), que juntos fornecem o nó Wan2.2 S2V com um AUDIO_ENCODER_OUTPUT
.
WanSoundImageToVideo
(#55) é o coração do Wan2.2 S2V. Ele consome seus prompts, VAE, recursos de áudio, imagem de referência e um inteiro length
(quadros) para emitir uma sequência latente condicionada. Essa latente vai para KSampler
(#3), cujas configurações do sampler governam a coerência geral e os detalhes enquanto respeitam o tempo orientado pelo áudio. A latente amostrada é decodificada por VAEDecode
(#8) em quadros, depois VHS_VideoCombine
(#66) monta o vídeo e mescla seu áudio original para produzir um MP4. ModelSamplingSD3
(#54) é usado para definir a família de sampler correta para o backbone Wan.
WanSoundImageToVideo
(#55)Dirige o movimento sincronizado com áudio a partir de uma única imagem. Defina ref_image
para o retrato ou cena que você deseja animar, conecte audio_encoder_output
do codificador e forneça um length
em quadros. Aumente length
para clipes mais longos ou reduza para pré-visualizações mais rápidas. Se você alterar FPS em outro lugar, atualize o valor dos quadros de acordo para que o tempo permaneça sincronizado.
AudioEncoderLoader
(#57) e AudioEncoderEncode
(#56)Carregue e execute o codificador baseado em Wav2Vec2 que transforma fala ou música em recursos que o Wan pode seguir. Use fala limpa para sincronização labial, ou áudio percussivo/com forte batida para movimento rítmico. Se seu idioma de entrada ou domínio for diferente, troque por um checkpoint Wav2Vec2 compatível para melhorar o alinhamento.
CLIPTextEncode
(#6) e CLIPTextEncode
(#7)Codificadores de prompt positivo e negativo para condicionamento UMT5/CLIP. Mantenha os prompts positivos concisos, focando em termos de assunto, estilo e tomada; use prompts negativos para evitar artefatos indesejados. Prompts excessivamente forçados podem lutar contra o áudio, então prefira orientações leves e deixe Wan2.2 S2V lidar com o movimento.
KSampler
(#3)Amostra a sequência latente produzida pelo nó Wan2.2 S2V. Ajuste o tipo de sampler e os passos para trocar velocidade por fidelidade; mantenha uma semente fixa quando quiser tempo reprodutível com o mesmo áudio. Se o movimento parecer muito rígido ou ruidoso, pequenas mudanças aqui podem melhorar notavelmente a estabilidade temporal.
VHS_VideoCombine
(#66)Cria o vídeo final e anexa o áudio. Defina frame_rate
para corresponder ao seu FPS pretendido e confirme se o comprimento do clipe corresponde aos seus quadros length
. O contêiner, o formato de pixel e os controles de qualidade são expostos para exportações rápidas; use qualidade mais alta quando você planeja pós-processar em um editor.
Este fluxo de trabalho implementa e se baseia nos seguintes trabalhos e recursos. Agradecemos imensamente ao Wan-Video por Wan2.2 (incluindo código de inferência S2V), Wan-AI por Wan2.2-S2V-14B, e Gao et al. (2025) por Wan-S2V: Geração de Vídeo Cinemático Orientada por Áudio por suas contribuições e manutenção. Para detalhes autoritários, consulte a documentação original e repositórios vinculados abaixo.
Nota: O uso dos modelos, conjuntos de dados e código referenciados está sujeito às respectivas licenças e termos fornecidos por seus autores e mantenedores.
RunComfy é a principal ComfyUI plataforma, oferecendo ComfyUI online ambiente e serviços, juntamente com fluxos de trabalho do ComfyUI apresentando visuais impressionantes. RunComfy também oferece AI Playground, permitindo que artistas utilizem as mais recentes ferramentas de AI para criar arte incrível.