Wan2.2 S2V es un flujo de trabajo de sonido a video que convierte una imagen de referencia más un clip de audio en un video sincronizado. Está construido alrededor de la familia de modelos Wan 2.2 y diseñado para creadores que desean movimiento expresivo, sincronización de labios y dinámicas de escena que sigan el sonido o el habla. Usa Wan2.2 S2V para avatares parlantes, bucles impulsados por música y secuencias rápidas sin animación manual.
Este gráfico de ComfyUI acopla características de audio con indicaciones de texto y una imagen fija para generar un clip corto, luego mezcla los fotogramas con el audio original. El resultado es una canalización compacta y confiable que mantiene el aspecto de tu imagen de referencia mientras permite que el audio impulse el tiempo y la expresión.
El flujo de trabajo está organizado en tres grupos. Puedes ejecutarlos de principio a fin o ajustar cada etapa según sea necesario.
Este grupo carga los componentes de texto, imagen y VAE de Wan, y prepara tus indicaciones. Usa CLIPLoader
(#38) con CLIPTextEncode
(#6) para la indicación positiva y CLIPTextEncode
(#7) para la indicación negativa para guiar el estilo y la calidad. Carga tu imagen de referencia con LoadImage
(#52); esto ancla la identidad, el encuadre y la paleta para Wan2.2 S2V. Mantén las indicaciones positivas descriptivas pero breves para que el audio retenga el control sobre el movimiento. El VAE (VAELoader
(#39)) y el cargador de modelos (UNETLoader
(#37)) están preconfigurados y generalmente se dejan tal cual.
Elige cómo proporcionar audio. Para pruebas rápidas, genera habla con UnifiedTTSTextNode
(#71) y previsualiza con PreviewAudio
(#65). Para usar tu propia música o diálogo, usa LoadAudio
(#78) para archivos locales o VHS_LoadAudioUpload
(#87) para cargas; ambos alimentan un Reroute
(#88) para que los nodos posteriores vean una única fuente de audio. La duración se mide con Audio Duration (mtb)
(#68), luego se convierte a un conteo de fotogramas con MathExpression|pysssss
(#67) etiquetado “Audio a Fotograma en 16 FPS”. Las características de audio son producidas por AudioEncoderLoader
(#57) y AudioEncoderEncode
(#56), que juntos suministran el nodo Wan2.2 S2V con un AUDIO_ENCODER_OUTPUT
.
WanSoundImageToVideo
(#55) es el corazón de Wan2.2 S2V. Consume tus indicaciones, VAE, características de audio, imagen de referencia y un entero length
(fotogramas) para emitir una secuencia latente condicionada. Esa latente va a KSampler
(#3), cuyas configuraciones del muestreador gobiernan la coherencia general y el detalle mientras respetan el tiempo impulsado por el audio. La latente muestreada es decodificada por VAEDecode
(#8) en fotogramas, luego VHS_VideoCombine
(#66) ensambla el video y mezcla tu audio original para producir un MP4. ModelSamplingSD3
(#54) se usa para establecer la familia correcta del muestreador para la base de Wan.
WanSoundImageToVideo
(#55)Impulsa el movimiento sincronizado con audio desde una sola imagen. Establece ref_image
en el retrato o escena que deseas animar, conecta audio_encoder_output
desde el codificador y proporciona una length
en fotogramas. Aumenta length
para clips más largos o reduce para previsualizaciones más rápidas. Si cambias FPS en otro lugar, actualiza el valor de fotogramas en consecuencia para que el tiempo se mantenga sincronizado.
AudioEncoderLoader
(#57) y AudioEncoderEncode
(#56)Cargan y ejecutan el codificador basado en Wav2Vec2 que convierte el habla o la música en características que Wan puede seguir. Usa habla limpia para sincronización de labios, o audio percusivo/con muchos golpes para movimiento rítmico. Si tu idioma o dominio de entrada difiere, intercambia un punto de control Wav2Vec2 compatible para mejorar la alineación.
CLIPTextEncode
(#6) y CLIPTextEncode
(#7)Codificadores de indicaciones positivas y negativas para el condicionamiento UMT5/CLIP. Mantén las indicaciones positivas concisas, enfocándote en el sujeto, estilo y términos de toma; usa indicaciones negativas para evitar artefactos no deseados. Las indicaciones demasiado contundentes pueden luchar contra el audio, así que prefiere una guía ligera y deja que Wan2.2 S2V maneje el movimiento.
KSampler
(#3)Muestra la secuencia latente producida por el nodo Wan2.2 S2V. Ajusta el tipo de muestreador y los pasos para intercambiar velocidad por fidelidad; mantén una semilla fija cuando desees un tiempo reproducible con el mismo audio. Si el movimiento se siente demasiado rígido o ruidoso, pequeños cambios aquí pueden mejorar notablemente la estabilidad temporal.
VHS_VideoCombine
(#66)Crea el video final y adjunta el audio. Establece frame_rate
para que coincida con tu FPS previsto y confirma que la longitud del clip coincida con tus fotogramas length
. El contenedor, el formato de píxel y los controles de calidad están expuestos para exportaciones rápidas; usa una calidad más alta cuando planeas postprocesar en un editor.
Este flujo de trabajo implementa y se basa en los siguientes trabajos y recursos. Agradecemos con gratitud a Wan-Video por Wan2.2 (incluyendo código de inferencia S2V), Wan-AI por Wan2.2-S2V-14B, y Gao et al. (2025) por Wan-S2V: Generación de Video Cinemático Impulsado por Audio por sus contribuciones y mantenimiento. Para detalles autorizados, por favor consulta la documentación original y los repositorios enlazados a continuación.
Nota: El uso de los modelos, conjuntos de datos y código referenciados está sujeto a las respectivas licencias y términos proporcionados por sus autores y mantenedores.
RunComfy es la principal ComfyUI plataforma, ofreciendo ComfyUI en línea entorno y servicios, junto con flujos de trabajo de ComfyUI con impresionantes imágenes. RunComfy también ofrece AI Playground, permitiendo a los artistas aprovechar las últimas herramientas de AI para crear arte increíble.