Control de Pose LipSync con Wan2.2 S2V transforma una sola imagen, un clip de audio y un video de referencia de pose en una actuación sincronizada que habla. El personaje en tu imagen de referencia sigue el movimiento corporal del video de referencia mientras los movimientos labiales coinciden con el audio. Este flujo de trabajo de ComfyUI es ideal para avatares, escenas de historias, tráilers, explicadores y videos musicales donde deseas un control preciso sobre la pose, la expresión y el tiempo del habla.
Construido sobre la familia de modelos Wan 2.2 S2V 14B, el flujo de trabajo fusiona mensajes de texto, características vocales limpias y mapas de poses para generar movimiento cinematográfico con identidad estable. Está diseñado para ser simple de operar mientras proporciona a los creadores un control fino sobre la apariencia, el ritmo y el encuadre.
El flujo de trabajo combina cinco partes: carga de modelos, preparación de audio, entradas de imagen y pose, acondicionamiento y generación. Los grupos se ejecutan en un flujo de izquierda a derecha, con la longitud del audio estableciendo automáticamente la duración del clip a 16 fps.
Este grupo carga el modelo Wan 2.2 S2V, su VAE, el codificador de texto UMT5‑XXL y un LightX2V LoRA. El transformador base se inicializa en UNETLoader
(#37) y se adapta con LoraLoaderModelOnly
(#61) para un muestreo más rápido de bajo paso. El VAE de Wan es suministrado por VAELoader
(#39). Los codificadores de texto son proporcionados por CLIPLoader
(#38) que carga los pesos UMT5‑XXL referenciados por Wan. Rara vez necesitas tocar este grupo a menos que cambies archivos de modelo.
Inserta un archivo de audio con LoadAudio
(#58). AudioSeparation
(#85) aísla el tallo vocal para que los labios sigan un habla clara o canto en lugar de instrumentos de fondo. Audio Duration (mtb)
(#70) mide el clip y SimpleMath+
(#71) convierte la duración en un conteo de cuadros a 16 fps para que la longitud del video coincida con tu audio. AudioEncoderEncode
(#56) alimenta un codificador Wav2Vec2‑Large para que Wan pueda mapear fonemas a formas de boca para una sincronización labial precisa.
LoadImage
(#52) proporciona la imagen fija del sujeto que lleva la identidad, la ropa y la configuración de la cámara. ImageResizeKJv2
(#69) lee las dimensiones de la imagen para que la tubería derive consistentemente el ancho y la altura objetivo para todas las etapas posteriores. Usa una imagen nítida, de frente y sin obstrucciones en la boca para los movimientos labiales más fieles.
VHS_LoadVideo
(#80) importa tu video de referencia de pose. ImageResizeKJv2
(#83) adapta los cuadros al tamaño objetivo, y DWPreprocessor
(#78) los convierte en mapas de poses con detección YOLOX más puntos clave de DWPose. Un ImageResizeKJv2
(#81) final alinea los cuadros de pose a la resolución de generación antes de pasarlos como el video de control. Puedes previsualizar las salidas de pose enrutando a VHS_VideoCombine
(#95), lo que ayuda a confirmar que el encuadre y el tiempo de referencia se ajustan a tu sujeto.
Escribe el estilo y la intención de la escena en CLIP Text Encode (Positive Prompt)
(#6) y usa CLIP Text Encode (Negative Prompt)
(#7) para desalentar artefactos no deseados. Los mensajes dirigen la estética de alto nivel y el movimiento de fondo, mientras que el audio impulsa los movimientos labiales y la referencia de pose gobierna la dinámica corporal. Mantén los mensajes concisos y alineados con tu ángulo de cámara objetivo y estado de ánimo.
WanSoundImageToVideo
(#55) fusiona texto, características de audio, la imagen de referencia y el video de control de pose, luego prepara una secuencia latente. KSamplerAdvanced
(#64) realiza una descomposición de bajo paso adecuada para la aceleración estilo LightX2V, y VAEDecode
(#8) reconstruye los cuadros. VHS_VideoCombine
(#62) ensambla los cuadros en un MP4 y adjunta tu audio original para que la salida esté lista para revisar o editar.
WanSoundImageToVideo
(#55)El corazón del flujo de trabajo que condiciona Wan2.2‑S2V con tu mensaje, voces, imagen del sujeto y video de control de pose. Ajusta solo lo que importa: establece width
, height
y length
para que coincidan con tu imagen del sujeto y la longitud del audio, y conecta un video de pose preprocesado para el control del movimiento. Deja ref_motion
vacío a menos que planees inyectar una pista de cámara separada. El comportamiento de habla a video del modelo se describe en Wan‑AI/Wan2.2‑S2V‑14B y Wan‑Video/Wan2.2.
DWPreprocessor
(#78)Genera mapas de poses usando YOLOX para detección y DWPose para puntos clave de cuerpo completo. Las señales de pose fuertes ayudan a Wan a seguir extremidades y torso mientras el audio controla los labios y las expresiones. Si tu referencia tiene mucho movimiento de cámara, usa un video de pose que alinee el punto de vista y el tiempo con la actuación prevista. DWPose y sus variantes se documentan en IDEA‑Research/DWPose.
KSamplerAdvanced
(#64)Ejecuta la descomposición para la secuencia latente. Con un LightX2V LoRA cargado, puedes mantener los pasos bajos para vistas previas rápidas mientras retienes la coherencia del movimiento; aumenta los pasos cuando busques el máximo detalle. Las elecciones de programador afectan la suavidad del movimiento frente a la nitidez, y deben ajustarse junto con el uso de LoRA como se describe para Wan en la documentación de Diffusers.
VHS_LoadVideo
(#80)Importa y examina tu referencia de pose. Usa sus herramientas de selección de cuadros en el nodo para elegir el segmento exacto que coincide con tu segmento de audio. Mantener el encuadre y el tamaño del sujeto consistentes con la imagen de referencia estabilizará la transferencia de movimiento. El nodo es parte de VideoHelperSuite: ComfyUI‑VideoHelperSuite.
VHS_VideoCombine
(#62)Combina los cuadros generados y tu audio en un MP4 y guarda los metadatos del flujo de trabajo. Establece la velocidad de fotogramas de salida a 16 fps para que coincida con el conteo de cuadros calculado a partir de la duración del audio en este flujo de trabajo. Desactiva o activa el guardado de metadatos según tus necesidades de gestión de activos. Consulta la documentación de VideoHelperSuite en ComfyUI‑VideoHelperSuite.
AudioSeparation
(#85)Aísla las voces para que las características de Wav2Vec2 impulsen las formas de la boca sin interferencia de instrumentos o efectos. Si tu entrada ya es un discurso limpio, puedes omitir la separación. Para obtener los mejores resultados, mantén los niveles de audio consistentes y minimiza la reverberación.
Este flujo de trabajo de Control de Pose LipSync con Wan2.2 S2V te ofrece un camino rápido desde el audio y una imagen fija a una actuación controlable y en el ritmo que parece cohesiva y se siente expresiva.
Este flujo de trabajo implementa y se basa en los siguientes trabajos y recursos. Agradecemos sinceramente a @ArtOfficialLabs de Pose Control LipSync con Wan2.2 S2VDemo por sus contribuciones y mantenimiento. Para detalles autoritativos, consulta la documentación original y los repositorios vinculados a continuación.
Nota: El uso de los modelos, conjuntos de datos y código referenciados está sujeto a las respectivas licencias y términos proporcionados por sus autores y mantenedores.
RunComfy es la principal ComfyUI plataforma, ofreciendo ComfyUI en línea entorno y servicios, junto con flujos de trabajo de ComfyUI con impresionantes imágenes. RunComfy también ofrece AI Playground, permitiendo a los artistas aprovechar las últimas herramientas de AI para crear arte increíble.