Wan 2.2 Animate: Intercambio de Personajes y Sincronización Labial

Este flujo de trabajo fue creado en colaboración con MDMZ. Para una guía detallada y consejos creativos, visita el canal de YouTube de MDMZ.

ComfyUI Wan 2.2 Animate: Swap Characters & Lip-Sync Workflow

Wan 2.2 Animate: Swap Characters & Lip-Sync Workflow | ComfyUI

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

ComfyUI Wan 2.2 Animate: Swap Characters & Lip-Sync Examples

Tutorial de Flujo de Trabajo#

Wan 2.2 Animate: Intercambio de Personajes y Sincronización Labial#

Intercambia cualquier hablante en cámara por tu propio personaje mientras mantienes el movimiento, las expresiones y las formas de la boca alineadas con el audio original. Este flujo de trabajo de ComfyUI, construido alrededor de Wan 2.2 Animate: Intercambio de Personajes y Sincronización Labial, detecta la pose del cuerpo y los marcos faciales de un video de entrada, los redirige a una sola imagen de referencia y genera un resultado coherente y sincrónico con el discurso.

El flujo de trabajo es adecuado para editores, creadores e investigadores que buscan un reemplazo de personajes confiable para entrevistas, carretes, VTubing, diapositivas o cortos doblados. Proporciona un clip fuente y una imagen de referencia limpia; la línea de producción recrea la pose y la articulación labial en el nuevo personaje y mezcla la banda sonora original en la exportación final.

Modelos clave en el flujo de trabajo de ComfyUI Wan 2.2 Animate: Intercambio de Personajes y Sincronización Labial#

Wan 2.2 Animate 14B (FP8 escalado): el generador de video principal que sintetiza el personaje redirigido a través de marcos utilizando señales de pose, rostro y contexto. Model hub
Wan 2.1 VAE (bf16): codifica/decodifica latentes de video utilizados por Wan durante el muestreo y la salida. Weights
UMT5‑XXL Codificador de Texto (bf16): construye incrustaciones de texto para indicaciones ligeras o descriptores de tomas. Weights
CLIP Vision H: extrae características de imagen robustas del retrato de referencia para preservar la identidad. Weights
Lightx2v I2V 14B LoRA: mejora la estabilidad y fidelidad de imagen a video cuando se conduce con marcos de referencia. LoRA
Wan22 Relight LoRA: ayuda a mantener una iluminación y sombreado consistentes a lo largo de la toma. LoRA
YOLOv10m (ONNX): detección rápida de personas/rostros utilizada antes de la estimación de pose. Model
ViTPose WholeBody Large (ONNX): puntos clave esqueléticos de alta calidad para transferencia de movimiento corporal completo. Model
Segment Anything 2.1: segmentación para máscaras de primer plano limpias que guían el reemplazo. Repo

Cómo usar el flujo de trabajo de ComfyUI Wan 2.2 Animate: Intercambio de Personajes y Sincronización Labial#

El gráfico se mueve a través de siete grupos: cargar entradas, construir una referencia, preprocesar pose/rostro y máscaras, cargar modelos de generación, ejecutar el reemplazo de personajes, vista previa de diagnósticos, luego exportar con audio.

Cargar video#

Importa tu clip fuente con VHS_LoadVideo (#63). El nodo expone ancho/alto opcionales para redimensionar y produce marcos de video, audio y conteo de marcos para uso posterior. Mantén el clip recortado cerca de la parte hablada si deseas un procesamiento más rápido. El audio se pasa al exportador para que el video final se mantenga alineado con la banda sonora original.

Imagen de referencia#

Proporciona un retrato limpio del personaje objetivo. La imagen se redimensiona con ImageResizeKJv2 (#64) para coincidir con tu resolución de trabajo y se almacena como la referencia canónica utilizada por CLIP Vision y el generador. Favorece una imagen nítida y frontal bajo una iluminación similar a tu toma fuente para reducir el desvío de color y sombreado.

Preprocesamiento#

OnnxDetectionModelLoader (#178) carga YOLO y ViTPose, luego PoseAndFaceDetection (#172) analiza cada marco para producir puntos clave de cuerpo completo y recortes de rostro por marco. Sam2Segmentation (#104) crea una máscara de primer plano utilizando ya sea cuadros delimitadores detectados o puntos de fotogramas clave; si una pista falla, cambia a la otra para una mejor separación. La máscara se refina con GrowMaskWithBlur (#182) y se bloquea con BlockifyMask (#108) para darle al generador una región de sujeto estable y sin ambigüedades. Superposiciones opcionales (DrawViTPose (#173) y DrawMaskOnImage (#99)) te ayudan a verificar visualmente la cobertura de pose y la calidad de la máscara antes de la generación.

Modelos#

WanVideoModelLoader (#22) carga Wan 2.2 Animate 14B, y WanVideoVAELoader (#38) proporciona el VAE. Las características de identidad del retrato de referencia son codificadas por CLIPVisionLoader (#71) y WanVideoClipVisionEncode (#70). El estilo y la estabilidad se ajustan con WanVideoLoraSelectMulti (#171), mientras que WanVideoSetLoRAs (#48) y WanVideoSetBlockSwap (#50) aplican LoRAs y configuraciones de intercambio de bloques al modelo; estas herramientas provienen de la biblioteca de envoltorios Wan. Consulta ComfyUI‑WanVideoWrapper para detalles de implementación.

Reemplazo de personajes#

WanVideoTextEncodeCached (#65) acepta una breve indicación descriptiva si deseas influir en la apariencia o el estado de ánimo de la toma. WanVideoAnimateEmbeds (#62) fusiona la imagen de referencia, la pose por marco, los recortes de rostro, el fondo y la máscara en incrustaciones de imagen que preservan la identidad mientras coinciden con el movimiento y las formas de la boca. WanVideoSampler (#27) luego renderiza los marcos; su programador y pasos controlan el equilibrio entre nitidez y movimiento. Los marcos decodificados de WanVideoDecode (#28) se entregan a inspectores de tamaño/conteo para que puedas confirmar las dimensiones antes de la exportación.

Collage de resultados#

Para una rápida verificación de calidad, el flujo de trabajo concatena las entradas clave con ImageConcatMulti (#77, #66) para formar una simple tira de comparación del referente, recortes de rostro, visualización de pose y un marco en bruto. Úsalo para verificar la coherencia de las pistas de identidad y las formas de la boca justo después de una prueba.

Salida#

VHS_VideoCombine (#30) produce el video final y mezcla el audio original para un tiempo perfecto. Se incluyen exportadores adicionales para que puedas guardar diagnósticos intermedios o cortes alternativos si es necesario. Para obtener mejores resultados en clips más largos, exporta primero una prueba corta, luego itera en mezclas de LoRA y máscaras antes de comprometerte con un render completo.

Nodos clave en el flujo de trabajo de ComfyUI Wan 2.2 Animate: Intercambio de Personajes y Sincronización Labial#

VHS_LoadVideo (#63) Carga marcos y el audio original en un solo paso. Úsalo para establecer una resolución de trabajo que se ajuste a tu presupuesto de GPU y para confirmar el conteo de marcos que consumirán los nodos posteriores. De ComfyUI‑VideoHelperSuite.

PoseAndFaceDetection (#172) Ejecuta YOLO y ViTPose para extraer cajas de personas, puntos clave de cuerpo completo y recortes de rostro por marco. Los buenos puntos clave son la columna vertebral de la transferencia de movimiento creíble y se reutilizan directamente para la articulación labial. De ComfyUI‑WanAnimatePreprocess.

Sam2Segmentation (#104) Construye una máscara de primer plano alrededor del sujeto usando ya sea cuadros delimitadores o pistas de puntos de fotogramas clave. Si se omiten el cabello o las manos, cambia el tipo de pista o expande la configuración de desenfoque/crecimiento antes de bloquear. De ComfyUI‑segment‑anything‑2.

WanVideoLoraSelectMulti (#171) Te permite mezclar LoRAs como Lightx2v y Wan22 Relight para equilibrar la estabilidad del movimiento, la consistencia de la iluminación y la fuerza de la identidad. Aumenta el peso de un LoRA para más influencia, pero ten cuidado con la sobreestilización en los rostros. De ComfyUI‑WanVideoWrapper.

WanVideoAnimateEmbeds (#62) Combina el retrato de referencia, las imágenes de poses, los recortes de rostro, los marcos de fondo y la máscara en una representación compacta que condiciona a Wan 2.2 Animate. Asegúrate de que width, height y num_frames coincidan con tu exportación prevista para evitar artefactos de remuestreo. De ComfyUI‑WanVideoWrapper.

WanVideoSampler (#27) Genera los marcos finales. Usa pasos más altos y un programador más estable cuando necesites detalles más nítidos, o una programación más ligera para vistas previas rápidas. Para clips muy largos, puedes introducir opcionalmente controles de ventana de contexto conectando WanVideoContextOptions (#110) para mantener la consistencia temporal a través de ventanas.

VHS_VideoCombine (#30) Exporta el video terminado y mezcla el audio original para que los movimientos labiales permanezcan sincronizados. La opción de recortar al audio mantiene la duración alineada con la banda sonora. De ComfyUI‑VideoHelperSuite.

Extras opcionales#

Usa un referente nítido y frontal con labios neutros para la transferencia de identidad más limpia; evita el maquillaje pesado o las oclusiones.
Si la segmentación omite cabello o accesorios, intenta cambiar las pistas Sam2Segmentation entre cuadros delimitadores y puntos de fotogramas clave, luego crece ligeramente la máscara antes de bloquear.
Lightx2v LoRA mejora la estabilidad de I2V; Wan22 Relight LoRA ayuda a igualar la iluminación inconsistente. Pequeños cambios de peso pueden resolver el parpadeo sin sobrecargar un aspecto.
El intercambio de bloques puede reducir el desvío de identidad en tomas largas; si los rostros se suavizan con el tiempo, habilítalo en WanVideoSetBlockSwap (#50) y vuelve a probar.
Mantén la resolución de trabajo proporcional a la fuente para evitar la distorsión de aspecto; aumenta el tamaño solo cuando la imagen de referencia sea lo suficientemente detallada para soportarlo.
Para tiempos de ejecución capaces, habilitar la compilación de torch y la atención eficiente en los nodos de envoltura puede acelerar el muestreo; consulta ComfyUI‑WanVideoWrapper para obtener orientación.

Este flujo de trabajo Wan 2.2 Animate: Intercambio de Personajes y Sincronización Labial ofrece transferencia de movimiento consistente y formas de boca sincronizadas con el discurso con una configuración mínima, haciendo que los intercambios de personajes de alta calidad sean rápidos y repetibles dentro de ComfyUI.

Agradecimientos#

Este flujo de trabajo implementa y se basa en los siguientes trabajos y recursos. Agradecemos a @MDMZ por construir todo el flujo de trabajo, a Kijai por WAN 2.2 Animate y nodos relacionados de ComfyUI, a Wan-AI por los activos Wan2.2-Animate incluyendo la detección YOLOv10m, y a Comfy-Org por el modelo Wan 2.1 Clip Vision por sus contribuciones y mantenimiento. Para detalles autorizados, por favor, consulta la documentación original y los repositorios enlazados a continuación.

Recursos#

Tutorial de Flujo de Trabajo
- Youtube: ComfyUI-Tutorial de @MDMZ

Nota: El uso de los modelos, conjuntos de datos y código referenciados está sujeto a las licencias y términos respectivos proporcionados por sus autores y mantenedores.

Want More ComfyUI Workflows?

Wan 2.2 Lightning T2V I2V | 4 Pasos Ultra Rápidos

¡Wan 2.2 ahora 20 veces más rápido! T2V + I2V en 4 pasos.

Wan 2.2 + Lightx2v V2 | I2V & T2V Ultra Rápido

Configuración Dual Light LoRA, 4X más rápido.

Wan 2.2 FLF2V | Generación de Video de Primer-Último Fotograma

Genera videos fluidos a partir de un fotograma de inicio y fin usando Wan 2.2 FLF2V.

Wan 2.2 | Líder en Generación de Video de Código Abierto

¡Disponible ahora! Mejor precisión + movimiento más suave.

EchoMimic | Animaciones de Retratos Impulsadas por Audio

Genera cabezas parlantes y gestos corporales realistas sincronizados con el audio proporcionado.

IDM-VTON | Prueba Virtual

Prueba virtual que crea resultados realistas capturando detalles y estilo de las prendas.

Hunyuan Image to Video | Creador de Movimiento Impresionante

Crea películas magníficas a partir de imágenes fijas mediante movimiento cinematográfico y efectos personalizables.

Wan Alpha | Generador de Video Transparente

Magia alfa: videos con fondos transparentes instantáneos para VFX y diseño.

Soporte

Recursos

Legal

RunComfy

RunComfy es la principal ComfyUI plataforma, ofreciendo ComfyUI en línea entorno y servicios, junto con flujos de trabajo de ComfyUI con impresionantes imágenes. RunComfy también ofrece AI Models, permitiendo a los artistas aprovechar las últimas herramientas de AI para crear arte increíble.

Wan 2.2 Animate | Intercambio de Personajes y Sincronización Labial