logo
RunComfy
ComfyUIPlaygroundPricing
discord logo
ComfyUI>Flujos de trabajo>Wan 2.2 Animate | Intercambio de Personajes y Sincronización Labial

Wan 2.2 Animate | Intercambio de Personajes y Sincronización Labial

Workflow Name: RunComfy/Wan-2.2-Animate-Swap-Lip-Sync
Workflow ID: 0000...1307
Con esta configuración de ComfyUI, puedes transformar actores o avatares haciendo coincidir automáticamente sus expresiones, discurso y gestos. Utiliza seguimiento de poses y detección facial para animar personajes de reemplazo con movimiento labial sincronizado y movimiento corporal idéntico. Perfecto para diseñadores de video que buscan intercambios realistas y animación natural. Puedes personalizar fácilmente la sincronización del discurso y la precisión visual. El proceso está totalmente automatizado, pero ofrece control para ajustar el rendimiento de manera matizada. Consigue calidad de animación de estudio a partir de clips de referencia únicos en minutos.

Tutorial de Flujo de Trabajo

Wan 2.2 Animate: Intercambio de Personajes y Sincronización Labial

Intercambia cualquier hablante en cámara por tu propio personaje mientras mantienes el movimiento, las expresiones y las formas de la boca alineadas con el audio original. Este flujo de trabajo de ComfyUI, construido alrededor de Wan 2.2 Animate: Intercambio de Personajes y Sincronización Labial, detecta la pose del cuerpo y los marcos faciales de un video de entrada, los redirige a una sola imagen de referencia y genera un resultado coherente y sincrónico con el discurso.

El flujo de trabajo es adecuado para editores, creadores e investigadores que buscan un reemplazo de personajes confiable para entrevistas, carretes, VTubing, diapositivas o cortos doblados. Proporciona un clip fuente y una imagen de referencia limpia; la línea de producción recrea la pose y la articulación labial en el nuevo personaje y mezcla la banda sonora original en la exportación final.

Modelos clave en el flujo de trabajo de ComfyUI Wan 2.2 Animate: Intercambio de Personajes y Sincronización Labial

  • Wan 2.2 Animate 14B (FP8 escalado): el generador de video principal que sintetiza el personaje redirigido a través de marcos utilizando señales de pose, rostro y contexto. Model hub
  • Wan 2.1 VAE (bf16): codifica/decodifica latentes de video utilizados por Wan durante el muestreo y la salida. Weights
  • UMT5‑XXL Codificador de Texto (bf16): construye incrustaciones de texto para indicaciones ligeras o descriptores de tomas. Weights
  • CLIP Vision H: extrae características de imagen robustas del retrato de referencia para preservar la identidad. Weights
  • Lightx2v I2V 14B LoRA: mejora la estabilidad y fidelidad de imagen a video cuando se conduce con marcos de referencia. LoRA
  • Wan22 Relight LoRA: ayuda a mantener una iluminación y sombreado consistentes a lo largo de la toma. LoRA
  • YOLOv10m (ONNX): detección rápida de personas/rostros utilizada antes de la estimación de pose. Model
  • ViTPose WholeBody Large (ONNX): puntos clave esqueléticos de alta calidad para transferencia de movimiento corporal completo. Model
  • Segment Anything 2.1: segmentación para máscaras de primer plano limpias que guían el reemplazo. Repo

Cómo usar el flujo de trabajo de ComfyUI Wan 2.2 Animate: Intercambio de Personajes y Sincronización Labial

El gráfico se mueve a través de siete grupos: cargar entradas, construir una referencia, preprocesar pose/rostro y máscaras, cargar modelos de generación, ejecutar el reemplazo de personajes, vista previa de diagnósticos, luego exportar con audio.

Cargar video

Importa tu clip fuente con VHS_LoadVideo (#63). El nodo expone ancho/alto opcionales para redimensionar y produce marcos de video, audio y conteo de marcos para uso posterior. Mantén el clip recortado cerca de la parte hablada si deseas un procesamiento más rápido. El audio se pasa al exportador para que el video final se mantenga alineado con la banda sonora original.

Imagen de referencia

Proporciona un retrato limpio del personaje objetivo. La imagen se redimensiona con ImageResizeKJv2 (#64) para coincidir con tu resolución de trabajo y se almacena como la referencia canónica utilizada por CLIP Vision y el generador. Favorece una imagen nítida y frontal bajo una iluminación similar a tu toma fuente para reducir el desvío de color y sombreado.

Preprocesamiento

OnnxDetectionModelLoader (#178) carga YOLO y ViTPose, luego PoseAndFaceDetection (#172) analiza cada marco para producir puntos clave de cuerpo completo y recortes de rostro por marco. Sam2Segmentation (#104) crea una máscara de primer plano utilizando ya sea cuadros delimitadores detectados o puntos de fotogramas clave; si una pista falla, cambia a la otra para una mejor separación. La máscara se refina con GrowMaskWithBlur (#182) y se bloquea con BlockifyMask (#108) para darle al generador una región de sujeto estable y sin ambigüedades. Superposiciones opcionales (DrawViTPose (#173) y DrawMaskOnImage (#99)) te ayudan a verificar visualmente la cobertura de pose y la calidad de la máscara antes de la generación.

Modelos

WanVideoModelLoader (#22) carga Wan 2.2 Animate 14B, y WanVideoVAELoader (#38) proporciona el VAE. Las características de identidad del retrato de referencia son codificadas por CLIPVisionLoader (#71) y WanVideoClipVisionEncode (#70). El estilo y la estabilidad se ajustan con WanVideoLoraSelectMulti (#171), mientras que WanVideoSetLoRAs (#48) y WanVideoSetBlockSwap (#50) aplican LoRAs y configuraciones de intercambio de bloques al modelo; estas herramientas provienen de la biblioteca de envoltorios Wan. Consulta ComfyUI‑WanVideoWrapper para detalles de implementación.

Reemplazo de personajes

WanVideoTextEncodeCached (#65) acepta una breve indicación descriptiva si deseas influir en la apariencia o el estado de ánimo de la toma. WanVideoAnimateEmbeds (#62) fusiona la imagen de referencia, la pose por marco, los recortes de rostro, el fondo y la máscara en incrustaciones de imagen que preservan la identidad mientras coinciden con el movimiento y las formas de la boca. WanVideoSampler (#27) luego renderiza los marcos; su programador y pasos controlan el equilibrio entre nitidez y movimiento. Los marcos decodificados de WanVideoDecode (#28) se entregan a inspectores de tamaño/conteo para que puedas confirmar las dimensiones antes de la exportación.

Collage de resultados

Para una rápida verificación de calidad, el flujo de trabajo concatena las entradas clave con ImageConcatMulti (#77, #66) para formar una simple tira de comparación del referente, recortes de rostro, visualización de pose y un marco en bruto. Úsalo para verificar la coherencia de las pistas de identidad y las formas de la boca justo después de una prueba.

Salida

VHS_VideoCombine (#30) produce el video final y mezcla el audio original para un tiempo perfecto. Se incluyen exportadores adicionales para que puedas guardar diagnósticos intermedios o cortes alternativos si es necesario. Para obtener mejores resultados en clips más largos, exporta primero una prueba corta, luego itera en mezclas de LoRA y máscaras antes de comprometerte con un render completo.

Nodos clave en el flujo de trabajo de ComfyUI Wan 2.2 Animate: Intercambio de Personajes y Sincronización Labial

VHS_LoadVideo (#63)
Carga marcos y el audio original en un solo paso. Úsalo para establecer una resolución de trabajo que se ajuste a tu presupuesto de GPU y para confirmar el conteo de marcos que consumirán los nodos posteriores. De ComfyUI‑VideoHelperSuite.

PoseAndFaceDetection (#172)
Ejecuta YOLO y ViTPose para extraer cajas de personas, puntos clave de cuerpo completo y recortes de rostro por marco. Los buenos puntos clave son la columna vertebral de la transferencia de movimiento creíble y se reutilizan directamente para la articulación labial. De ComfyUI‑WanAnimatePreprocess.

Sam2Segmentation (#104)
Construye una máscara de primer plano alrededor del sujeto usando ya sea cuadros delimitadores o pistas de puntos de fotogramas clave. Si se omiten el cabello o las manos, cambia el tipo de pista o expande la configuración de desenfoque/crecimiento antes de bloquear. De ComfyUI‑segment‑anything‑2.

WanVideoLoraSelectMulti (#171)
Te permite mezclar LoRAs como Lightx2v y Wan22 Relight para equilibrar la estabilidad del movimiento, la consistencia de la iluminación y la fuerza de la identidad. Aumenta el peso de un LoRA para más influencia, pero ten cuidado con la sobreestilización en los rostros. De ComfyUI‑WanVideoWrapper.

WanVideoAnimateEmbeds (#62)
Combina el retrato de referencia, las imágenes de poses, los recortes de rostro, los marcos de fondo y la máscara en una representación compacta que condiciona a Wan 2.2 Animate. Asegúrate de que width, height y num_frames coincidan con tu exportación prevista para evitar artefactos de remuestreo. De ComfyUI‑WanVideoWrapper.

WanVideoSampler (#27)
Genera los marcos finales. Usa pasos más altos y un programador más estable cuando necesites detalles más nítidos, o una programación más ligera para vistas previas rápidas. Para clips muy largos, puedes introducir opcionalmente controles de ventana de contexto conectando WanVideoContextOptions (#110) para mantener la consistencia temporal a través de ventanas.

VHS_VideoCombine (#30)
Exporta el video terminado y mezcla el audio original para que los movimientos labiales permanezcan sincronizados. La opción de recortar al audio mantiene la duración alineada con la banda sonora. De ComfyUI‑VideoHelperSuite.

Extras opcionales

  • Usa un referente nítido y frontal con labios neutros para la transferencia de identidad más limpia; evita el maquillaje pesado o las oclusiones.
  • Si la segmentación omite cabello o accesorios, intenta cambiar las pistas Sam2Segmentation entre cuadros delimitadores y puntos de fotogramas clave, luego crece ligeramente la máscara antes de bloquear.
  • Lightx2v LoRA mejora la estabilidad de I2V; Wan22 Relight LoRA ayuda a igualar la iluminación inconsistente. Pequeños cambios de peso pueden resolver el parpadeo sin sobrecargar un aspecto.
  • El intercambio de bloques puede reducir el desvío de identidad en tomas largas; si los rostros se suavizan con el tiempo, habilítalo en WanVideoSetBlockSwap (#50) y vuelve a probar.
  • Mantén la resolución de trabajo proporcional a la fuente para evitar la distorsión de aspecto; aumenta el tamaño solo cuando la imagen de referencia sea lo suficientemente detallada para soportarlo.
  • Para tiempos de ejecución capaces, habilitar la compilación de torch y la atención eficiente en los nodos de envoltura puede acelerar el muestreo; consulta ComfyUI‑WanVideoWrapper para obtener orientación.

Este flujo de trabajo Wan 2.2 Animate: Intercambio de Personajes y Sincronización Labial ofrece transferencia de movimiento consistente y formas de boca sincronizadas con el discurso con una configuración mínima, haciendo que los intercambios de personajes de alta calidad sean rápidos y repetibles dentro de ComfyUI.

Agradecimientos

Este flujo de trabajo implementa y se basa en los siguientes trabajos y recursos. Agradecemos a @MDMZ por construir todo el flujo de trabajo, a Kijai por WAN 2.2 Animate y nodos relacionados de ComfyUI, a Wan-AI por los activos Wan2.2-Animate incluyendo la detección YOLOv10m, y a Comfy-Org por el modelo Wan 2.1 Clip Vision por sus contribuciones y mantenimiento. Para detalles autorizados, por favor, consulta la documentación original y los repositorios enlazados a continuación.

Recursos

  • Tutorial de Flujo de Trabajo
    • Youtube: ComfyUI-Tutorial de @MDMZ

Nota: El uso de los modelos, conjuntos de datos y código referenciados está sujeto a las licencias y términos respectivos proporcionados por sus autores y mantenedores.

Want More ComfyUI Workflows?

Wan 2.2 Lightning T2V I2V | 4 Pasos Ultra Rápidos

¡Wan 2.2 ahora 20 veces más rápido! T2V + I2V en 4 pasos.

Wan 2.2 + Lightx2v V2 | I2V & T2V Ultra Rápido

Configuración Dual Light LoRA, 4X más rápido.

Wan 2.2 FLF2V | Generación de Video de Primer-Último Fotograma

Genera videos fluidos a partir de un fotograma de inicio y fin usando Wan 2.2 FLF2V.

Wan 2.2 | Líder en Generación de Video de Código Abierto

¡Disponible ahora! Mejor precisión + movimiento más suave.

EchoMimic | Animaciones de Retratos Impulsadas por Audio

Genera cabezas parlantes y gestos corporales realistas sincronizados con el audio proporcionado.

ComfyUI Vid2Vid Dance Transfer

Transfiere el movimiento y el estilo de un video fuente a una imagen u objeto objetivo.

FLUX Controlnet Inpainting

Mejora el realismo usando ControlNet para guiar FLUX.1-dev.

CatVTON | Increíble Virtual Try-On

CatVTON | Increíble Virtual Try-On

CatVTON para una prueba virtual fácil y precisa.

Síguenos
  • LinkedIn
  • Facebook
  • Instagram
  • Twitter
Soporte
  • Discord
  • Correo electrónico
  • Estado del sistema
  • afiliado
Recursos
  • ComfyUI en línea gratis
  • Guías de ComfyUI
  • RunComfy API
  • Tutoriales de ComfyUI
  • Nodos de ComfyUI
  • Aprende más
Legal
  • Términos de servicio
  • Política de privacidad
  • Política de cookies
RunComfy
Derechos de autor 2025 RunComfy. Todos los derechos reservados.

RunComfy es la principal ComfyUI plataforma, ofreciendo ComfyUI en línea entorno y servicios, junto con flujos de trabajo de ComfyUI con impresionantes imágenes. RunComfy también ofrece AI Playground, permitiendo a los artistas aprovechar las últimas herramientas de AI para crear arte increíble.