Wan 2.2 Animate V2 en ComfyUI | Flujo de Trabajo de Animación Guiada por Pose

ComfyUI Wan 2.2 Animate V2 Workflow

Wan 2.2 Animate V2 in ComfyUI | Pose-Driven Animation Workflow

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

ComfyUI Wan 2.2 Animate V2 Examples

Flujo de trabajo de generación de video guiado por pose Wan 2.2 Animate V2 para ComfyUI#

Wan 2.2 Animate V2 es un flujo de trabajo de generación de video guiado por pose que convierte una sola imagen de referencia más un video de pose guía en una animación realista que preserva la identidad. Se basa en la primera versión con mayor fidelidad, movimiento más suave y mejor consistencia temporal, todo mientras sigue de cerca el movimiento de cuerpo completo y las expresiones del video fuente.

Este flujo de trabajo de ComfyUI está diseñado para creadores que desean resultados rápidos y confiables para animación de personajes, clips de baile y narración impulsada por el rendimiento. Combina un preprocesamiento robusto (pose, cara y enmascaramiento de sujeto) con la familia de modelos Wan 2.2 y LoRAs opcionales, para que puedas ajustar el estilo, la iluminación y el manejo del fondo con confianza.

Modelos clave en el flujo de trabajo ComfyUI Wan 2.2 Animate V2#

Wan 2.2 Animate 14B. Modelo de difusión de video central que sintetiza cuadros temporalmente consistentes a partir de incrustaciones multimodales. Pesos: Kijai/WanVideo_comfy_fp8_scaled (Wan22Animate).
Wan 2.1 VAE. Decodificador/codificador de video latente utilizado por la familia Wan para reconstruir cuadros RGB con pérdida mínima. Pesos: Wan2_1_VAE_bf16.safetensors.
Codificador de texto UMT5‑XXL. Codifica indicaciones que guían la apariencia, la escena y los elementos cinematográficos. Pesos: umt5‑xxl‑enc‑bf16.safetensors.
CLIP Vision (ViT‑H/14). Extrae características que preservan la identidad de la imagen de referencia. Artículo: CLIP.
ViTPose Whole‑Body (ONNX). Estima puntos clave densos del cuerpo que impulsan la transferencia de movimiento. Modelos: ViTPose‑L WholeBody y ViTPose‑H WholeBody. Artículo: ViTPose.
Detector YOLOv10. Proporciona cajas de personas para estabilizar la detección de poses y segmentación. Ejemplo: yolov10m.onnx.
Segment Anything 2. Máscaras de sujeto de alta calidad para preservación de fondo, composición o previsualizaciones de relighting. Repo: facebookresearch/segment-anything-2.
LoRAs opcionales para el estilo y el transporte de luz. Útiles para relighting y detalle de textura en salidas de Wan 2.2 Animate V2. Ejemplos: Lightx2v y Wan22_relight.

Cómo usar el flujo de trabajo ComfyUI Wan 2.2 Animate V2#

A un nivel alto, la tubería extrae indicios de pose y cara del video guía, codifica la identidad de una sola imagen de referencia, aísla opcionalmente el sujeto con una máscara SAM 2, y luego sintetiza un video que coincide con el movimiento mientras preserva la identidad. El flujo de trabajo está organizado en cuatro grupos que colaboran para producir el resultado final y dos salidas de conveniencia para QA rápida (previsualizaciones de pose y máscara).

Imagen de Referencia#

Este grupo carga tu imagen de retrato o cuerpo completo, la redimensiona a la resolución objetivo y la pone a disposición en todo el gráfico. La imagen redimensionada se almacena y reutiliza por Get_reference_image y se previsualiza para que puedas evaluar rápidamente el encuadre. Las características de identidad son codificadas por WanVideoClipVisionEncode (CLIP Vision) (#70), y la misma imagen alimenta WanVideoAnimateEmbeds (#62) como ref_images para una preservación de identidad más fuerte. Proporciona una referencia clara y bien iluminada que coincida con el tipo de sujeto en el video guía para obtener los mejores resultados. Espacio para la cabeza y mínimas oclusiones ayudan a Wan 2.2 Animate V2 a fijarse en la estructura facial y la ropa.

Preprocesamiento#

El video guía se carga con VHS_LoadVideo (#191), que expone cuadros, audio, recuento de cuadros y fps de origen para uso posterior. Los indicios de pose y cara se extraen con OnnxDetectionModelLoader (#178) y PoseAndFaceDetection (#172), luego se visualizan con DrawViTPose (#173) para que puedas confirmar la calidad del seguimiento. El aislamiento del sujeto se maneja por Sam2Segmentation (#104), seguido de GrowMaskWithBlur (#182) y BlockifyMask (#108) para producir una máscara limpia y estable; un ayudante DrawMaskOnImage (#99) previsualiza el mate. El grupo también estandariza el ancho, la altura y el recuento de cuadros del video guía, para que Wan 2.2 Animate V2 pueda igualar configuraciones espaciales y temporales sin conjeturas. Las comprobaciones rápidas se exportan como videos cortos: una superposición de pose y una previsualización de máscara para validación sin disparo.

Modelos#

WanVideoVAELoader (#38) carga el Wan VAE y WanVideoModelLoader (#22) carga la columna vertebral de Wan 2.2 Animate. Las LoRAs opcionales se eligen en WanVideoLoraSelectMulti (#171) y se aplican a través de WanVideoSetLoRAs (#48); WanVideoBlockSwap (#51) se puede habilitar a través de WanVideoSetBlockSwap (#50) para ajustes arquitectónicos que afectan el estilo y la fidelidad. Las indicaciones se codifican con WanVideoTextEncodeCached (#65), mientras que WanVideoClipVisionEncode (#70) convierte la imagen de referencia en incrustaciones de identidad robustas. WanVideoAnimateEmbeds (#62) fusiona las características CLIP, la imagen de referencia, las imágenes de pose, los recortes de cara, los cuadros de fondo opcionales, la máscara SAM 2 y la resolución elegida y el recuento de cuadros en una sola incrustación de animación. Esa alimentación impulsa WanVideoSampler (#27), que sintetiza video latente consistente con tu indicación, identidad y pistas de movimiento, y WanVideoDecode (#28) convierte los latentes de nuevo en cuadros RGB.

Collage de Resultados#

Para ayudar a comparar salidas, el flujo de trabajo ensambla un simple lado a lado: el video generado junto a una tira vertical que muestra la imagen de referencia, recortes de cara, superposición de pose y un cuadro del video guía. ImageConcatMulti (#77, #66) construye el collage visual, luego VHS_VideoCombine (#30) renderiza un mp4 “Comparar”. La salida final limpia es renderizada por VHS_VideoCombine (#189), que también transfiere el audio del guía para cortes de revisión rápida. Estas exportaciones facilitan juzgar qué tan bien Wan 2.2 Animate V2 siguió el movimiento, preservó la identidad y mantuvo el fondo pretendido.

Nodos clave en el flujo de trabajo ComfyUI Wan 2.2 Animate V2#

VHS_LoadVideo (#191) Carga el video guía y expone cuadros, audio y metadatos utilizados en todo el gráfico. Mantén el sujeto completamente visible con mínimo desenfoque de movimiento para un seguimiento de puntos clave más fuerte. Si deseas pruebas más cortas, limita el número de cuadros cargados; mantiene el fps de origen consistente aguas abajo para evitar desincronización de audio en la combinación final.

PoseAndFaceDetection (#172) Ejecuta YOLO y ViTPose para producir puntos clave de cuerpo completo y recortes de cara que guían directamente la transferencia de movimiento. Aliméntalo con las imágenes del cargador y el ancho y altura estandarizados; la entrada opcional retarget_image permite adaptar poses a un encuadre diferente cuando sea necesario. Si la superposición de pose parece ruidosa, considera un modelo ViTPose de mayor calidad y asegúrate de que el sujeto no esté muy ocluido. Referencia: ComfyUI‑WanAnimatePreprocess.

Sam2Segmentation (#104) Genera una máscara de sujeto que puede preservar el fondo o localizar el relighting en Wan 2.2 Animate V2. Puedes usar las cajas delimitadoras detectadas de PoseAndFaceDetection o dibujar puntos positivos rápidos si es necesario para refinar el mate. Combínalo con GrowMaskWithBlur para bordes más limpios en movimiento rápido y revisa el resultado con la exportación de previsualización de máscara. Referencia: Segment Anything 2.

WanVideoClipVisionEncode (#70) Codifica la imagen de referencia con CLIP Vision para capturar indicios de identidad como estructura facial, cabello y ropa. Puedes promediar múltiples imágenes de referencia para estabilizar la identidad o usar una imagen negativa para suprimir rasgos no deseados. Los recortes centrados con iluminación consistente ayudan a producir incrustaciones más fuertes.

WanVideoAnimateEmbeds (#62) Fusiona características de identidad, imágenes de pose, recortes de cara, cuadros de fondo opcionales y la máscara SAM 2 en una sola incrustación de animación. Alinea width, height, y num_frames con tu video guía para menos artefactos. Si ves deriva de fondo, proporciona cuadros de fondo limpios y una máscara sólida; si la cara se desvía, asegúrate de que los recortes de cara estén presentes y bien iluminados.

WanVideoSampler (#27) Produce los latentes de video reales guiados por tu indicación, LoRAs y la incrustación de animación. Para clips largos, elige entre una estrategia de ventana deslizante o las opciones de contexto del modelo; adapta la ventana a la longitud del clip para equilibrar la nitidez del movimiento y la consistencia a largo plazo. Ajusta el programador y la fuerza de la guía para equilibrar fidelidad, adherencia al estilo y suavidad del movimiento, y considera habilitar el intercambio de bloques si tu pila LoRA se beneficia de ello.

Extras opcionales#

Comienza con un clip guía limpio: cámara estable, iluminación sencilla y mínima oclusión dan a Wan 2.2 Animate V2 la mejor oportunidad de seguir el movimiento limpiamente.
Usa una referencia que coincida con el atuendo y encuadre objetivo; evita ángulos extremos o filtros pesados que entren en conflicto con tu indicación o LoRAs.
Preserva o reemplaza fondos con la máscara SAM 2; al componer, mantén los bordes lo suficientemente suaves para evitar halos en movimiento rápido.
Mantén el fps consistente desde la carga hasta la exportación para mantener la sincronización de labios y la alineación del ritmo al transferir audio.
Para iteraciones rápidas, prueba primero un segmento corto, luego extiende el rango de cuadros una vez que la pose, identidad e iluminación se vean correctas.

Recursos útiles usados en este flujo de trabajo:

Nodos de preprocesamiento: kijai/ComfyUI‑WanAnimatePreprocess
Modelos ONNX ViTPose: ViTPose‑L, modelo ViTPose‑H y datos
Detector YOLOv10: yolov10m.onnx
Pesos Wan 2.2 Animate 14B: Wan22Animate
LoRAs: Lightx2v, Wan22_relight

Agradecimientos#

Este flujo de trabajo implementa y se basa en los siguientes trabajos y recursos. Agradecemos enormemente el flujo de trabajo de Benji’s AI Playground y al equipo Wan por el modelo Wan 2.2 Animate V2 por sus contribuciones y mantenimiento. Para detalles autorizados, consulte la documentación y repositorios originales vinculados a continuación.

Recursos#

Equipo Wan/Wan 2.2 Animate V2
- Documentación / Notas de la Versión: YouTube @Benji’s AI Playground

Nota: El uso de los modelos, conjuntos de datos y código referenciados está sujeto a las respectivas licencias y términos proporcionados por sus autores y mantenedores.

Want More ComfyUI Workflows?

Wan 2.2 | Líder en Generación de Video de Código Abierto

¡Disponible ahora! Mejor precisión + movimiento más suave.

Wan 2.2 FLF2V | Generación de Video de Primer-Último Fotograma

Genera videos fluidos a partir de un fotograma de inicio y fin usando Wan 2.2 FLF2V.

Wan 2.2 + Lightx2v V2 | I2V & T2V Ultra Rápido

Configuración Dual Light LoRA, 4X más rápido.

Wan 2.2 Lightning T2V I2V | 4 Pasos Ultra Rápidos

¡Wan 2.2 ahora 20 veces más rápido! T2V + I2V en 4 pasos.

Wan2.2 Animate | Foto a Video de Movimiento Realista

Convierte imágenes en personajes realistas en movimiento con movimiento natural del cuerpo y la cara.

JoyAI Image Edit ComfyUI | Editor de Fotos Inteligente AI

Transforma imágenes con ediciones de IA guiadas por prompts precisas.

Vid2Vid Parte 2 | SDXL Style Transfer

Mejora la creatividad de Vid2Vid enfocándote en la composición y el enmascarado de tu video original.

ACE++ Consistencia de Personajes

Genera imágenes consistentes de tu personaje en diferentes poses, ángulos y estilos a partir de una sola foto.

Soporte

Recursos

Legal

RunComfy

RunComfy es la principal ComfyUI plataforma, ofreciendo ComfyUI en línea entorno y servicios, junto con flujos de trabajo de ComfyUI con impresionantes imágenes. RunComfy también ofrece AI Models, permitiendo a los artistas aprovechar las últimas herramientas de AI para crear arte increíble.

Wan 2.2 Animate V2 | Generador de Video de Pose Realista