logo
RunComfy
ComfyUIPlaygroundPricing
discord logo
ComfyUI>Flujos de trabajo>Wan 2.2 Animate V2 | Generador de Videos de Poses Realistas

Wan 2.2 Animate V2 | Generador de Videos de Poses Realistas

Workflow Name: RunComfy/Wan-2-2-Animate-V2
Workflow ID: 0000...1300
Este flujo de trabajo mejorado te permite convertir imágenes de referencia y videos de poses en animaciones realistas de cuerpo completo. Con un realismo y fluidez de movimiento mejorados, captura expresiones y dinámicas corporales con precisión. La consistencia temporal mejorada asegura resultados cinematográficos en todo momento. Ideal para animadores, narradores y creadores de contenido que buscan movimiento natural. Puedes crear escenas de baile, renders de actuaciones o clips de personajes realistas de manera eficiente. Experimenta un control de movimiento más suave y salidas de mayor fidelidad que nunca antes.

Flujo de trabajo de generación de video basado en poses Wan 2.2 Animate V2 para ComfyUI

Wan 2.2 Animate V2 es un flujo de trabajo de generación de video basado en poses que convierte una sola imagen de referencia más un video de poses en una animación realista que preserva la identidad. Se basa en la primera versión con mayor fidelidad, movimiento más suave y mejor consistencia temporal, todo mientras sigue de cerca el movimiento y expresiones de cuerpo completo del video fuente.

Este flujo de trabajo de ComfyUI está diseñado para creadores que desean resultados rápidos y confiables para animación de personajes, clips de baile y narración impulsada por actuaciones. Combina preprocesamiento robusto (pose, cara y enmascaramiento de sujeto) con la familia de modelos Wan 2.2 y LoRAs opcionales, para que puedas ajustar el estilo, iluminación y manejo del fondo con confianza.

Modelos clave en el flujo de trabajo ComfyUI Wan 2.2 Animate V2

  • Wan 2.2 Animate 14B. Modelo de difusión de video central que sintetiza cuadros temporalmente consistentes a partir de incrustaciones multimodales. Pesos: Kijai/WanVideo_comfy_fp8_scaled (Wan22Animate).
  • Wan 2.1 VAE. Decodificador/codificador de video latente utilizado por la familia Wan para reconstruir cuadros RGB con pérdida mínima. Pesos: Wan2_1_VAE_bf16.safetensors.
  • Codificador de texto UMT5‑XXL. Codifica indicaciones que guían la apariencia, escena y cinematografía. Pesos: umt5‑xxl‑enc‑bf16.safetensors.
  • CLIP Vision (ViT‑H/14). Extrae características que preservan la identidad de la imagen de referencia. Artículo: CLIP.
  • ViTPose Whole‑Body (ONNX). Estima puntos clave del cuerpo denso que impulsan la transferencia de movimiento. Modelos: ViTPose‑L WholeBody y ViTPose‑H WholeBody. Artículo: ViTPose.
  • Detector YOLOv10. Proporciona cajas de personas para estabilizar la detección de poses y segmentación. Ejemplo: yolov10m.onnx.
  • Segment Anything 2. Máscaras de sujeto de alta calidad para la preservación del fondo, composición o vistas previas de relighting. Repo: facebookresearch/segment-anything-2.
  • LoRAs opcionales para estilo y transporte de luz. Útiles para relighting y detalle de textura en las salidas de Wan 2.2 Animate V2. Ejemplos: Lightx2v y Wan22_relight.

Cómo usar el flujo de trabajo ComfyUI Wan 2.2 Animate V2

A un alto nivel, el pipeline extrae pistas de pose y cara del video de conducción, codifica la identidad a partir de una sola imagen de referencia, aísla opcionalmente al sujeto con una máscara SAM 2 y luego sintetiza un video que coincide con el movimiento mientras preserva la identidad. El flujo de trabajo está organizado en cuatro grupos que colaboran para producir el resultado final y dos salidas de conveniencia para una rápida QA (previsualizaciones de pose y máscara).

Imagen de Referencia

Este grupo carga tu retrato o imagen de cuerpo completo, lo redimensiona a la resolución objetivo y lo pone a disposición en todo el gráfico. La imagen redimensionada se almacena y reutiliza por Get_reference_image y se previsualiza para que puedas evaluar rápidamente el encuadre. Las características de identidad se codifican por WanVideoClipVisionEncode (CLIP Vision) (#70), y la misma imagen alimenta WanVideoAnimateEmbeds (#62) como ref_images para una preservación de identidad más fuerte. Proporciona una referencia clara y bien iluminada que coincida con el tipo de sujeto en el video conductor para obtener los mejores resultados. El espacio libre y las oclusiones mínimas ayudan a Wan 2.2 Animate V2 a fijarse en la estructura facial y la vestimenta.

Preprocesamiento

El video conductor se carga con VHS_LoadVideo (#191), que expone cuadros, audio, conteo de cuadros y fps de origen para uso posterior. Las pistas de pose y cara se extraen por OnnxDetectionModelLoader (#178) y PoseAndFaceDetection (#172), luego se visualizan con DrawViTPose (#173) para que puedas confirmar la calidad de seguimiento. El aislamiento del sujeto se maneja con Sam2Segmentation (#104), seguido por GrowMaskWithBlur (#182) y BlockifyMask (#108) para producir una máscara limpia y estable; un ayudante DrawMaskOnImage (#99) previsualiza el mate. El grupo también estandariza el ancho, la altura y el conteo de cuadros del video conductor, para que Wan 2.2 Animate V2 pueda igualar configuraciones espaciales y temporales sin conjeturas. Las comprobaciones rápidas se exportan como videos cortos: una superposición de pose y una previsualización de máscara para validación cero.

Modelos

WanVideoVAELoader (#38) carga el Wan VAE y WanVideoModelLoader (#22) carga la columna vertebral de Wan 2.2 Animate. Las LoRAs opcionales se eligen en WanVideoLoraSelectMulti (#171) y se aplican a través de WanVideoSetLoRAs (#48); WanVideoBlockSwap (#51) se puede habilitar a través de WanVideoSetBlockSwap (#50) para ajustes arquitectónicos que afectan el estilo y la fidelidad. Las indicaciones se codifican por WanVideoTextEncodeCached (#65), mientras que WanVideoClipVisionEncode (#70) convierte la imagen de referencia en incrustaciones de identidad robustas. WanVideoAnimateEmbeds (#62) fusiona las características CLIP, la imagen de referencia, las imágenes de pose, los recortes de cara, los cuadros de fondo opcionales, la máscara SAM 2 y la resolución elegida y el conteo de cuadros en una sola incrustación de animación. Esa alimentación impulsa WanVideoSampler (#27), que sintetiza video latente consistente con tu indicación, identidad y pistas de movimiento, y WanVideoDecode (#28) convierte los latentes de vuelta a cuadros RGB.

Collage de Resultados

Para ayudar a comparar las salidas, el flujo de trabajo ensambla un simple lado a lado: el video generado junto a una tira vertical que muestra la imagen de referencia, recortes de cara, superposición de pose y un cuadro del video conductor. ImageConcatMulti (#77, #66) construye el collage visual, luego VHS_VideoCombine (#30) renderiza un mp4 "Comparar". La salida final limpia se renderiza por VHS_VideoCombine (#189), que también lleva el audio del conductor para cortes de revisión rápida. Estas exportaciones facilitan juzgar qué tan bien Wan 2.2 Animate V2 siguió el movimiento, preservó la identidad y mantuvo el fondo deseado.

Nodos clave en el flujo de trabajo ComfyUI Wan 2.2 Animate V2

VHS_LoadVideo (#191)
Carga el video conductor y expone cuadros, audio y metadatos utilizados en todo el gráfico. Mantén al sujeto completamente visible con un desenfoque de movimiento mínimo para un seguimiento de puntos clave más fuerte. Si deseas pruebas más cortas, limita la cantidad de cuadros cargados; mantén el fps de origen consistente hacia abajo para evitar la desincronización de audio en la combinación final.

PoseAndFaceDetection (#172)
Ejecuta YOLO y ViTPose para producir puntos clave de cuerpo completo y recortes de cara que guían directamente la transferencia de movimiento. Aliméntalo con las imágenes del cargador y el ancho y altura estandarizados; la entrada opcional retarget_image permite adaptar poses a un encuadre diferente cuando sea necesario. Si la superposición de pose parece ruidosa, considera un modelo ViTPose de mayor calidad y asegúrate de que el sujeto no esté muy ocluido. Referencia: ComfyUI‑WanAnimatePreprocess.

Sam2Segmentation (#104)
Genera una máscara de sujeto que puede preservar el fondo o localizar el relighting en Wan 2.2 Animate V2. Puedes usar las cajas de delimitación detectadas de PoseAndFaceDetection o dibujar puntos positivos rápidos si es necesario para refinar el mate. Empareja con GrowMaskWithBlur para bordes más limpios en movimiento rápido y revisa el resultado con la exportación de previsualización de máscara. Referencia: Segment Anything 2.

WanVideoClipVisionEncode (#70)
Codifica la imagen de referencia con CLIP Vision para capturar pistas de identidad como estructura facial, cabello y vestimenta. Puedes promediar múltiples imágenes de referencia para estabilizar la identidad o usar una imagen negativa para suprimir rasgos no deseados. Los recortes centrados con iluminación consistente ayudan a producir incrustaciones más fuertes.

WanVideoAnimateEmbeds (#62)
Fusiona características de identidad, imágenes de pose, recortes de cara, cuadros de fondo opcionales y la máscara SAM 2 en una sola incrustación de animación. Alinea width, height y num_frames con tu video conductor para menos artefactos. Si ves deriva del fondo, proporciona cuadros de fondo limpios y una máscara sólida; si la cara se desplaza, asegúrate de que los recortes de cara estén presentes y bien iluminados.

WanVideoSampler (#27)
Produce los latentes de video reales guiados por tu indicación, LoRAs y la incrustación de animación. Para clips largos, elige entre una estrategia de ventana deslizante o las opciones de contexto del modelo; ajusta la ventana a la longitud del clip para equilibrar la nitidez del movimiento y la consistencia a largo plazo. Ajusta el programador y la fuerza de la guía para intercambiar fidelidad, adherencia al estilo y suavidad del movimiento, y considera habilitar el intercambio de bloques si tu pila de LoRA se beneficia de ello.

Extras opcionales

  • Comienza con un clip del conductor limpio: cámara estable, iluminación simple y oclusión mínima dan a Wan 2.2 Animate V2 la mejor oportunidad para rastrear el movimiento limpiamente.
  • Usa una referencia que coincida con el atuendo y encuadre objetivo; evita ángulos extremos o filtros pesados que entren en conflicto con tu indicación o LoRAs.
  • Preserva o reemplaza fondos con la máscara SAM 2; al componer, mantén los bordes lo suficientemente suaves para evitar halos en movimiento rápido.
  • Mantén el fps consistente desde la carga hasta la exportación para mantener la sincronización de labios y la alineación del ritmo al llevar el audio.
  • Para iteración rápida, prueba un segmento breve primero, luego extiende el rango de cuadros una vez que la pose, identidad e iluminación se vean correctas.

Recursos útiles utilizados en este flujo de trabajo:

  • Nodos de preprocesamiento: kijai/ComfyUI‑WanAnimatePreprocess
  • Modelos ViTPose ONNX: ViTPose‑L, modelo ViTPose‑H y datos
  • Detector YOLOv10: yolov10m.onnx
  • Pesos Wan 2.2 Animate 14B: Wan22Animate
  • LoRAs: Lightx2v, Wan22_relight

Agradecimientos

Este flujo de trabajo implementa y se basa en los siguientes trabajos y recursos. Agradecemos profundamente al equipo de Benji’s AI Playground por el flujo de trabajo y al equipo de Wan por el modelo Wan 2.2 Animate V2 por sus contribuciones y mantenimiento. Para detalles autorizados, por favor consulta la documentación original y los repositorios vinculados a continuación.

Recursos

  • Equipo Wan/Wan 2.2 Animate V2
    • Documentos / Notas de Lanzamiento: YouTube @Benji’s AI Playground

Nota: El uso de los modelos, conjuntos de datos y código referenciados está sujeto a las respectivas licencias y términos proporcionados por sus autores y mantenedores.

Want More ComfyUI Workflows?

Wan 2.2 | Líder en Generación de Video de Código Abierto

¡Disponible ahora! Mejor precisión + movimiento más suave.

Wan 2.2 FLF2V | Generación de Video de Primer-Último Fotograma

Genera videos fluidos a partir de un fotograma de inicio y fin usando Wan 2.2 FLF2V.

Wan 2.2 + Lightx2v V2 | I2V & T2V Ultra Rápido

Configuración Dual Light LoRA, 4X más rápido.

Wan 2.2 Lightning T2V I2V | 4 Pasos Ultra Rápidos

¡Wan 2.2 ahora 20 veces más rápido! T2V + I2V en 4 pasos.

Wan2.2 Animate | Foto a Video de Movimiento Realista

Convierte imágenes en personajes realistas en movimiento con movimiento natural del cuerpo y la cara.

IPAdapter Plus (V2) | Cambiar ropa

IPAdapter Plus (V2) | Cambiar ropa

Use IPAdapter Plus para la creación de sus modelos de moda, cambiando fácilmente de atuendos y estilos

Transformación de Video de Baile | Personalización de Escenas e Intercambio de Rostros

Transforma videos de baile con edición de escenas, intercambio de rostros y preservación del movimiento.

LivePortrait | Animate Portraits | Vid2Vid

Actualizado el 16/6/2025: La versión de ComfyUI se actualizó a v0.3.39 para mejorar la estabilidad y compatibilidad. Transfiere expresiones faciales y movimientos de un video de conducción a un video fuente.

Síguenos
  • LinkedIn
  • Facebook
  • Instagram
  • Twitter
Soporte
  • Discord
  • Correo electrónico
  • Estado del sistema
  • afiliado
Recursos
  • ComfyUI en línea gratis
  • Guías de ComfyUI
  • RunComfy API
  • Tutoriales de ComfyUI
  • Nodos de ComfyUI
  • Aprende más
Legal
  • Términos de servicio
  • Política de privacidad
  • Política de cookies
RunComfy
Derechos de autor 2025 RunComfy. Todos los derechos reservados.

RunComfy es la principal ComfyUI plataforma, ofreciendo ComfyUI en línea entorno y servicios, junto con flujos de trabajo de ComfyUI con impresionantes imágenes. RunComfy también ofrece AI Playground, permitiendo a los artistas aprovechar las últimas herramientas de AI para crear arte increíble.