Wan 2.2 Animate V2 es un flujo de trabajo de generación de video basado en poses que convierte una sola imagen de referencia más un video de poses en una animación realista que preserva la identidad. Se basa en la primera versión con mayor fidelidad, movimiento más suave y mejor consistencia temporal, todo mientras sigue de cerca el movimiento y expresiones de cuerpo completo del video fuente.
Este flujo de trabajo de ComfyUI está diseñado para creadores que desean resultados rápidos y confiables para animación de personajes, clips de baile y narración impulsada por actuaciones. Combina preprocesamiento robusto (pose, cara y enmascaramiento de sujeto) con la familia de modelos Wan 2.2 y LoRAs opcionales, para que puedas ajustar el estilo, iluminación y manejo del fondo con confianza.
A un alto nivel, el pipeline extrae pistas de pose y cara del video de conducción, codifica la identidad a partir de una sola imagen de referencia, aísla opcionalmente al sujeto con una máscara SAM 2 y luego sintetiza un video que coincide con el movimiento mientras preserva la identidad. El flujo de trabajo está organizado en cuatro grupos que colaboran para producir el resultado final y dos salidas de conveniencia para una rápida QA (previsualizaciones de pose y máscara).
Este grupo carga tu retrato o imagen de cuerpo completo, lo redimensiona a la resolución objetivo y lo pone a disposición en todo el gráfico. La imagen redimensionada se almacena y reutiliza por Get_reference_image
y se previsualiza para que puedas evaluar rápidamente el encuadre. Las características de identidad se codifican por WanVideoClipVisionEncode
(CLIP Vision
) (#70), y la misma imagen alimenta WanVideoAnimateEmbeds
(#62) como ref_images
para una preservación de identidad más fuerte. Proporciona una referencia clara y bien iluminada que coincida con el tipo de sujeto en el video conductor para obtener los mejores resultados. El espacio libre y las oclusiones mínimas ayudan a Wan 2.2 Animate V2 a fijarse en la estructura facial y la vestimenta.
El video conductor se carga con VHS_LoadVideo
(#191), que expone cuadros, audio, conteo de cuadros y fps de origen para uso posterior. Las pistas de pose y cara se extraen por OnnxDetectionModelLoader
(#178) y PoseAndFaceDetection
(#172), luego se visualizan con DrawViTPose
(#173) para que puedas confirmar la calidad de seguimiento. El aislamiento del sujeto se maneja con Sam2Segmentation
(#104), seguido por GrowMaskWithBlur
(#182) y BlockifyMask
(#108) para producir una máscara limpia y estable; un ayudante DrawMaskOnImage
(#99) previsualiza el mate. El grupo también estandariza el ancho, la altura y el conteo de cuadros del video conductor, para que Wan 2.2 Animate V2 pueda igualar configuraciones espaciales y temporales sin conjeturas. Las comprobaciones rápidas se exportan como videos cortos: una superposición de pose y una previsualización de máscara para validación cero.
WanVideoVAELoader
(#38) carga el Wan VAE y WanVideoModelLoader
(#22) carga la columna vertebral de Wan 2.2 Animate. Las LoRAs opcionales se eligen en WanVideoLoraSelectMulti
(#171) y se aplican a través de WanVideoSetLoRAs
(#48); WanVideoBlockSwap
(#51) se puede habilitar a través de WanVideoSetBlockSwap
(#50) para ajustes arquitectónicos que afectan el estilo y la fidelidad. Las indicaciones se codifican por WanVideoTextEncodeCached
(#65), mientras que WanVideoClipVisionEncode
(#70) convierte la imagen de referencia en incrustaciones de identidad robustas. WanVideoAnimateEmbeds
(#62) fusiona las características CLIP, la imagen de referencia, las imágenes de pose, los recortes de cara, los cuadros de fondo opcionales, la máscara SAM 2 y la resolución elegida y el conteo de cuadros en una sola incrustación de animación. Esa alimentación impulsa WanVideoSampler
(#27), que sintetiza video latente consistente con tu indicación, identidad y pistas de movimiento, y WanVideoDecode
(#28) convierte los latentes de vuelta a cuadros RGB.
Para ayudar a comparar las salidas, el flujo de trabajo ensambla un simple lado a lado: el video generado junto a una tira vertical que muestra la imagen de referencia, recortes de cara, superposición de pose y un cuadro del video conductor. ImageConcatMulti
(#77, #66) construye el collage visual, luego VHS_VideoCombine
(#30) renderiza un mp4 "Comparar". La salida final limpia se renderiza por VHS_VideoCombine
(#189), que también lleva el audio del conductor para cortes de revisión rápida. Estas exportaciones facilitan juzgar qué tan bien Wan 2.2 Animate V2 siguió el movimiento, preservó la identidad y mantuvo el fondo deseado.
VHS_LoadVideo
(#191)
Carga el video conductor y expone cuadros, audio y metadatos utilizados en todo el gráfico. Mantén al sujeto completamente visible con un desenfoque de movimiento mínimo para un seguimiento de puntos clave más fuerte. Si deseas pruebas más cortas, limita la cantidad de cuadros cargados; mantén el fps de origen consistente hacia abajo para evitar la desincronización de audio en la combinación final.
PoseAndFaceDetection
(#172)
Ejecuta YOLO y ViTPose para producir puntos clave de cuerpo completo y recortes de cara que guían directamente la transferencia de movimiento. Aliméntalo con las imágenes del cargador y el ancho y altura estandarizados; la entrada opcional retarget_image
permite adaptar poses a un encuadre diferente cuando sea necesario. Si la superposición de pose parece ruidosa, considera un modelo ViTPose de mayor calidad y asegúrate de que el sujeto no esté muy ocluido. Referencia: ComfyUI‑WanAnimatePreprocess.
Sam2Segmentation
(#104)
Genera una máscara de sujeto que puede preservar el fondo o localizar el relighting en Wan 2.2 Animate V2. Puedes usar las cajas de delimitación detectadas de PoseAndFaceDetection
o dibujar puntos positivos rápidos si es necesario para refinar el mate. Empareja con GrowMaskWithBlur
para bordes más limpios en movimiento rápido y revisa el resultado con la exportación de previsualización de máscara. Referencia: Segment Anything 2.
WanVideoClipVisionEncode
(#70)
Codifica la imagen de referencia con CLIP Vision para capturar pistas de identidad como estructura facial, cabello y vestimenta. Puedes promediar múltiples imágenes de referencia para estabilizar la identidad o usar una imagen negativa para suprimir rasgos no deseados. Los recortes centrados con iluminación consistente ayudan a producir incrustaciones más fuertes.
WanVideoAnimateEmbeds
(#62)
Fusiona características de identidad, imágenes de pose, recortes de cara, cuadros de fondo opcionales y la máscara SAM 2 en una sola incrustación de animación. Alinea width
, height
y num_frames
con tu video conductor para menos artefactos. Si ves deriva del fondo, proporciona cuadros de fondo limpios y una máscara sólida; si la cara se desplaza, asegúrate de que los recortes de cara estén presentes y bien iluminados.
WanVideoSampler
(#27)
Produce los latentes de video reales guiados por tu indicación, LoRAs y la incrustación de animación. Para clips largos, elige entre una estrategia de ventana deslizante o las opciones de contexto del modelo; ajusta la ventana a la longitud del clip para equilibrar la nitidez del movimiento y la consistencia a largo plazo. Ajusta el programador y la fuerza de la guía para intercambiar fidelidad, adherencia al estilo y suavidad del movimiento, y considera habilitar el intercambio de bloques si tu pila de LoRA se beneficia de ello.
Recursos útiles utilizados en este flujo de trabajo:
Este flujo de trabajo implementa y se basa en los siguientes trabajos y recursos. Agradecemos profundamente al equipo de Benji’s AI Playground por el flujo de trabajo y al equipo de Wan por el modelo Wan 2.2 Animate V2 por sus contribuciones y mantenimiento. Para detalles autorizados, por favor consulta la documentación original y los repositorios vinculados a continuación.
Nota: El uso de los modelos, conjuntos de datos y código referenciados está sujeto a las respectivas licencias y términos proporcionados por sus autores y mantenedores.
RunComfy es la principal ComfyUI plataforma, ofreciendo ComfyUI en línea entorno y servicios, junto con flujos de trabajo de ComfyUI con impresionantes imágenes. RunComfy también ofrece AI Playground, permitiendo a los artistas aprovechar las últimas herramientas de AI para crear arte increíble.