Wan 2.2 Animate V2 es un flujo de trabajo de generación de video guiado por pose que convierte una sola imagen de referencia más un video de pose guía en una animación realista que preserva la identidad. Se basa en la primera versión con mayor fidelidad, movimiento más suave y mejor consistencia temporal, todo mientras sigue de cerca el movimiento de cuerpo completo y las expresiones del video fuente.
Este flujo de trabajo de ComfyUI está diseñado para creadores que desean resultados rápidos y confiables para animación de personajes, clips de baile y narración impulsada por el rendimiento. Combina un preprocesamiento robusto (pose, cara y enmascaramiento de sujeto) con la familia de modelos Wan 2.2 y LoRAs opcionales, para que puedas ajustar el estilo, la iluminación y el manejo del fondo con confianza.
A un nivel alto, la tubería extrae indicios de pose y cara del video guía, codifica la identidad de una sola imagen de referencia, aísla opcionalmente el sujeto con una máscara SAM 2, y luego sintetiza un video que coincide con el movimiento mientras preserva la identidad. El flujo de trabajo está organizado en cuatro grupos que colaboran para producir el resultado final y dos salidas de conveniencia para QA rápida (previsualizaciones de pose y máscara).
Este grupo carga tu imagen de retrato o cuerpo completo, la redimensiona a la resolución objetivo y la pone a disposición en todo el gráfico. La imagen redimensionada se almacena y reutiliza por Get_reference_image y se previsualiza para que puedas evaluar rápidamente el encuadre. Las características de identidad son codificadas por WanVideoClipVisionEncode (CLIP Vision) (#70), y la misma imagen alimenta WanVideoAnimateEmbeds (#62) como ref_images para una preservación de identidad más fuerte. Proporciona una referencia clara y bien iluminada que coincida con el tipo de sujeto en el video guía para obtener los mejores resultados. Espacio para la cabeza y mínimas oclusiones ayudan a Wan 2.2 Animate V2 a fijarse en la estructura facial y la ropa.
El video guía se carga con VHS_LoadVideo (#191), que expone cuadros, audio, recuento de cuadros y fps de origen para uso posterior. Los indicios de pose y cara se extraen con OnnxDetectionModelLoader (#178) y PoseAndFaceDetection (#172), luego se visualizan con DrawViTPose (#173) para que puedas confirmar la calidad del seguimiento. El aislamiento del sujeto se maneja por Sam2Segmentation (#104), seguido de GrowMaskWithBlur (#182) y BlockifyMask (#108) para producir una máscara limpia y estable; un ayudante DrawMaskOnImage (#99) previsualiza el mate. El grupo también estandariza el ancho, la altura y el recuento de cuadros del video guía, para que Wan 2.2 Animate V2 pueda igualar configuraciones espaciales y temporales sin conjeturas. Las comprobaciones rápidas se exportan como videos cortos: una superposición de pose y una previsualización de máscara para validación sin disparo.
WanVideoVAELoader (#38) carga el Wan VAE y WanVideoModelLoader (#22) carga la columna vertebral de Wan 2.2 Animate. Las LoRAs opcionales se eligen en WanVideoLoraSelectMulti (#171) y se aplican a través de WanVideoSetLoRAs (#48); WanVideoBlockSwap (#51) se puede habilitar a través de WanVideoSetBlockSwap (#50) para ajustes arquitectónicos que afectan el estilo y la fidelidad. Las indicaciones se codifican con WanVideoTextEncodeCached (#65), mientras que WanVideoClipVisionEncode (#70) convierte la imagen de referencia en incrustaciones de identidad robustas. WanVideoAnimateEmbeds (#62) fusiona las características CLIP, la imagen de referencia, las imágenes de pose, los recortes de cara, los cuadros de fondo opcionales, la máscara SAM 2 y la resolución elegida y el recuento de cuadros en una sola incrustación de animación. Esa alimentación impulsa WanVideoSampler (#27), que sintetiza video latente consistente con tu indicación, identidad y pistas de movimiento, y WanVideoDecode (#28) convierte los latentes de nuevo en cuadros RGB.
Para ayudar a comparar salidas, el flujo de trabajo ensambla un simple lado a lado: el video generado junto a una tira vertical que muestra la imagen de referencia, recortes de cara, superposición de pose y un cuadro del video guía. ImageConcatMulti (#77, #66) construye el collage visual, luego VHS_VideoCombine (#30) renderiza un mp4 “Comparar”. La salida final limpia es renderizada por VHS_VideoCombine (#189), que también transfiere el audio del guía para cortes de revisión rápida. Estas exportaciones facilitan juzgar qué tan bien Wan 2.2 Animate V2 siguió el movimiento, preservó la identidad y mantuvo el fondo pretendido.
VHS_LoadVideo (#191)
Carga el video guía y expone cuadros, audio y metadatos utilizados en todo el gráfico. Mantén el sujeto completamente visible con mínimo desenfoque de movimiento para un seguimiento de puntos clave más fuerte. Si deseas pruebas más cortas, limita el número de cuadros cargados; mantiene el fps de origen consistente aguas abajo para evitar desincronización de audio en la combinación final.
PoseAndFaceDetection (#172)
Ejecuta YOLO y ViTPose para producir puntos clave de cuerpo completo y recortes de cara que guían directamente la transferencia de movimiento. Aliméntalo con las imágenes del cargador y el ancho y altura estandarizados; la entrada opcional retarget_image permite adaptar poses a un encuadre diferente cuando sea necesario. Si la superposición de pose parece ruidosa, considera un modelo ViTPose de mayor calidad y asegúrate de que el sujeto no esté muy ocluido. Referencia: ComfyUI‑WanAnimatePreprocess.
Sam2Segmentation (#104)
Genera una máscara de sujeto que puede preservar el fondo o localizar el relighting en Wan 2.2 Animate V2. Puedes usar las cajas delimitadoras detectadas de PoseAndFaceDetection o dibujar puntos positivos rápidos si es necesario para refinar el mate. Combínalo con GrowMaskWithBlur para bordes más limpios en movimiento rápido y revisa el resultado con la exportación de previsualización de máscara. Referencia: Segment Anything 2.
WanVideoClipVisionEncode (#70)
Codifica la imagen de referencia con CLIP Vision para capturar indicios de identidad como estructura facial, cabello y ropa. Puedes promediar múltiples imágenes de referencia para estabilizar la identidad o usar una imagen negativa para suprimir rasgos no deseados. Los recortes centrados con iluminación consistente ayudan a producir incrustaciones más fuertes.
WanVideoAnimateEmbeds (#62)
Fusiona características de identidad, imágenes de pose, recortes de cara, cuadros de fondo opcionales y la máscara SAM 2 en una sola incrustación de animación. Alinea width, height, y num_frames con tu video guía para menos artefactos. Si ves deriva de fondo, proporciona cuadros de fondo limpios y una máscara sólida; si la cara se desvía, asegúrate de que los recortes de cara estén presentes y bien iluminados.
WanVideoSampler (#27)
Produce los latentes de video reales guiados por tu indicación, LoRAs y la incrustación de animación. Para clips largos, elige entre una estrategia de ventana deslizante o las opciones de contexto del modelo; adapta la ventana a la longitud del clip para equilibrar la nitidez del movimiento y la consistencia a largo plazo. Ajusta el programador y la fuerza de la guía para equilibrar fidelidad, adherencia al estilo y suavidad del movimiento, y considera habilitar el intercambio de bloques si tu pila LoRA se beneficia de ello.
Recursos útiles usados en este flujo de trabajo:
Este flujo de trabajo implementa y se basa en los siguientes trabajos y recursos. Agradecemos enormemente el flujo de trabajo de Benji’s AI Playground y al equipo Wan por el modelo Wan 2.2 Animate V2 por sus contribuciones y mantenimiento. Para detalles autorizados, consulte la documentación y repositorios originales vinculados a continuación.
Nota: El uso de los modelos, conjuntos de datos y código referenciados está sujeto a las respectivas licencias y términos proporcionados por sus autores y mantenedores.
RunComfy es la principal ComfyUI plataforma, ofreciendo ComfyUI en línea entorno y servicios, junto con flujos de trabajo de ComfyUI con impresionantes imágenes. RunComfy también ofrece AI Playground, permitiendo a los artistas aprovechar las últimas herramientas de AI para crear arte increíble.