Este flujo de trabajo de ComfyUI convierte una imagen de referencia única en un video coherente, impulsado por el movimiento de una fuente de pose separada. Se construye alrededor del paradigma de imagen a video de SteadyDancer, de modo que el primer fotograma conserva la identidad y apariencia de tu imagen de entrada, mientras que el resto de la secuencia sigue el movimiento objetivo. El gráfico reconcilia pose y apariencia a través de incrustaciones específicas de SteadyDancer y una canalización de poses, produciendo un movimiento corporal completo suave y realista con fuerte coherencia temporal.
SteadyDancer es ideal para animación humana, generación de danza y dar vida a personajes o retratos. Proporciona una imagen fija más un clip de movimiento, y la canalización de ComfyUI maneja la extracción de poses, la incrustación, el muestreo y la decodificación para entregar un video listo para compartir.
El flujo de trabajo tiene dos entradas independientes que se encuentran en el muestreo: una imagen de referencia para la identidad y un video de conducción para el movimiento. Los modelos se cargan una vez al principio, se extrae la pose del clip de conducción, y las incrustaciones de SteadyDancer mezclan pose y apariencia antes de la generación y decodificación.
Este grupo carga los pesos principales utilizados a lo largo del gráfico. WanVideoModelLoader (#22) selecciona el punto de control Wan 2.1 I2V SteadyDancer y maneja la atención y los ajustes de precisión. WanVideoVAELoader (#38) proporciona el VAE de video, y CLIPVisionLoader (#59) prepara la columna vertebral de visión CLIP ViT‑H. Un nodo de selección LoRA y opciones de BlockSwap están presentes para usuarios avanzados que deseen cambiar el comportamiento de memoria o adjuntar pesos adicionales.
Importa la fuente de movimiento usando VHS_LoadVideo (#75). El nodo lee fotogramas y audio, permitiéndote establecer una tasa de fotogramas objetivo o limitar el número de fotogramas. El clip puede ser cualquier movimiento humano como una danza o un movimiento deportivo. El flujo de video luego se dirige a la escala de relación de aspecto y extracción de poses.
Una constante simple controla cuántos fotogramas se cargan del video de conducción. Esto limita tanto la extracción de poses como la longitud de la salida generada de SteadyDancer. Auméntalo para secuencias más largas o redúcelo para iterar más rápido.
LayerUtility: ImageScaleByAspectRatio V2 (#146) escala los fotogramas mientras preserva la relación de aspecto para que se ajusten a la capacidad y presupuesto de memoria del modelo. Establece un límite de lado largo apropiado para tu GPU y el nivel de detalle deseado. Los fotogramas escalados son utilizados por los nodos de detección posteriores y como referencia para el tamaño de salida.
La detección de personas y la estimación de poses se ejecutan en los fotogramas escalados. PoseAndFaceDetection (#89) utiliza YOLOv10 y ViTPose‑H para encontrar personas y puntos clave de manera robusta. DrawViTPose (#88) representa una representación limpia de figura de palo del movimiento, y ImageResizeKJv2 (#77) dimensiona las imágenes de pose resultantes para que coincidan con el lienzo de generación. WanVideoEncode (#72) convierte las imágenes de pose en latentes para que SteadyDancer pueda modular el movimiento sin luchar contra la señal de apariencia.
Carga la imagen de identidad que deseas que SteadyDancer anime. La imagen debe mostrar claramente al sujeto que deseas mover. Usa una pose y un ángulo de cámara que coincidan ampliamente con el video de conducción para una transferencia más fiel. El fotograma se envía al grupo de imágenes de referencia para la incrustación.
La imagen fija se redimensiona con ImageResizeKJv2 (#68) y se registra como el fotograma inicial a través de Set_IMAGE (#96). WanVideoClipVisionEncode (#65) extrae incrustaciones CLIP ViT‑H que preservan identidad, vestimenta y diseño general. WanVideoImageToVideoEncode (#63) empaqueta ancho, alto y conteo de fotogramas con el fotograma inicial para preparar la condición I2V de SteadyDancer.
Aquí es donde la apariencia y el movimiento se encuentran para generar video. WanVideoAddSteadyDancerEmbeds (#71) recibe la condición de imagen de WanVideoImageToVideoEncode y la aumenta con latentes de pose más una referencia CLIP-vision, habilitando la reconciliación de condiciones de SteadyDancer. Las ventanas de contexto y la superposición se establecen en WanVideoContextOptions (#87) para la consistencia temporal. Opcionalmente, WanVideoTextEncodeCached (#92) agrega orientación de texto umT5 para ajustes de estilo. WanVideoSamplerSettings (#119) y WanVideoSamplerFromSettings (#129) ejecutan los pasos de eliminación de ruido reales en el modelo Wan 2.1, después de lo cual WanVideoDecode (#28) convierte los latentes de nuevo a fotogramas RGB. Los videos finales se guardan con VHS_VideoCombine (#141, #83).
WanVideoAddSteadyDancerEmbeds (#71)Este nodo es el corazón de SteadyDancer en el gráfico. Fusiona la condición de imagen con latentes de pose y señales de CLIP-vision para que el primer fotograma bloquee la identidad mientras el movimiento se despliega naturalmente. Ajusta pose_strength_spatial para controlar qué tan estrechamente las extremidades siguen el esqueleto detectado y pose_strength_temporal para regular la suavidad del movimiento en el tiempo. Usa start_percent y end_percent para limitar dónde se aplica el control de poses dentro de la secuencia para introducciones y conclusiones más naturales.
PoseAndFaceDetection (#89)Ejecuta la detección YOLOv10 y la estimación de puntos clave ViTPose‑H en el video de conducción. Si las poses pierden extremidades pequeñas o caras, aumenta la resolución de entrada aguas arriba o elige metraje con menos oclusiones e iluminación más limpia. Cuando hay múltiples personas presentes, mantén al sujeto objetivo más grande en el fotograma para que el detector y la cabeza de poses se mantengan estables.
VHS_LoadVideo (#75)Controla qué porción de la fuente de movimiento usas. Aumenta el límite de fotogramas para salidas más largas o bájalo para prototipos rápidos. La entrada force_rate alinea el espaciado de poses con la tasa de generación y puede ayudar a reducir el tartamudeo cuando el FPS del clip original es inusual.
LayerUtility: ImageScaleByAspectRatio V2 (#146)Mantiene los fotogramas dentro de un límite de lado largo elegido mientras mantiene la relación de aspecto y agrupando a un tamaño divisible. Igualar la escala aquí al lienzo de generación para que SteadyDancer no necesite aumentar o recortar agresivamente. Si ves resultados suaves o artefactos en los bordes, acerca el lado largo a la escala de entrenamiento nativa del modelo para una decodificación más limpia.
WanVideoSamplerSettings (#119)Define el plan de eliminación de ruido para el muestreador Wan 2.1. El scheduler y los steps establecen la calidad general versus la velocidad, mientras cfg equilibra la adherencia a la imagen más el aviso contra la diversidad. seed bloquea la reproducibilidad y denoise_strength puede reducirse cuando deseas acercarte aún más a la apariencia de la imagen de referencia.
WanVideoModelLoader (#22)Carga el punto de control Wan 2.1 I2V SteadyDancer y maneja la precisión, la implementación de atención y la colocación de dispositivos. Déjalos como están configurados para estabilidad. Los usuarios avanzados pueden adjuntar un I2V LoRA para alterar el comportamiento del movimiento o reducir el costo computacional al experimentar.
WanVideoAddSteadyDancerEmbeds o aumenta el FPS del video para densificar las poses.Este flujo de trabajo de SteadyDancer te ofrece un camino práctico y completo desde una imagen fija hasta un video fiel impulsado por poses con la identidad preservada desde el primer fotograma.
Este flujo de trabajo implementa y se basa en los siguientes trabajos y recursos. Agradecemos sinceramente a MCG-NJU por SteadyDancer por sus contribuciones y mantenimiento. Para obtener detalles autorizados, consulta la documentación y los repositorios originales vinculados a continuación.
Nota: El uso de los modelos, conjuntos de datos y códigos referenciados está sujeto a las respectivas licencias y términos proporcionados por sus autores y mantenedores.
RunComfy es la principal ComfyUI plataforma, ofreciendo ComfyUI en línea entorno y servicios, junto con flujos de trabajo de ComfyUI con impresionantes imágenes. RunComfy también ofrece AI Playground, permitiendo a los artistas aprovechar las últimas herramientas de AI para crear arte increíble.