Animación de personajes guiada por poses SCAIL en ComfyUI
Este flujo de trabajo lleva SCAIL a ComfyUI para animación de personajes guiada por poses y basada en referencias. Al combinar una sola imagen de referencia con poses humanas extraídas, SCAIL mantiene la identidad del sujeto, la estructura corporal y el movimiento coherente a lo largo de los fotogramas mientras controlas el estilo con indicaciones. Admite ya sea un video de entrada para transferencia de movimiento o imágenes más poses renderizadas para coreografía, luego produce videos de múltiples fotogramas con paso de audio opcional.
Utiliza este flujo de trabajo SCAIL para transferencia de movimiento de danza y acción, animación de personajes estilizados y secuencias consistentes de múltiples tomas donde la estabilidad temporal y las poses precisas son importantes. En el fondo, funciona en WanVideo para generación de video por difusión-transformador, aumenta la identidad a través de CLIP vision y dirige la estructura con señales de pose NLF y ViTPose/DWPose, todo cableado para un muestreo eficiente de secuencias largas.
Nota: Debido a limitaciones de compatibilidad, la máquina 2XL no se puede utilizar con el flujo de trabajo actual de ComfyUI.
Modelos clave en el flujo de trabajo SCAIL de ComfyUI
- SCAIL: Animación de personajes de calidad de estudio mediante inyección de pose de contexto completo y una representación de pose 3D consistente; el núcleo de la preservación de identidad y fidelidad de pose de este flujo de trabajo. GitHub, arXiv
- Wan 2.x Image‑to‑Video backbone: modelos de difusión de video grandes utilizados aquí como la columna vertebral del muestreador para generación condicionada por SCAIL; admite tareas de alta calidad I2V y animación. Ejemplos: Wan‑AI/Wan2.1‑I2V‑14B‑480P, Wan‑AI/Wan2.2‑Animate‑14B
- UMT5‑XXL text encoder: variante multilingüe de T5 utilizada por las canalizaciones de Wan para convertir indicaciones en incrustaciones de condicionamiento. Hugging Face
- CLIP ViT‑H/14 vision encoder: extrae características de imagen de referencia robustas para anclar la identidad durante la síntesis de video. GitHub
- ViTPose (Whole‑Body): estimador de pose humana 2D de alta calidad que proporciona puntos clave densos para cuerpo, manos y cara utilizados por las utilidades de alineación y dibujo de SCAIL. GitHub
- DWPose: formato de puntos clave de cuerpo completo y modelos utilizados para detalle opcional de cara/manos y alineación de pose. GitHub
- NLF (Neural Localizer Fields): predice señales continuas de pose/forma humana que se convierten en imágenes de pose SCAIL 3D‑aware utilizadas para un control estructural fuerte. GitHub
- YOLOv10: detector rápido utilizado en la cadena de preprocesamiento de poses para localización de personas. GitHub
Cómo utilizar el flujo de trabajo SCAIL de ComfyUI
Flujo general: carga una imagen de referencia y un video impulsor opcional; extrae y renderiza poses; codifica la referencia con CLIP vision; agrega incrustaciones de referencia SCAIL e incrustaciones de pose SCAIL; ensambla el condicionamiento de texto; muestrea fotogramas con WanVideo; decodifica y exporta el video. El gráfico incluye variables públicas "Set_" para que el ancho, la altura, CFG y el recuento de fotogramas se propaguen automáticamente.
-
Entradas y tamaño
- Carga una imagen de personaje de referencia o un video para transferencia de movimiento. El flujo de trabajo redimensiona la referencia al tamaño de generación y asegura que las dimensiones objetivo sean divisibles por 32. Si cargas un video, su audio está disponible para pasar al exportación final.
- Establece ancho, altura y recuento de fotogramas una vez; los valores alimentan al muestreador, decodificador y exportador a través de getters y setters compartidos. Mantén la relación de aspecto consistente entre la referencia y la salida para minimizar artefactos de estiramiento.
-
Extracción de pose (grupo: Extracción de pose)
- Los fotogramas de video de entrada o las imágenes se redimensionan para análisis y se alimentan a un predictor de pose NLF y un detector ViTPose. La salida de ViTPose se convierte en formato DWPose para detalle opcional de cara/manos y para alinear la pose global con el sujeto de referencia.
- Las imágenes de pose SCAIL renderizadas se producen a la mitad de la resolución de generación internamente para eficiencia, luego se componen al tamaño objetivo, preservando pistas de profundidad y oclusiones. El dibujo de cara/manos se puede activar mientras se utiliza la alineación; desconecta DWPose si deseas desactivar la alineación de pose.
-
Codificación de identidad de referencia
- La imagen de referencia se codifica con CLIP ViT‑H/14 y se convierte en incrustaciones de imagen WanVideo. Estas incrustaciones capturan color, textura y estructura local para que SCAIL pueda mantener el personaje consistente a través de movimientos desafiantes.
- Si la identidad se desvía en tomas largas o estilizadas, mantén una referencia limpia y frontal y evita recortes pesados; esto fortalece la señal CLIP utilizada aguas abajo.
-
Condicionamiento de pose SCAIL
- Las renderizaciones de pose SCAIL se inyectan como incrustaciones de imagen adicionales. Actúan como una guía estructural fuerte que refuerza la colocación de miembros, el orden de profundidad y la estabilidad de la silueta a través de los fotogramas.
- Puedes intercambiar la fuente impulsora en esta etapa: usa poses extraídas de un video para transferencia de movimiento o alimenta imágenes de pose SCAIL pre-renderizadas para coreografiar secuencias sin un conductor.
-
Condicionamiento de indicaciones de texto
- Las indicaciones se codifican en incrustaciones de texto que sesgan el estilo, vestuario, iluminación y entorno. Usa descriptores concisos que complementen la imagen de referencia; el texto negativo puede reducir la sobresaturación, artefactos o desorden.
- Las indicaciones son opcionales cuando deseas que la salida siga de cerca la apariencia de la referencia bajo control SCAIL.
-
Muestreo y programación
- El muestreador WanVideo ejecuta la difusión-transformador con modelo, incrustaciones de imagen/texto, programador y guía CFG. Un nodo de opciones de contexto puede ventanear secuencias largas para generación amigable con la memoria mientras preserva la continuidad temporal.
- Si notas parpadeo o bordes suaves, considera un programador más lento o una CFG ligeramente más fuerte; si el movimiento se siente demasiado restringido, reduce la guía general para que las señales de estructura y apariencia SCAIL se equilibren naturalmente.
-
Decodificar y exportar
- Los latentes se decodifican a fotogramas usando el VAE Wan, y el video se escribe con la velocidad de fotogramas y el prefijo de nombre de archivo elegidos. El flujo de trabajo puede concatenar visuales para cortes A/B y pasar audio cuando está conectado.
- Inspecciona la salida; si los brazos o piernas se cortan durante giros rápidos, revisa la calidad de extracción de pose o las entradas de alineación, luego vuelve a poner en cola con las mismas semillas para iteraciones controladas.
Nodos clave en el flujo de trabajo SCAIL de ComfyUI
-
WanVideoAddSCAILReferenceEmbeds (#350)
- Agrega condicionamiento de identidad y apariencia de la imagen de referencia al flujo de incrustaciones de imagen. Aumenta su influencia cuando la cara o la ropa del personaje se desvían; disminuye si el modelo se niega a adaptarse a grandes rotaciones del cuerpo o iluminación dramática.
-
WanVideoAddSCAILPoseEmbeds (#324)
- Inyecta imágenes de pose SCAIL renderizadas como guía estructural. Aumenta su influencia para una colocación de miembros más estricta y estabilidad de silueta; disminuye si el movimiento parece demasiado rígido o si deseas más libertad para que las indicaciones de estilo doblen la pose ligeramente.
-
RenderNLFPoses (#362)
- Renderiza predicciones continuas de NLF en imágenes de pose estilo SCAIL, superponiendo opcionalmente cara/manos de DWPose y realizando alineación de pose a referencia. Mantén la renderización de pose interna a la mitad de la resolución objetivo para coincidir con el diseño de SCAIL y evitar aliasing; desconecta DWPose para eliminar la alineación.
-
WanVideoSamplerv2 (#348)
- Impulsa el muestreo principal de difusión con modelo, incrustaciones de imagen/texto, programador, argumentos adicionales y
cfg. Si ves tambaleo temporal, usa un programador más estable o más pasos; si los detalles sobresalen de la referencia, baja cfg para que las señales de identidad de SCAIL lideren.
-
WanVideoSchedulerv2 (#349)
- Controla el comportamiento de la programación de reducción de ruido. Elige programaciones que equilibren detalle y estabilidad; las programaciones más lentas a menudo mejoran la consistencia temporal para movimientos amplios y secuencias largas.
-
WanVideoClipVisionEncode (#327)
- Codifica la imagen de referencia con ViT‑H/14 y produce incrustaciones de imagen CLIP para identidad. Usa referencias de alta calidad y bien iluminadas; las vistas frontales o de 3/4 tienden a anclar mejor caras y cabello.
- Las dimensiones deben ser divisibles por 32. Mantén alineadas las relaciones de aspecto de referencia y salida para evitar deformaciones.
- SCAIL espera renderizaciones de pose a la mitad de la resolución de generación; este flujo de trabajo lo calcula automáticamente para que no necesites gestionarlo manualmente.
- Para manos y expresiones precisas, mantén DWPose conectado para habilitar señales de cara/manos; para deshabilitar solo la alineación, desconecta el enlace DWPose pero mantén las imágenes de pose renderizadas.
- Secuencias largas: usa el nodo de opciones de contexto para ventanear la generación para eficiencia de memoria mientras mantienes superposición para transiciones suaves.
- Si usas pesos de vista previa de SCAIL empaquetados para ComfyUI, obténlos de las distribuciones comunitarias cuando sea necesario. Ejemplo de paquete de vista previa: Kijai/WanVideo_comfy SCAIL y Kijai/WanVideo_comfy_fp8_scaled SCAIL.
Reconocimientos
Este flujo de trabajo implementa y se basa en los siguientes trabajos y recursos. Agradecemos a Ai Verse Z.ai (zai-org) por SCAIL (implementación oficial) y teal024 por la página del proyecto SCAIL por sus contribuciones y mantenimiento. Para detalles autorizados, consulta la documentación original y los repositorios vinculados a continuación.
Recursos
- zai-org/SCAIL
- teal024/SCAIL Project Page
Nota: El uso de los modelos, conjuntos de datos y código referenciados está sujeto a las licencias y términos respectivos proporcionados por sus autores y mantenedores.