Modelo SCAIL en ComfyUI | Flujo de Trabajo de Animación de Personajes Basado en Poses

ComfyUI SCAIL Workflow

SCAIL Model in ComfyUI | Pose-Based Character Animation Workflow

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

ComfyUI SCAIL Examples

Animación de personajes guiada por poses SCAIL en ComfyUI#

Este flujo de trabajo lleva SCAIL a ComfyUI para animación de personajes guiada por poses y basada en referencias. Al combinar una sola imagen de referencia con poses humanas extraídas, SCAIL mantiene la identidad del sujeto, la estructura corporal y el movimiento coherente a lo largo de los fotogramas mientras controlas el estilo con indicaciones. Admite ya sea un video de entrada para transferencia de movimiento o imágenes más poses renderizadas para coreografía, luego produce videos de múltiples fotogramas con paso de audio opcional.

Utiliza este flujo de trabajo SCAIL para transferencia de movimiento de danza y acción, animación de personajes estilizados y secuencias consistentes de múltiples tomas donde la estabilidad temporal y las poses precisas son importantes. En el fondo, funciona en WanVideo para generación de video por difusión-transformador, aumenta la identidad a través de CLIP vision y dirige la estructura con señales de pose NLF y ViTPose/DWPose, todo cableado para un muestreo eficiente de secuencias largas.

Nota: Debido a limitaciones de compatibilidad, la máquina 2XL no se puede utilizar con el flujo de trabajo actual de ComfyUI.

Modelos clave en el flujo de trabajo SCAIL de ComfyUI#

SCAIL: Animación de personajes de calidad de estudio mediante inyección de pose de contexto completo y una representación de pose 3D consistente; el núcleo de la preservación de identidad y fidelidad de pose de este flujo de trabajo. GitHub, arXiv
Wan 2.x Image‑to‑Video backbone: modelos de difusión de video grandes utilizados aquí como la columna vertebral del muestreador para generación condicionada por SCAIL; admite tareas de alta calidad I2V y animación. Ejemplos: Wan‑AI/Wan2.1‑I2V‑14B‑480P, Wan‑AI/Wan2.2‑Animate‑14B
UMT5‑XXL text encoder: variante multilingüe de T5 utilizada por las canalizaciones de Wan para convertir indicaciones en incrustaciones de condicionamiento. Hugging Face
CLIP ViT‑H/14 vision encoder: extrae características de imagen de referencia robustas para anclar la identidad durante la síntesis de video. GitHub
ViTPose (Whole‑Body): estimador de pose humana 2D de alta calidad que proporciona puntos clave densos para cuerpo, manos y cara utilizados por las utilidades de alineación y dibujo de SCAIL. GitHub
DWPose: formato de puntos clave de cuerpo completo y modelos utilizados para detalle opcional de cara/manos y alineación de pose. GitHub
NLF (Neural Localizer Fields): predice señales continuas de pose/forma humana que se convierten en imágenes de pose SCAIL 3D‑aware utilizadas para un control estructural fuerte. GitHub
YOLOv10: detector rápido utilizado en la cadena de preprocesamiento de poses para localización de personas. GitHub

Cómo utilizar el flujo de trabajo SCAIL de ComfyUI#

Flujo general: carga una imagen de referencia y un video impulsor opcional; extrae y renderiza poses; codifica la referencia con CLIP vision; agrega incrustaciones de referencia SCAIL e incrustaciones de pose SCAIL; ensambla el condicionamiento de texto; muestrea fotogramas con WanVideo; decodifica y exporta el video. El gráfico incluye variables públicas "Set_" para que el ancho, la altura, CFG y el recuento de fotogramas se propaguen automáticamente.

Entradas y tamaño
- Carga una imagen de personaje de referencia o un video para transferencia de movimiento. El flujo de trabajo redimensiona la referencia al tamaño de generación y asegura que las dimensiones objetivo sean divisibles por 32. Si cargas un video, su audio está disponible para pasar al exportación final.
- Establece ancho, altura y recuento de fotogramas una vez; los valores alimentan al muestreador, decodificador y exportador a través de getters y setters compartidos. Mantén la relación de aspecto consistente entre la referencia y la salida para minimizar artefactos de estiramiento.
Extracción de pose (grupo: Extracción de pose)
- Los fotogramas de video de entrada o las imágenes se redimensionan para análisis y se alimentan a un predictor de pose NLF y un detector ViTPose. La salida de ViTPose se convierte en formato DWPose para detalle opcional de cara/manos y para alinear la pose global con el sujeto de referencia.
- Las imágenes de pose SCAIL renderizadas se producen a la mitad de la resolución de generación internamente para eficiencia, luego se componen al tamaño objetivo, preservando pistas de profundidad y oclusiones. El dibujo de cara/manos se puede activar mientras se utiliza la alineación; desconecta DWPose si deseas desactivar la alineación de pose.
Codificación de identidad de referencia
- La imagen de referencia se codifica con CLIP ViT‑H/14 y se convierte en incrustaciones de imagen WanVideo. Estas incrustaciones capturan color, textura y estructura local para que SCAIL pueda mantener el personaje consistente a través de movimientos desafiantes.
- Si la identidad se desvía en tomas largas o estilizadas, mantén una referencia limpia y frontal y evita recortes pesados; esto fortalece la señal CLIP utilizada aguas abajo.
Condicionamiento de pose SCAIL
- Las renderizaciones de pose SCAIL se inyectan como incrustaciones de imagen adicionales. Actúan como una guía estructural fuerte que refuerza la colocación de miembros, el orden de profundidad y la estabilidad de la silueta a través de los fotogramas.
- Puedes intercambiar la fuente impulsora en esta etapa: usa poses extraídas de un video para transferencia de movimiento o alimenta imágenes de pose SCAIL pre-renderizadas para coreografiar secuencias sin un conductor.
Condicionamiento de indicaciones de texto
- Las indicaciones se codifican en incrustaciones de texto que sesgan el estilo, vestuario, iluminación y entorno. Usa descriptores concisos que complementen la imagen de referencia; el texto negativo puede reducir la sobresaturación, artefactos o desorden.
- Las indicaciones son opcionales cuando deseas que la salida siga de cerca la apariencia de la referencia bajo control SCAIL.
Muestreo y programación
- El muestreador WanVideo ejecuta la difusión-transformador con modelo, incrustaciones de imagen/texto, programador y guía CFG. Un nodo de opciones de contexto puede ventanear secuencias largas para generación amigable con la memoria mientras preserva la continuidad temporal.
- Si notas parpadeo o bordes suaves, considera un programador más lento o una CFG ligeramente más fuerte; si el movimiento se siente demasiado restringido, reduce la guía general para que las señales de estructura y apariencia SCAIL se equilibren naturalmente.
Decodificar y exportar
- Los latentes se decodifican a fotogramas usando el VAE Wan, y el video se escribe con la velocidad de fotogramas y el prefijo de nombre de archivo elegidos. El flujo de trabajo puede concatenar visuales para cortes A/B y pasar audio cuando está conectado.
- Inspecciona la salida; si los brazos o piernas se cortan durante giros rápidos, revisa la calidad de extracción de pose o las entradas de alineación, luego vuelve a poner en cola con las mismas semillas para iteraciones controladas.

Nodos clave en el flujo de trabajo SCAIL de ComfyUI#

WanVideoAddSCAILReferenceEmbeds (#350)
- Agrega condicionamiento de identidad y apariencia de la imagen de referencia al flujo de incrustaciones de imagen. Aumenta su influencia cuando la cara o la ropa del personaje se desvían; disminuye si el modelo se niega a adaptarse a grandes rotaciones del cuerpo o iluminación dramática.
WanVideoAddSCAILPoseEmbeds (#324)
- Inyecta imágenes de pose SCAIL renderizadas como guía estructural. Aumenta su influencia para una colocación de miembros más estricta y estabilidad de silueta; disminuye si el movimiento parece demasiado rígido o si deseas más libertad para que las indicaciones de estilo doblen la pose ligeramente.
RenderNLFPoses (#362)
- Renderiza predicciones continuas de NLF en imágenes de pose estilo SCAIL, superponiendo opcionalmente cara/manos de DWPose y realizando alineación de pose a referencia. Mantén la renderización de pose interna a la mitad de la resolución objetivo para coincidir con el diseño de SCAIL y evitar aliasing; desconecta DWPose para eliminar la alineación.
WanVideoSamplerv2 (#348)
- Impulsa el muestreo principal de difusión con modelo, incrustaciones de imagen/texto, programador, argumentos adicionales y cfg. Si ves tambaleo temporal, usa un programador más estable o más pasos; si los detalles sobresalen de la referencia, baja cfg para que las señales de identidad de SCAIL lideren.
WanVideoSchedulerv2 (#349)
- Controla el comportamiento de la programación de reducción de ruido. Elige programaciones que equilibren detalle y estabilidad; las programaciones más lentas a menudo mejoran la consistencia temporal para movimientos amplios y secuencias largas.
WanVideoClipVisionEncode (#327)
- Codifica la imagen de referencia con ViT‑H/14 y produce incrustaciones de imagen CLIP para identidad. Usa referencias de alta calidad y bien iluminadas; las vistas frontales o de 3/4 tienden a anclar mejor caras y cabello.

Extras opcionales#

Las dimensiones deben ser divisibles por 32. Mantén alineadas las relaciones de aspecto de referencia y salida para evitar deformaciones.
SCAIL espera renderizaciones de pose a la mitad de la resolución de generación; este flujo de trabajo lo calcula automáticamente para que no necesites gestionarlo manualmente.
Para manos y expresiones precisas, mantén DWPose conectado para habilitar señales de cara/manos; para deshabilitar solo la alineación, desconecta el enlace DWPose pero mantén las imágenes de pose renderizadas.
Secuencias largas: usa el nodo de opciones de contexto para ventanear la generación para eficiencia de memoria mientras mantienes superposición para transiciones suaves.
Si usas pesos de vista previa de SCAIL empaquetados para ComfyUI, obténlos de las distribuciones comunitarias cuando sea necesario. Ejemplo de paquete de vista previa: Kijai/WanVideo_comfy SCAIL y Kijai/WanVideo_comfy_fp8_scaled SCAIL.

Reconocimientos#

Este flujo de trabajo implementa y se basa en los siguientes trabajos y recursos. Agradecemos a Ai Verse Z.ai (zai-org) por SCAIL (implementación oficial) y teal024 por la página del proyecto SCAIL por sus contribuciones y mantenimiento. Para detalles autorizados, consulta la documentación original y los repositorios vinculados a continuación.

Recursos#

zai-org/SCAIL
- GitHub: zai-org/SCAIL
- Hugging Face: zai-org/SCAIL-Preview
- arXiv: arXiv:2512.05905
teal024/SCAIL Project Page
- Docs / Release Notes: Project Page
- GitHub: zai-org/SCAIL
- Hugging Face: zai-org/SCAIL-Preview
- arXiv: arXiv:2512.05905

Nota: El uso de los modelos, conjuntos de datos y código referenciados está sujeto a las licencias y términos respectivos proporcionados por sus autores y mantenedores.

Want More ComfyUI Workflows?

Wan 2.2 | Líder en Generación de Video de Código Abierto

¡Disponible ahora! Mejor precisión + movimiento más suave.

Wan 2.2 + Lightx2v V2 | I2V & T2V Ultra Rápido

Configuración Dual Light LoRA, 4X más rápido.

Wan 2.2 Lightning T2V I2V | 4 Pasos Ultra Rápidos

¡Wan 2.2 ahora 20 veces más rápido! T2V + I2V en 4 pasos.

Wan 2.2 FLF2V | Generación de Video de Primer-Último Fotograma

Genera videos fluidos a partir de un fotograma de inicio y fin usando Wan 2.2 FLF2V.

Wan 2.2 Low Vram | Kijai Wrapper

Baja VRAM. No más esperas. Envoltorio Kijai incluido.

Anyline + MistoLine | Boceto a imagen de alta calidad

MistoLine se adapta a varios dibujos lineales, generando sin esfuerzo imágenes de alta calidad a partir de bocetos.

Instagirl v.20 | Wan 2.2 LoRA Demo

Un flujo de trabajo Wan 2.2 para demostrar el Instagirl LoRA de Instara.

ControlNet Tile + 4x UltraSharp | Mejorador de Imágenes/Videos

Use ControlNet Tile, 4xUltraSharp y interpolación de cuadros para un resultado de alta resolución.

Soporte

Recursos

Legal

RunComfy

RunComfy es la principal ComfyUI plataforma, ofreciendo ComfyUI en línea entorno y servicios, junto con flujos de trabajo de ComfyUI con impresionantes imágenes. RunComfy también ofrece AI Models, permitiendo a los artistas aprovechar las últimas herramientas de AI para crear arte increíble.

Modelo SCAIL | Creador de Animación Guiada por Poses