logo
RunComfy
  • Playground
  • ComfyUI
  • TrainerNew
  • API
  • Pricing
discord logo
ComfyUI>Flujos de trabajo>Modelo SCAIL | Creador de Animación Guiada por Poses

Modelo SCAIL | Creador de Animación Guiada por Poses

Workflow Name: RunComfy/SCAIL
Workflow ID: 0000...1323
Este modelo impulsado por poses permite a los creadores animar personajes estáticos utilizando imágenes de referencia y poses humanas extraídas. Puedes transferir movimiento, mantener la consistencia del sujeto y controlar la estructura a lo largo de los fotogramas del video. Diseñado para animadores y diseñadores de movimiento, admite flujos de trabajo tanto de imagen a video como de video a video. Garantiza movimiento coherente y estabilidad visual incluso durante transformaciones complejas. Perfecto para crear animaciones de personajes estilizadas o estudios de movimiento con precisión estructural.

Animación de personajes guiada por poses SCAIL en ComfyUI

Este flujo de trabajo lleva SCAIL a ComfyUI para animación de personajes guiada por poses y basada en referencias. Al combinar una sola imagen de referencia con poses humanas extraídas, SCAIL mantiene la identidad del sujeto, la estructura corporal y el movimiento coherente a lo largo de los fotogramas mientras controlas el estilo con indicaciones. Admite ya sea un video de entrada para transferencia de movimiento o imágenes más poses renderizadas para coreografía, luego produce videos de múltiples fotogramas con paso de audio opcional.

Utiliza este flujo de trabajo SCAIL para transferencia de movimiento de danza y acción, animación de personajes estilizados y secuencias consistentes de múltiples tomas donde la estabilidad temporal y las poses precisas son importantes. En el fondo, funciona en WanVideo para generación de video por difusión-transformador, aumenta la identidad a través de CLIP vision y dirige la estructura con señales de pose NLF y ViTPose/DWPose, todo cableado para un muestreo eficiente de secuencias largas.

Nota: Debido a limitaciones de compatibilidad, la máquina 2XL no se puede utilizar con el flujo de trabajo actual de ComfyUI.

Modelos clave en el flujo de trabajo SCAIL de ComfyUI

  • SCAIL: Animación de personajes de calidad de estudio mediante inyección de pose de contexto completo y una representación de pose 3D consistente; el núcleo de la preservación de identidad y fidelidad de pose de este flujo de trabajo. GitHub, arXiv
  • Wan 2.x Image‑to‑Video backbone: modelos de difusión de video grandes utilizados aquí como la columna vertebral del muestreador para generación condicionada por SCAIL; admite tareas de alta calidad I2V y animación. Ejemplos: Wan‑AI/Wan2.1‑I2V‑14B‑480P, Wan‑AI/Wan2.2‑Animate‑14B
  • UMT5‑XXL text encoder: variante multilingüe de T5 utilizada por las canalizaciones de Wan para convertir indicaciones en incrustaciones de condicionamiento. Hugging Face
  • CLIP ViT‑H/14 vision encoder: extrae características de imagen de referencia robustas para anclar la identidad durante la síntesis de video. GitHub
  • ViTPose (Whole‑Body): estimador de pose humana 2D de alta calidad que proporciona puntos clave densos para cuerpo, manos y cara utilizados por las utilidades de alineación y dibujo de SCAIL. GitHub
  • DWPose: formato de puntos clave de cuerpo completo y modelos utilizados para detalle opcional de cara/manos y alineación de pose. GitHub
  • NLF (Neural Localizer Fields): predice señales continuas de pose/forma humana que se convierten en imágenes de pose SCAIL 3D‑aware utilizadas para un control estructural fuerte. GitHub
  • YOLOv10: detector rápido utilizado en la cadena de preprocesamiento de poses para localización de personas. GitHub

Cómo utilizar el flujo de trabajo SCAIL de ComfyUI

Flujo general: carga una imagen de referencia y un video impulsor opcional; extrae y renderiza poses; codifica la referencia con CLIP vision; agrega incrustaciones de referencia SCAIL e incrustaciones de pose SCAIL; ensambla el condicionamiento de texto; muestrea fotogramas con WanVideo; decodifica y exporta el video. El gráfico incluye variables públicas "Set_" para que el ancho, la altura, CFG y el recuento de fotogramas se propaguen automáticamente.

  • Entradas y tamaño

    • Carga una imagen de personaje de referencia o un video para transferencia de movimiento. El flujo de trabajo redimensiona la referencia al tamaño de generación y asegura que las dimensiones objetivo sean divisibles por 32. Si cargas un video, su audio está disponible para pasar al exportación final.
    • Establece ancho, altura y recuento de fotogramas una vez; los valores alimentan al muestreador, decodificador y exportador a través de getters y setters compartidos. Mantén la relación de aspecto consistente entre la referencia y la salida para minimizar artefactos de estiramiento.
  • Extracción de pose (grupo: Extracción de pose)

    • Los fotogramas de video de entrada o las imágenes se redimensionan para análisis y se alimentan a un predictor de pose NLF y un detector ViTPose. La salida de ViTPose se convierte en formato DWPose para detalle opcional de cara/manos y para alinear la pose global con el sujeto de referencia.
    • Las imágenes de pose SCAIL renderizadas se producen a la mitad de la resolución de generación internamente para eficiencia, luego se componen al tamaño objetivo, preservando pistas de profundidad y oclusiones. El dibujo de cara/manos se puede activar mientras se utiliza la alineación; desconecta DWPose si deseas desactivar la alineación de pose.
  • Codificación de identidad de referencia

    • La imagen de referencia se codifica con CLIP ViT‑H/14 y se convierte en incrustaciones de imagen WanVideo. Estas incrustaciones capturan color, textura y estructura local para que SCAIL pueda mantener el personaje consistente a través de movimientos desafiantes.
    • Si la identidad se desvía en tomas largas o estilizadas, mantén una referencia limpia y frontal y evita recortes pesados; esto fortalece la señal CLIP utilizada aguas abajo.
  • Condicionamiento de pose SCAIL

    • Las renderizaciones de pose SCAIL se inyectan como incrustaciones de imagen adicionales. Actúan como una guía estructural fuerte que refuerza la colocación de miembros, el orden de profundidad y la estabilidad de la silueta a través de los fotogramas.
    • Puedes intercambiar la fuente impulsora en esta etapa: usa poses extraídas de un video para transferencia de movimiento o alimenta imágenes de pose SCAIL pre-renderizadas para coreografiar secuencias sin un conductor.
  • Condicionamiento de indicaciones de texto

    • Las indicaciones se codifican en incrustaciones de texto que sesgan el estilo, vestuario, iluminación y entorno. Usa descriptores concisos que complementen la imagen de referencia; el texto negativo puede reducir la sobresaturación, artefactos o desorden.
    • Las indicaciones son opcionales cuando deseas que la salida siga de cerca la apariencia de la referencia bajo control SCAIL.
  • Muestreo y programación

    • El muestreador WanVideo ejecuta la difusión-transformador con modelo, incrustaciones de imagen/texto, programador y guía CFG. Un nodo de opciones de contexto puede ventanear secuencias largas para generación amigable con la memoria mientras preserva la continuidad temporal.
    • Si notas parpadeo o bordes suaves, considera un programador más lento o una CFG ligeramente más fuerte; si el movimiento se siente demasiado restringido, reduce la guía general para que las señales de estructura y apariencia SCAIL se equilibren naturalmente.
  • Decodificar y exportar

    • Los latentes se decodifican a fotogramas usando el VAE Wan, y el video se escribe con la velocidad de fotogramas y el prefijo de nombre de archivo elegidos. El flujo de trabajo puede concatenar visuales para cortes A/B y pasar audio cuando está conectado.
    • Inspecciona la salida; si los brazos o piernas se cortan durante giros rápidos, revisa la calidad de extracción de pose o las entradas de alineación, luego vuelve a poner en cola con las mismas semillas para iteraciones controladas.

Nodos clave en el flujo de trabajo SCAIL de ComfyUI

  • WanVideoAddSCAILReferenceEmbeds (#350)

    • Agrega condicionamiento de identidad y apariencia de la imagen de referencia al flujo de incrustaciones de imagen. Aumenta su influencia cuando la cara o la ropa del personaje se desvían; disminuye si el modelo se niega a adaptarse a grandes rotaciones del cuerpo o iluminación dramática.
  • WanVideoAddSCAILPoseEmbeds (#324)

    • Inyecta imágenes de pose SCAIL renderizadas como guía estructural. Aumenta su influencia para una colocación de miembros más estricta y estabilidad de silueta; disminuye si el movimiento parece demasiado rígido o si deseas más libertad para que las indicaciones de estilo doblen la pose ligeramente.
  • RenderNLFPoses (#362)

    • Renderiza predicciones continuas de NLF en imágenes de pose estilo SCAIL, superponiendo opcionalmente cara/manos de DWPose y realizando alineación de pose a referencia. Mantén la renderización de pose interna a la mitad de la resolución objetivo para coincidir con el diseño de SCAIL y evitar aliasing; desconecta DWPose para eliminar la alineación.
  • WanVideoSamplerv2 (#348)

    • Impulsa el muestreo principal de difusión con modelo, incrustaciones de imagen/texto, programador, argumentos adicionales y cfg. Si ves tambaleo temporal, usa un programador más estable o más pasos; si los detalles sobresalen de la referencia, baja cfg para que las señales de identidad de SCAIL lideren.
  • WanVideoSchedulerv2 (#349)

    • Controla el comportamiento de la programación de reducción de ruido. Elige programaciones que equilibren detalle y estabilidad; las programaciones más lentas a menudo mejoran la consistencia temporal para movimientos amplios y secuencias largas.
  • WanVideoClipVisionEncode (#327)

    • Codifica la imagen de referencia con ViT‑H/14 y produce incrustaciones de imagen CLIP para identidad. Usa referencias de alta calidad y bien iluminadas; las vistas frontales o de 3/4 tienden a anclar mejor caras y cabello.

Extras opcionales

  • Las dimensiones deben ser divisibles por 32. Mantén alineadas las relaciones de aspecto de referencia y salida para evitar deformaciones.
  • SCAIL espera renderizaciones de pose a la mitad de la resolución de generación; este flujo de trabajo lo calcula automáticamente para que no necesites gestionarlo manualmente.
  • Para manos y expresiones precisas, mantén DWPose conectado para habilitar señales de cara/manos; para deshabilitar solo la alineación, desconecta el enlace DWPose pero mantén las imágenes de pose renderizadas.
  • Secuencias largas: usa el nodo de opciones de contexto para ventanear la generación para eficiencia de memoria mientras mantienes superposición para transiciones suaves.
  • Si usas pesos de vista previa de SCAIL empaquetados para ComfyUI, obténlos de las distribuciones comunitarias cuando sea necesario. Ejemplo de paquete de vista previa: Kijai/WanVideo_comfy SCAIL y Kijai/WanVideo_comfy_fp8_scaled SCAIL.

Reconocimientos

Este flujo de trabajo implementa y se basa en los siguientes trabajos y recursos. Agradecemos a Ai Verse Z.ai (zai-org) por SCAIL (implementación oficial) y teal024 por la página del proyecto SCAIL por sus contribuciones y mantenimiento. Para detalles autorizados, consulta la documentación original y los repositorios vinculados a continuación.

Recursos

  • zai-org/SCAIL
    • GitHub: zai-org/SCAIL
    • Hugging Face: zai-org/SCAIL-Preview
    • arXiv: arXiv:2512.05905
  • teal024/SCAIL Project Page
    • Docs / Release Notes: Project Page
    • GitHub: zai-org/SCAIL
    • Hugging Face: zai-org/SCAIL-Preview
    • arXiv: arXiv:2512.05905

Nota: El uso de los modelos, conjuntos de datos y código referenciados está sujeto a las licencias y términos respectivos proporcionados por sus autores y mantenedores.

Want More ComfyUI Workflows?

Wan 2.2 | Líder en Generación de Video de Código Abierto

¡Disponible ahora! Mejor precisión + movimiento más suave.

Wan 2.2 + Lightx2v V2 | I2V & T2V Ultra Rápido

Configuración Dual Light LoRA, 4X más rápido.

Wan 2.2 Lightning T2V I2V | 4 Pasos Ultra Rápidos

¡Wan 2.2 ahora 20 veces más rápido! T2V + I2V en 4 pasos.

Wan 2.2 FLF2V | Generación de Video de Primer-Último Fotograma

Genera videos fluidos a partir de un fotograma de inicio y fin usando Wan 2.2 FLF2V.

Wan 2.2 Low Vram | Kijai Wrapper

Baja VRAM. No más esperas. Envoltorio Kijai incluido.

BAGEL AI | T2I + I2T + I2I

Comprensión y generación multimodal con IA de código abierto.

Omost | Mejora la Creación de Imágenes

Omost | Mejora la Creación de Imágenes

Omost utiliza codificación LLM para generar imágenes precisas y de alta calidad.

AnimateDiff + ControlNet | Estilo de dibujos animados

Dale a tus videos un toque divertido transformándolos en dibujos animados llenos de vida.

Síguenos
  • LinkedIn
  • Facebook
  • Instagram
  • Twitter
Soporte
  • Discord
  • Correo electrónico
  • Estado del sistema
  • afiliado
Recursos
  • ComfyUI en línea gratis
  • Guías de ComfyUI
  • RunComfy API
  • Tutoriales de ComfyUI
  • Nodos de ComfyUI
  • Aprende más
Legal
  • Términos de servicio
  • Política de privacidad
  • Política de cookies
RunComfy
Derechos de autor 2025 RunComfy. Todos los derechos reservados.

RunComfy es la principal ComfyUI plataforma, ofreciendo ComfyUI en línea entorno y servicios, junto con flujos de trabajo de ComfyUI con impresionantes imágenes. RunComfy también ofrece AI Playground, permitiendo a los artistas aprovechar las últimas herramientas de AI para crear arte increíble.