SCAIL 2 Transferencia de Acción de Referencia Multi-rol en ComfyUI

ComfyUI SCAIL 2 Multi-role Reference Action Transfer Flujo de trabajo

SCAIL 2 Multi-role Reference Action Transfer in ComfyUI | Coordinated Motion Transfer

¿Quiere ejecutar este flujo de trabajo?

Flujos de trabajo completamente operativos
Sin nodos ni modelos faltantes
No se requiere configuración manual
Presenta visuales impresionantes

ComfyUI SCAIL 2 Multi-role Reference Action Transfer Ejemplos

SCAIL 2 Transferencia de Acción de Referencia Multi-rol: transferencia de movimiento multi-personaje con preservación de identidad para ComfyUI#

Este flujo de trabajo ofrece SCAIL 2 Transferencia de Acción de Referencia Multi-rol: toma un video de conducción y transfiere las acciones a uno o más personajes de referencia mientras preserva la identidad visual de cada sujeto. Soporta transferencia de movimiento y reemplazo completo de personajes, maneja referencias de identidad de múltiples imágenes y produce escenas coherentes de múltiples roles adecuadas para narración, diálogo y actuaciones en grupo.

Construido alrededor de la generación de video Wan 2.1 con incrustaciones SCAIL_2, guía de CLIP Vision y máscaras de rol impulsadas por segmentación, el pipeline se centra en la consistencia de identidad, movimiento natural e interacciones controlables a lo largo de un clip completo.

Modelos clave en el flujo de trabajo de Comfyui SCAIL 2 Transferencia de Acción de Referencia Multi-rol#

Wan 2.1 video backbone a través de ComfyUI-WanVideoWrapper. El generador sintetiza cuadros de video a partir de incrustaciones de imagen SCAIL_2, acondicionamiento visual y texto de prompt mientras maneja contextos largos y uso eficiente de memoria. GitHub
Codificador CLIP Vision. Proporciona incrustaciones visuales robustas de la imagen de referencia principal o collage para dirigir la identidad y apariencia durante la generación. Ver el documento de CLIP para antecedentes sobre el aprendizaje de representación imagen-texto. arXiv
Codificador de texto de la familia mT5. Codifica los prompts positivos y negativos utilizados para sesgar el contenido hacia los sujetos y acciones deseados a lo largo de los cuadros. arXiv
Segmentación estilo Segment Anything para seguimiento de objetos en video. El flujo de trabajo utiliza un checkpoint de la familia SAM para detectar y rastrear sujetos y producir máscaras por rol que impulsan la transferencia de acción multi-personaje. Antecedentes sobre la segmentación SAM: GitHub
Adaptadores LoRA. Adaptadores opcionales que especializan el generador para la preservación de identidad y fidelidad de acción sin reentrenar el modelo completo. Antecedentes sobre el ajuste LoRA: arXiv
Utilidades de FeiHou Toolbox. Las utilidades de collage y máscara facilitan las referencias de identidad de múltiples imágenes y máscaras coloreadas, conscientes de roles para SCAIL 2. GitHub
Utilidades de imagen de KJNodes. El redimensionamiento de alta calidad alinea entradas y máscaras a las dimensiones del video para muestreo estable. GitHub

Cómo usar el flujo de trabajo de Comfyui SCAIL 2 Transferencia de Acción de Referencia Multi-rol#

El flujo de trabajo tiene cuatro etapas principales: cargar activos y el generador, construir referencias y máscaras multi-rol, compilar incrustaciones SCAIL_2, luego muestrear y exportar el video final. Los grupos se ejecutan de arriba hacia abajo, con vistas previas útiles en cada paso.

Área de Carga de Modelos#

Esta área prepara el backbone Wan 2.1 y su VAE. Usa WanAnimatePlus ModelLoader (#37) para elegir el modelo base y la precisión, y WanAnimatePlus VAELoader (#71) para el VAE correspondiente. Si planeas sesgar más la identidad o el movimiento, añade adaptadores con WanAnimatePlus LoraSelectMulti (#66), luego aplícalos al modelo a través de WanAnimatePlus SetLoRAs (#69). Las WanVideoTorchCompileSettings opcionales (#72) pueden reducir la latencia compilando bloques de atención.

Carga de Imagen Única#

Proporciona una imagen de identidad principal con LoadImage en el grupo de Carga de Imagen Única. Esta imagen ancla la apariencia de tu sujeto principal. Si prefieres construir un collage de múltiples identidades o roles, cambia en el grupo de Alternancia Rápida para enrutar desde la Entrada de Collage en lugar de la imagen única.

Entrada de Collage#

Usa AutoRefCollage (#370) para ensamblar hasta varias imágenes de referencia en un solo diseño, detectando automáticamente personas y colocando recortes en un lienzo limpio. El collage actúa como un tablero de identidad multi-rol: cada sujeto contribuye con pistas de apariencia para la etapa de Transferencia de Acción de Referencia Multi-rol de SCAIL 2. Un nodo de vista previa muestra el collage ensamblado para que puedas verificar el encuadre antes de continuar.

Referencia Multi-imagen#

Aquí también puedes cargar tres o más retratos seleccionados con LoadImage y empaquetarlos usando ImageBatchMulti (#331). ImageResizeKJv2 alinea su tamaño para coincidir con la resolución de video prevista. Este camino es útil cuando deseas un control más estricto sobre qué identidades y ángulos informan al modelo de apariencia.

Carga de Video#

VHS_LoadVideo (#297) trae el video y audio de conducción. Puedes forzar una tasa de cuadros objetivo para un movimiento más suave, limitar el total de cuadros para limitar la duración, omitir un segmento de introducción o muestrear cada N-ésimo cuadro para iteraciones más rápidas. Un sub-pipeline separado de “Vista Previa de Video de Referencia” combina y reproduce los cuadros cargados para que puedas confirmar que el clip se ve correcto antes de rastrear.

Área de Máscara#

El flujo de trabajo detecta y rastrea sujetos para crear las máscaras conscientes de roles que impulsan la Transferencia de Acción de Referencia Multi-rol de SCAIL 2. Tres nodos SAM3_VideoTrack (#315, #316, #306) rastrean objetos en el video de conducción, imágenes de referencia y cuadros de prefijo opcionales. SCAIL2ColoredMaskV2 (#354) fusiona esos rastros en tres salidas: una máscara de video de pose, una máscara de imagen de referencia coloreada y una máscara de prefijo para arranques en caliente. Las vistas previas para máscaras de un solo rol y multi-rol te ayudan a verificar que cada color corresponde al personaje correcto antes de muestrear.

Transferencia de Movimiento - Procesamiento de Incrustaciones#

WanAnimatePlus SCAIL_2 Embeds (#342) convierte tus entradas en incrustaciones de imagen SCAIL_2 utilizadas por el generador. Combina características VAE, incrustaciones CLIP Vision, tu imagen de referencia o collage, el reemplazo de fondo (opcional), los cuadros de pose rastreados y las máscaras coloreadas. Puedes ejecutar en dos modos: transferencia de movimiento (usar la apariencia de referencia con el movimiento de conducción) o reemplazo de personaje (reemplazar a la persona en el video de entrada con tu referencia). También existen opciones para preservar el fondo de referencia principal y recortar o mosaico de cuadros de prefijo para ejecuciones largas o de alta resolución.

Área de Muestreo#

WanVideoTextEncodeCached codifica prompts, y WanVideoContextOptions (#290) controla ventanas temporales a través de cuadros. WanAnimatePlus SamplerSettings (#332) recopila el modelo, incrustaciones de imagen SCAIL_2 y incrustaciones de texto junto con hiperparámetros de muestreo y programación; WanAnimatePlus SamplerFromSettings (#311) realiza la generación. WanAnimatePlus Decode (#267) convierte latentes en cuadros; puedes habilitar el mosaico de VAE aquí si enfrentas límites de memoria. El video se finaliza a través de VHS_VideoCombine y se exporta desde el Área de Vista Previa; un compañero de combinación puede exportar un clip solo de máscara para depuración rápida.

Alternancia Rápida y Dimensiones de Video#

El interruptor “true = Reemplazo de Personaje | false = Transferencia de Movimiento” (#341) cambia instantáneamente cómo se manejan los roles aguas abajo. Las constantes de ancho y alto alimentan todos los nodos de redimensionamiento y máscara para mantener las formas alineadas. Un FastGroupsBypassSwitch (#351) te permite cambiar entre una imagen única y una entrada de collage sin reconfiguración.

Nodos clave en el flujo de trabajo de Comfyui SCAIL 2 Transferencia de Acción de Referencia Multi-rol#

`SCAIL2ColoredMaskV2` (#354)#

Genera máscaras conscientes de roles fusionando los rastros de objetos del video de conducción, imágenes de referencia y cuadros de prefijo opcionales. Usa object_indices para elegir qué IDs rastreados se convierten en roles y el prefix_mask_mode para especificar un diseño de imagen única, multicolor cuando conduces varios personajes a la vez. Mantén replacement_mode consistente con el interruptor global para que la semántica de la máscara coincida con la etapa de incrustación.

`WanAnimatePlus SCAIL_2 Embeds` (#342)#

Fusiona VAE, CLIP Vision, referencias multi-imagen, cuadros de pose y máscaras en incrustaciones SCAIL_2 para el generador. Aumenta ref_strength cuando la identidad se desvía; sube pose_strength cuando la fidelidad del movimiento es baja. Para escenas que deben mantener un fondo de referencia, habilita la preservación del fondo; cuando inicies desde un solo cuadro de prefijo, habilita la codificación de prefijo de un solo cuadro.

`SAM3_VideoTrack` (#315, #316, #306)#

Detecta y rastrea sujetos a través de cuadros para alimentar el generador de máscaras. Si subdetectas personajes, baja el detection_threshold o permite más max_objects; si el seguimiento es ruidoso, aumenta el detect_interval para reducir el ruido de redetección. Siempre revisa la vista previa de máscara coloreada para asegurar que cada rol permanezca estable en el tiempo.

`VHS_LoadVideo` (#297)#

Controla el clip de conducción. force_rate establece el FPS de trabajo, frame_load_cap limita la duración, skip_first_frames recorta intros y select_every_nth te permite submuestrear cuadros para pruebas más rápidas. Estos controles afectan directamente las ventanas de contexto y la memoria, así que ajústalos antes de muestrear.

`WanAnimatePlus SamplerSettings` (#332)#

Contiene las perillas de generación central. steps, scheduler y cfg guían el detalle, la suavidad y la adherencia a los prompts; denoise_strength gobierna cuánto puede la guía SCAIL_2 remodelar los cuadros. Usa la entrada seed para reproducibilidad al refinar escenas multi-personaje.

`WanAnimatePlus BlockSwap` (#67)#

Ahorro de memoria opcional que intercambia bloques de cómputo durante el muestreo. En presupuestos de VRAM ajustados o rangos de cuadros largos, aumenta el intercambio para evitar errores de falta de memoria; en GPUs de alta VRAM, reduce o deshabilítalo para mayor velocidad.

`WanAnimatePlus Decode` (#267)#

Decodifica latentes en cuadros RGB. Si tu resolución o longitud de clip es alta y el decodificador se queda sin memoria, habilita la decodificación de VAE en mosaico y establece tamaños y pasos de mosaico apropiados para que los mosaicos se superpongan limpiamente.

Extras opcionales#

Para clips multi-personaje, da a cada rol al menos un retrato limpio y de frente y mantén la iluminación consistente en todo el collage.
Comienza con el modo de transferencia de movimiento para validar máscaras y calidad de movimiento, luego cambia a reemplazo de personaje si necesitas reemplazar completamente al intérprete.
Usa la vista previa de video solo de máscara para confirmar asignaciones de roles y estabilidad de color antes de un renderizado largo.
Mantén todas las entradas alineadas al mismo ancho y alto; usa los nodos de redimensionamiento proporcionados en lugar de herramientas externas para evitar desajustes sutiles de forma.
Si los resultados se ven sobreestilizados o fuera de identidad, baja la fuerza del prompt y aumenta el énfasis de referencia en la etapa de incrustación; ajusta la mezcla LoRA si habilitaste adaptadores.
Los clips largos se benefician de ventanas de contexto más grandes en WanVideoContextOptions; equilibra esto con memoria habilitando el mosaico de VAE y, si es necesario, un intercambio de bloques modesto.

Este flujo de trabajo de Transferencia de Acción de Referencia Multi-rol de SCAIL 2 está diseñado para hacer la transferencia de movimiento multi-rol repetible y predecible: prepara referencias claras, verifica máscaras, luego muestrea con configuraciones constantes para movimiento natural y fiel a la identidad a través de personajes.

Agradecimientos#

Este flujo de trabajo implementa y se basa en los siguientes trabajos y recursos. Agradecemos sinceramente a SCAIL 2 por SCAIL 2 Multi-role Reference Action Transfer Workflow Source por sus contribuciones y mantenimiento. Para detalles autorizados, por favor consulta la documentación original y los repositorios enlazados a continuación.

Recursos#

SCAIL 2/SCAIL 2 Multi-role Reference Action Transfer Workflow Source
- Docs / Release Notes: SCAIL 2 Multi-role Reference Action Transfer Workflow Source

Nota: El uso de los modelos, conjuntos de datos y código referenciados está sujeto a las respectivas licencias y términos proporcionados por sus autores y mantenedores.

Want More ComfyUI Workflows?

LTX 2.3 MSR | Generador de Video de Múltiples Sujetos

Mantiene a cada personaje consistente a lo largo de escenas de video complejas.

HunyuanCustom | Generador de Video Multi-Subject

Crea videos de dos sujetos con una preservación de identidad excepcional.

Edición de Video Bernini Pro | Generador Multimodal

Convierte tus videos en obras maestras inteligentes y conscientes de la identidad.

LTX 2.3 IC-LoRA | Generador de Video AI de Seguimiento de Movimiento

Herramienta de video guiada por movimiento V2V para creación AI ultra precisa y sin estilo

WAN 2.2 Flujo de Trabajo Suave v5.0 | Generador de Video AI

Convierte texto o imágenes en videos cortos y suaves al instante.

Inferencia de Z-Image Turbo LoRA | ComfyUI de AI Toolkit

Ejecuta tu Z-Image Turbo LoRA entrenado en AI Toolkit en ComfyUI con valores predeterminados coincidentes con el entrenamiento usando un solo nodo personalizado RC.

Cosmos-Predict2 | Text2Image & Video2World

¡Rápido y real! NVIDIA Cosmos con física verdadera.

IPAdapter Plus (V2) | Cambiar ropa

Use IPAdapter Plus para la creación de sus modelos de moda, cambiando fácilmente de atuendos y estilos

Soporte

Recursos

Legal

RunComfy

RunComfy es la principal ComfyUI plataforma, ofreciendo ComfyUI en línea entorno y servicios, junto con flujos de trabajo de ComfyUI con impresionantes imágenes. RunComfy también ofrece AI Models, permitiendo a los artistas aprovechar las últimas herramientas de AI para crear arte increíble.

SCAIL 2 Transferencia de Acción de Referencia Multi-rol | Animación Multi-Personaje