SCAIL-2 Transferencia de Movimiento en ComfyUI | Imagen de Referencia a Video

ComfyUI SCAIL-2 character motion transfer, reference image to long video workflow, Western editorial market example Workflow

SCAIL-2 Motion Transfer in ComfyUI | Reference Image to Video

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

ComfyUI SCAIL-2 character motion transfer, reference image to long video workflow, Western editorial market example Examples

Transferencia de movimiento de personaje SCAIL-2: flujo de trabajo de imagen de referencia a video largo#

Esta tubería de ComfyUI convierte una sola imagen de referencia en una larga actuación de personaje fiel a la identidad al tomar prestado el movimiento de un video de conducción. Construido sobre la ruta SCAIL-2 Wan 2.1 14B con acondicionamiento de CLIP Vision, enmascaramiento de persona basado en SAM y aceleración LightX2V, está optimizado para estabilidad en secuencias largas y fácil inspección lado a lado. Es un flujo de trabajo práctico de transferencia de movimiento de personaje SCAIL-2 de imagen de referencia a video largo para creadores que necesitan consistencia en identidad, vestuario y estilo a lo largo de cientos de cuadros.

Úsalo para generar pruebas de movimiento estilo catálogo, demostraciones de imagen de referencia a video y videos de ejemplo del mercado editorial occidental. El flujo de trabajo admite orientación de reiluminación opcional para que el sujeto pueda armonizarse con la escena de conducción mientras mantiene alineados los detalles faciales y del atuendo con tu imagen de referencia.

Modelos clave en el flujo de trabajo de transferencia de movimiento de personaje SCAIL-2 en ComfyUI de imagen de referencia a video largo#

SCAIL-2 en Wan 2.1 14B. Difusión de video consciente de la identidad central utilizada para la transferencia de movimiento. El flujo de trabajo carga los pesos SCAIL-2 14B empaquetados para ComfyUI y los empareja con un VAE Wan para la reconstrucción. Ver la colección de modelos en Comfy-Org/SCAIL-2 y la descripción del método en zai-org/SCAIL.
OpenCLIP ViT-H/14 para CLIP Vision. Extrae robustas incrustaciones de identidad y apariencia de la imagen de referencia para condicionar la generación, mejorando la fidelidad del personaje a lo largo de los cuadros. Familia de modelos de referencia: laion/CLIP-ViT-H-14-laion2B-s32B-b79K.
Familia Segment Anything (SAM). Proporciona máscaras de persona y pistas por cuadro que localizan al sujeto tanto en el video de conducción como en la imagen de referencia, permitiendo un acondicionamiento dirigido. Referencia del proyecto: facebookresearch/segment-anything.
LightX2V LoRA y WanAnimate Relight LoRA. Adaptadores opcionales que el flujo de trabajo carga para acelerar la inferencia de cuadro a cuadro y ofrecer orientación de reiluminación para que el personaje transferido coincida con la iluminación del clip de conducción.

Cómo usar el flujo de trabajo de transferencia de movimiento de personaje SCAIL-2 en ComfyUI de imagen de referencia a video largo#

A un alto nivel, proporcionas una imagen de referencia y un video de conducción. El grupo de Segmentación encuentra y enmascara a la persona en ambas fuentes, CLIP Vision codifica la identidad de referencia, un Primer Pase genera un segmento inicial, y un bucle de Múltiple Pase aplica esa lógica de segmentación a lo largo de toda la línea de tiempo para entregar un video largo y coherente. Los paneles de vista previa lado a lado facilitan la inspección de la alineación de identidad y pose.

Modelos#

Este grupo inicializa los modelos base y adaptadores opcionales. UNet carga el punto de control SCAIL-2 Wan 2.1 14B, y el VAE maneja la decodificación latente para los cuadros de video. El flujo de trabajo también carga CLIP Vision para incrustaciones de identidad y dos adaptadores LoRA: LightX2V para velocidad y WanAnimate Relight para orientación de iluminación. Los mensajes de texto son codificados por la pila de texto Wan para ajustar la escena y el tono, lo cual es conveniente al crear un ejemplo del mercado editorial occidental.

Parámetros#

Usa el grupo de Parámetros para establecer controles de proyecto a nivel general. La resolución está expuesta para que puedas elegir una base rápida o una configuración más nítida que se adapte a tu presupuesto de GPU. La tasa de cuadros gobierna cómo se muestrea el video de conducción y cómo se codifica la salida para la reproducción. La longitud del segmento define cuántos cuadros contiene cada fragmento de inferencia, lo que mantiene la memoria predecible en líneas de tiempo largas. Está disponible un límite de cuadros finales para limitar el procesamiento durante el desarrollo visual antes de ejecutar el clip completo.

Segmentación#

El grupo de Segmentación prepara una guía limpia y dirigida para la transferencia de movimiento. VHS_LoadVideo (#33) importa el video de conducción, y los cuadros son redimensionados a la resolución elegida para que coincidan con la ruta SCAIL-2. Dos rastreadores, SAM3_VideoTrack (#85) para el video de pose y SAM3_VideoTrack (#91) para la referencia, ejecutan la detección de personas guiada por un simple acondicionamiento de texto "persona" para aumentar el recuerdo. SCAIL2ColoredMask (#104) fusiona las pistas en dos máscaras consistentes, una para el video de pose y otra para la imagen de referencia, que los nodos de generación consumen para mantener los ajustes enfocados en el sujeto.

Primer Pase#

El Primer Pase inicia la secuencia y establece el bloqueo de identidad. CLIPVisionEncode (#76) extrae incrustaciones de la imagen de referencia, luego WanSCAILToVideo (#114) combina esas incrustaciones con el video de pose y las dos máscaras para producir una secuencia latente para el primer segmento. Una pila de muestreo simple SamplerCustom (#19) con BasicScheduler (#18) renderiza este latente en imágenes, decodificadas por VAEDecode (#6). Este pase también expone un desplazamiento de cuadro que la etapa de Múltiple Pase usa para alinear fragmentos subsiguientes.

Múltiple Pase#

El grupo de Múltiple Pase escala la ejecución para videos largos sin perder consistencia. Un par de bucles for, easy forLoopStart (#233) y easy forLoopEnd (#234), itera sobre toda la línea de tiempo en segmentos de tamaño fijo mientras pasa los cuadros decodificados como contexto temporal. WanSCAILToVideo (#115) consume ese contexto a través de su entrada previous_frames, mejorando la continuidad de cara, cabello y vestuario a través de los límites de los segmentos. La pila de muestreo SamplerCustom (#63) es impulsada por el muestreador elegido y el programa de sigma para que puedas equilibrar velocidad y adherencia, y VAEDecode (#66) devuelve cada fragmento como imágenes. El flujo de trabajo luego une los rangos juntos y los prepara para exportación.

Máscara#

El grupo de Máscara dirige las máscaras de persona calculadas en Segmentación para que tanto los nodos de Primer Pase como de Múltiple Pase reciban las regiones correctas del sujeto. Get_pose_video_mask (#122) y Get_reference_image_mask (#120) aseguran que la transferencia de estilo y la preservación de identidad se apliquen precisamente donde se necesita, reduciendo la deriva del fondo y protegiendo los detalles de la escena fuera del sujeto.

Habilitar Reemplazo de Personaje#

Este grupo te permite cambiar entre transferencia de identidad que respeta el fondo original y reemplazo total del primer plano. easy imageRemBg (#204) elimina el fondo de la imagen de referencia, y ImpactConditionalBranch (#270) alterna si el primer plano limpio se utiliza río abajo. Habilítalo cuando desees un intercambio estricto de personaje, lo cual es útil para pruebas estilo catálogo o un ejemplo del mercado editorial occidental donde un sujeto debe coincidir con un aspecto estandarizado.

Vista previa y exportación#

El flujo de trabajo ofrece visualización lado a lado y renders finales. ImageConcatMulti (#153) compone un panel rápido que muestra los cuadros de pose de conducción y la imagen de referencia para verificaciones de cordura. Otro ImageConcatMulti (#72) puede mostrar la salida del modelo junto a las entradas para control de calidad cuadro por cuadro. Los videos finales son escritos por VHS_VideoCombine (#71) y VHS_VideoCombine (#236), que pueden incluir audio de la fuente si se desea para que las revisiones se mantengan fieles al tiempo.

Nodos clave en el flujo de trabajo de transferencia de movimiento de personaje SCAIL-2 en ComfyUI de imagen de referencia a video largo#

`WanSCAILToVideo` (#114)#

Genera el segmento latente inicial fusionando cuadros de pose, máscaras de sujeto e incrustaciones de identidad CLIP Vision de la imagen de referencia. Ajusta pose_strength para equilibrar entre copiar el movimiento exacto y permitir una adaptación sutil de estilo. Usa length para coincidir con el tamaño de tu segmento, de modo que el sampler procese un fragmento predecible en cada pase. Si estás reemplazando estrictamente a la persona en pantalla, establece replacement_mode para favorecer la identidad sobre el estilo de fondo. Respaldado por SCAIL-2 en Wan 2.1 14B como empaquetado en Comfy-Org/SCAIL-2 con contexto de método de zai-org/SCAIL.

`WanSCAILToVideo` (#115)#

Se ejecuta durante el bucle para cubrir el resto de la línea de tiempo con una estabilidad temporal mejorada. Proporciona previous_frames del segmento anterior para ayudar al modelo a mantener los detalles de la ropa y la identidad facial constantes a través de los límites. video_frame_offset y previous_frame_count mantienen los segmentos sincronizados con el clip de conducción. Cuando la orientación de reiluminación está habilitada a través de LoRA, empuja la coincidencia de estilo un poco más fuerte en este pase para armonizar la iluminación global.

`SAM3_VideoTrack` (#85, #91)#

Detecta y rastrea a la persona tanto en el video de pose como en la imagen de referencia. El acondicionamiento de texto "persona" mejora la robustez cuando hay múltiples objetos presentes. Si el rastreador se desvía, aumenta la confianza en la detección o limita max_objects para que el mismo sujeto sea seleccionado en todo momento. El concepto de seguimiento sigue a la familia Segment Anything, ver facebookresearch/segment-anything para antecedentes.

`CLIPVisionEncode` (#76)#

Produce la incrustación de identidad de referencia que condiciona cada cuadro. Para referencias de cabeza y hombros, mantén crop en una elección neutral para que el codificador vea toda la silueta y el atuendo. Si el sujeto es pequeño en el cuadro, prepara una imagen de referencia más ajustada en lugar de recortar en exceso en el nodo. Este nodo se basa en características de visión estilo OpenCLIP ViT-H/14 como en laion/CLIP-ViT-H-14-laion2B-s32B-b79K.

`VHS_LoadVideo` (#33)#

Importa y opcionalmente vuelve a muestrear el video de conducción para una sincronización consistente. Haz coincidir force_rate con la cadencia de salida deseada, luego mantenlo fijo durante el desarrollo visual para obtener resultados comparables en iteraciones. Usa el límite de cuadros opcional mientras pruebas para acelerar los tiempos de respuesta, luego levántalo para los renders finales.

Extras opcionales#

Para iteraciones rápidas elige una resolución amigable para retratos, luego sube cuando apruebes los finales. El flujo de trabajo está ajustado para configuraciones típicas de 9:16, con una opción más alta disponible cuando la memoria de GPU lo permite.
Escribe instrucciones que describan vestuario, edad y entorno en lenguaje sencillo para alinearse con las normas de ejemplo del mercado editorial occidental, por ejemplo, "una persona de mediana edad con un suéter azul en una cocina luminosa".
Si el atuendo del sujeto debe ser exacto, disminuye las instrucciones artísticas y aumenta la dependencia de la máscara para que el sistema priorice las prendas y el color sobre el ambiente de fondo.
Usa Reemplazo de Personaje cuando quieras un intercambio estricto de la persona en pantalla. Déjalo apagado cuando desees que el modelo armonice suavemente al personaje con la escena.
Evita oclusiones pesadas o cortes rápidos en el video de conducción. El movimiento moderado de la cámara y el movimiento limpio y frontal producen la transferencia de identidad más estable.
Al agregar orientación de reiluminación, comienza de manera conservadora para que los tonos de piel y los materiales se mantengan naturales mientras aún coinciden con la dirección de la luz de la escena.

Agradecimientos#

Este flujo de trabajo implementa y se basa en los siguientes trabajos y recursos. Agradecemos a zai-org y teal024 por SCAIL/SCAIL-2, Comfy-Org por los archivos de modelo SCAIL-2 y el punto de control Wan 2.1 14B FP8, y a los equipos de RunningHub y RunComfy por las referencias de flujo de trabajo y el flujo de trabajo de guardado en la nube por sus contribuciones y mantenimiento. Para detalles autorizados, consulte la documentación original y los repositorios enlazados a continuación.

Recursos#

RunningHub/Referencia de Flujo de Trabajo
- Documentos / Notas de Lanzamiento: Referencia de flujo de trabajo de RunningHub
Proyecto zai-org/SCAIL-2
- GitHub: zai-org/SCAIL
Página del Proyecto teal024/SCAIL
- Documentos / Notas de Lanzamiento: Página del proyecto SCAIL
zai-org/SCAIL-2
- Hugging Face: zai-org/SCAIL-2
Comfy-Org/SCAIL-2
- Hugging Face: Comfy-Org/SCAIL-2
Comfy-Org/SCAIL-2 Wan 2.1 14B FP8 checkpoint
- Hugging Face: wan2.1_14B_SCAIL_2_fp8_scaled.safetensors
RunComfy/Cloud Save Workflow
- Documentos / Notas de Lanzamiento: Flujo de trabajo de guardado en la nube de RunComfy

Nota: El uso de los modelos, conjuntos de datos y código referenciados está sujeto a las respectivas licencias y términos proporcionados por sus autores y mantenedores.

Want More ComfyUI Workflows?

SteadyDancer | Generador Realista de Imágenes a Video

Convierte retratos en videos de movimiento suave y realista al instante.

Wan 2.1 Fun | Control de Movimiento de Trayectoria

Diseña trayectorias de movimiento para animar fotos fijas en videos.

Wan 2.1 Video Restyle | Transformación Consistente del Estilo de Video

Transforma el estilo de tu video aplicando el primer fotograma reestilizado usando el flujo de trabajo de reestilización de video Wan 2.1.

Wan 2.1 Control LoRA | Profundidad y Mosaico

Avanza la generación de video Wan 2.1 con LoRAs de profundidad y mosaico ligeros para mejorar la estructura y el detalle.

Wan 2.1 LoRA

Mejora la generación de video Wan 2.1 con modelos LoRA para un estilo y personalización mejorados.

OmniGen2 | Texto a Imagen & Edición

Modelo unificado potente para generación y edición de imágenes

MimicMotion | Generación de Videos de Movimiento Humano

Genere videos de movimiento humano de alta calidad con MimicMotion, usando una imagen de referencia y una secuencia de movimiento.

Flujo de trabajo de TripoSplat 3D Gaussian Splats | Imagen a 3D

Convierte una imagen en 3D Gaussian Splats con TripoSplat.

Soporte

Recursos

Legal

RunComfy

RunComfy es la principal ComfyUI plataforma, ofreciendo ComfyUI en línea entorno y servicios, junto con flujos de trabajo de ComfyUI con impresionantes imágenes. RunComfy también ofrece AI Models, permitiendo a los artistas aprovechar las últimas herramientas de AI para crear arte increíble.

SCAIL-2 Transferencia de Movimiento | Creador de Video Largo