Transferência de movimento de personagem SCAIL-2: fluxo de trabalho de imagem de referência para vídeo longo#
Este pipeline ComfyUI transforma uma única imagem de referência em uma performance de personagem longa e fiel à identidade ao emprestar movimento de um vídeo condutor. Construído no caminho SCAIL-2 Wan 2.1 14B com condicionamento CLIP Vision, mascaramento de pessoa baseado em SAM e aceleração LightX2V, é otimizado para estabilidade em sequências longas e fácil inspeção lado a lado. É um fluxo de trabalho prático de transferência de movimento de personagem SCAIL-2 de imagem de referência para vídeo longo para criadores que precisam de consistência de identidade, guarda-roupa e estilo em centenas de quadros.
Use-o para gerar testes de movimento estilo catálogo, demonstrações de imagem de referência para vídeo e vídeos de exemplo de mercado editorial Ocidental. O fluxo de trabalho suporta orientação de relighting opcional para que o sujeito possa ser harmonizado com a cena condutora, mantendo detalhes faciais e de vestuário alinhados com sua imagem de referência.
Modelos chave no fluxo de trabalho de imagem de referência para vídeo longo de transferência de movimento de personagem SCAIL-2 em ComfyUI#
- SCAIL-2 no Wan 2.1 14B. Difusão de vídeo central ciente de identidade usada para transferência de movimento. O fluxo de trabalho carrega os pesos 14B SCAIL-2 embalados para ComfyUI e os emparelha com um VAE Wan para reconstrução. Veja a coleção de modelos em Comfy-Org/SCAIL-2 e a visão geral do método em zai-org/SCAIL.
- OpenCLIP ViT-H/14 para CLIP Vision. Extrai embeddings robustos de identidade e aparência da imagem de referência para condicionar a geração, melhorando a fidelidade do personagem entre quadros. Família de modelo de referência: laion/CLIP-ViT-H-14-laion2B-s32B-b79K.
- Família Segment Anything (SAM). Fornece máscaras de pessoa e trilhas por quadro que localizam o sujeito tanto no vídeo condutor quanto na imagem de referência, permitindo condicionamento direcionado. Referência do projeto: facebookresearch/segment-anything.
- LightX2V LoRA e WanAnimate Relight LoRA. Adaptadores opcionais que o fluxo de trabalho carrega para acelerar a inferência de quadro a quadro e oferecer orientação de relighting para que o personagem transferido corresponda à iluminação do clipe condutor.
Como usar o fluxo de trabalho de imagem de referência para vídeo longo de transferência de movimento de personagem SCAIL-2 em ComfyUI#
Em um nível alto, você fornece uma imagem de referência e um vídeo condutor. O grupo de Segmentação encontra e mascara a pessoa em ambas as fontes, CLIP Vision codifica a identidade de referência, um Primeiro Passo gera um segmento inicial, e um loop de Multi-Pass rola essa lógica de segmentação ao longo da linha do tempo completa para entregar um vídeo longo e coerente. Painéis de visualização lado a lado facilitam a inspeção de alinhamento de identidade e pose.
Modelos#
Este grupo inicializa os modelos base e adaptadores opcionais. O UNet carrega o checkpoint SCAIL-2 Wan 2.1 14B, e o VAE lida com a decodificação latente para quadros de vídeo. O fluxo de trabalho também carrega CLIP Vision para embeddings de identidade e dois adaptadores LoRA: LightX2V para velocidade e WanAnimate Relight para orientação de iluminação. Os prompts de texto são codificados pela pilha de texto Wan para ajustar cena e tom, o que é conveniente ao criar um exemplo de mercado editorial Ocidental.
Parâmetros#
Use o grupo Parâmetros para definir controles em todo o projeto. A resolução é exposta para que você possa escolher uma base rápida ou uma configuração mais nítida que se adapte ao seu orçamento de GPU. A taxa de quadros governa como o vídeo condutor é amostrado e como a saída é codificada para reprodução. O comprimento do segmento define quantos quadros cada pedaço de inferência contém, o que mantém a memória previsível em linhas do tempo longas. Um limite final de quadros está disponível para limitar o processamento durante o desenvolvimento de look antes de rodar o clipe completo.
Segmentação#
O grupo de Segmentação prepara orientação limpa e direcionada para transferência de movimento. VHS_LoadVideo (#33) importa o vídeo condutor, e os quadros são redimensionados para sua resolução escolhida para que correspondam ao caminho SCAIL-2. Dois rastreadores, SAM3_VideoTrack (#85) para o vídeo de pose e SAM3_VideoTrack (#91) para a referência, executam detecção de pessoa guiada por condicionamento de texto simples “person” para aumentar o recall. SCAIL2ColoredMask (#104) mescla as trilhas em duas máscaras consistentes, uma para o vídeo de pose e outra para a imagem de referência, que os nós de geração consomem para manter as edições focadas no sujeito.
Primeiro Passo#
O Primeiro Passo inicia a sequência e estabelece o bloqueio de identidade. CLIPVisionEncode (#76) extrai embeddings da imagem de referência, então WanSCAILToVideo (#114) combina esses embeddings com o vídeo de pose e as duas máscaras para produzir uma sequência latente para o primeiro segmento. Uma pilha de amostragem simples SamplerCustom (#19) com BasicScheduler (#18) renderiza este latente em imagens, decodificado por VAEDecode (#6). Este passo também expõe um deslocamento de quadro que o estágio Multi-Pass usa para alinhar pedaços subsequentes.
Multi-Pass#
O grupo Multi-Pass escala a execução para vídeos longos sem perder consistência. Um par de loops for, easy forLoopStart (#233) e easy forLoopEnd (#234), itera sobre toda a linha do tempo em segmentos de tamanho fixo enquanto passa os quadros decodificados adiante como contexto temporal. WanSCAILToVideo (#115) consome esse contexto via sua entrada previous_frames, melhorando a continuidade de rosto, cabelo e guarda-roupa através dos limites dos segmentos. A pilha de amostragem SamplerCustom (#63) é dirigida pelo seu amostrador escolhido e cronograma sigma para que você possa equilibrar velocidade e adesão, e VAEDecode (#66) retorna cada pedaço como imagens. O fluxo de trabalho então costura as faixas juntas e as prepara para exportação.
Máscara#
O grupo de Máscara roteia as máscaras de pessoa calculadas na Segmentação para que tanto os nós de Primeiro Passo quanto Multi-Pass recebam as regiões corretas do sujeito. Get_pose_video_mask (#122) e Get_reference_image_mask (#120) garantem que a transferência de estilo e preservação de identidade sejam aplicadas precisamente onde necessário, reduzindo a deriva do fundo e protegendo detalhes da cena fora do sujeito.
Habilitar Substituição de Personagem#
Este grupo permite alternar entre transferência de identidade que respeita o fundo original e substituição completa do primeiro plano. easy imageRemBg (#204) remove o fundo da imagem de referência, e ImpactConditionalBranch (#270) alterna se o primeiro plano limpo é usado a jusante. Habilite-o quando quiser uma troca estrita de personagem, o que é útil para testes estilo catálogo ou um exemplo de mercado editorial Ocidental onde um sujeito deve corresponder a um visual padronizado.
Pré-visualização e exportação#
O fluxo de trabalho oferece visualização lado a lado e renderizações finais. ImageConcatMulti (#153) compõe um painel rápido mostrando os quadros de pose do condutor e a imagem de referência para verificações de sanidade. Outro ImageConcatMulti (#72) pode exibir a saída do modelo ao lado das entradas para QA quadro a quadro. Os vídeos finais são escritos por VHS_VideoCombine (#71) e VHS_VideoCombine (#236), que podem incluir áudio da fonte se desejado para que as revisões permaneçam fiéis ao tempo.
Nós chave no fluxo de trabalho de imagem de referência para vídeo longo de transferência de movimento de personagem SCAIL-2 em ComfyUI#
WanSCAILToVideo (#114)#
Gera o segmento latente inicial fundindo quadros de pose, máscaras de sujeito e embeddings de identidade CLIP Vision da imagem de referência. Ajuste pose_strength para equilibrar entre copiar movimento exato e permitir adaptação sutil de estilo. Use length para corresponder ao tamanho do seu segmento para que o amostrador processe um pedaço previsível a cada passagem. Se você estiver substituindo estritamente a pessoa na tela, defina replacement_mode para favorecer identidade sobre estilo de fundo. Suportado por SCAIL-2 no Wan 2.1 14B conforme embalado em Comfy-Org/SCAIL-2 com contexto do método de zai-org/SCAIL.
WanSCAILToVideo (#115)#
Executa durante o loop para cobrir o restante da linha do tempo com estabilidade temporal aprimorada. Forneça previous_frames do segmento anterior para ajudar o modelo a manter detalhes de roupa e identidade facial estáveis através dos limites. video_frame_offset e previous_frame_count mantêm segmentos em sincronia com o clipe condutor. Quando a orientação de relighting é habilitada via LoRA, empurre a correspondência de estilo um pouco mais forte nesta passagem para harmonizar a iluminação global.
SAM3_VideoTrack (#85, #91)#
Detecta e rastreia a pessoa tanto no vídeo de pose quanto na imagem de referência. O condicionamento de texto “person” melhora a robustez quando múltiplos objetos estão presentes. Se o rastreador se desviar, aumente a confiança de detecção ou limite max_objects para que o mesmo sujeito seja selecionado ao longo de todo o tempo. O conceito de rastreamento segue a família Segment Anything, veja facebookresearch/segment-anything para mais informações.
CLIPVisionEncode (#76)#
Produz o embedding de identidade de referência que condiciona cada quadro. Para referências de cabeça e ombros, mantenha crop em uma escolha neutra para que o codificador veja toda a silhueta e traje. Se o sujeito for pequeno no quadro, prepare uma imagem de referência mais apertada em vez de cortar excessivamente no nó. Este nó depende de recursos de visão estilo OpenCLIP ViT-H/14 como em laion/CLIP-ViT-H-14-laion2B-s32B-b79K.
VHS_LoadVideo (#33)#
Importa e opcionalmente reamostra o vídeo condutor para tempo consistente. Combine force_rate com a cadência de saída desejada, depois mantenha-a fixa durante o desenvolvimento de look para obter resultados comparáveis entre as iterações. Use o limite de quadros opcional durante os testes para acelerar as respostas, depois remova-o para renderizações finais.
Extras opcionais#
- Para iterações rápidas, escolha uma resolução amigável para retratos, depois suba ao aprovar os finais. O fluxo de trabalho é ajustado para configurações típicas de 9:16, com uma opção mais alta disponível quando a memória da GPU permite.
- Escreva prompts que descrevam guarda-roupa, idade e configuração em linguagem simples para alinhar com normas de exemplo de mercado editorial Ocidental, por exemplo, “uma pessoa de meia-idade em um suéter azul em uma cozinha iluminada.”
- Se o traje do sujeito deve ser exato, abaixe os prompts artísticos e aumente a dependência de máscara para que o sistema priorize roupas e cor sobre o humor de fundo.
- Use Substituição de Personagem quando quiser uma troca estrita da pessoa na tela. Deixe-a desativada quando quiser que o modelo harmonize suavemente o personagem com a cena.
- Evite oclusões pesadas ou cortes rápidos no vídeo condutor. Movimento de câmera moderado e movimento limpo e frontal produzem a transferência de identidade mais estável.
- Ao adicionar orientação de relighting, comece de forma conservadora para que tons de pele e materiais permaneçam naturais enquanto ainda correspondem à direção da luz da cena.
Agradecimentos#
Este fluxo de trabalho implementa e se baseia nos seguintes trabalhos e recursos. Agradecemos zai-org e teal024 por SCAIL/SCAIL-2, Comfy-Org pelos arquivos de modelo SCAIL-2 e o checkpoint Wan 2.1 14B FP8, e as equipes RunningHub e RunComfy por referências de fluxo de trabalho e fluxo de trabalho de salvamento em nuvem por suas contribuições e manutenção. Para detalhes autoritativos, consulte a documentação original e os repositórios vinculados abaixo.
Recursos#
- RunningHub/Workflow Reference
- Documentação / Notas de Lançamento: Referência de fluxo de trabalho RunningHub
- zai-org/SCAIL-2 Project
- GitHub: zai-org/SCAIL
- teal024/SCAIL Project Page
- Documentação / Notas de Lançamento: Página do projeto SCAIL
- zai-org/SCAIL-2
- Hugging Face: zai-org/SCAIL-2
- Comfy-Org/SCAIL-2
- Hugging Face: Comfy-Org/SCAIL-2
- Comfy-Org/SCAIL-2 Wan 2.1 14B FP8 checkpoint
- Hugging Face: wan2.1_14B_SCAIL_2_fp8_scaled.safetensors
- RunComfy/Cloud Save Workflow
- Documentação / Notas de Lançamento: Fluxo de trabalho de salvamento em nuvem RunComfy
Nota: O uso dos modelos, conjuntos de dados e código referenciados está sujeito às respectivas licenças e termos fornecidos por seus autores e mantenedores.

