SCAIL 2 Transferência de Ação de Referência Multi-função: transferência de movimento multicaracter com preservação de identidade para ComfyUI#
Este fluxo de trabalho oferece SCAIL 2 Transferência de Ação de Referência Multi-função: ele pega um vídeo de condução e transfere as ações para um ou mais personagens de referência enquanto preserva a identidade visual de cada sujeito. Ele suporta transferência de movimento e substituição completa de personagem, lida com referências de identidade de múltiplas imagens e produz cenas coerentes de múltiplos papéis adequadas para narrativa, diálogo e performances de grupo.
Construído em torno da geração de vídeo Wan 2.1 com embeddings SCAIL_2, orientação CLIP Vision e máscaras de papel dirigidas por segmentação, o pipeline foca em identidade consistente, movimento natural e interações controláveis ao longo de um clipe inteiro.
Principais modelos no fluxo de trabalho ComfyUI SCAIL 2 Transferência de Ação de Referência Multi-função#
- Backbone de vídeo Wan 2.1 via ComfyUI-WanVideoWrapper. O gerador sintetiza quadros de vídeo a partir de embeddings de imagem SCAIL_2, condicionamento visual e texto de prompt enquanto lida com contextos longos e uso eficiente de memória. GitHub
- Codificador CLIP Vision. Fornece embeddings visuais robustos da imagem de referência primária ou colagem para guiar identidade e aparência durante a geração. Veja o artigo CLIP para mais informações sobre aprendizado de representação imagem-texto. arXiv
- Codificador de texto da família mT5. Codifica os prompts positivos e negativos usados para direcionar o conteúdo em direção aos sujeitos e ações desejados nos quadros. arXiv
- Segmentação estilo Segment Anything para rastreamento de objetos em vídeo. O fluxo de trabalho usa um checkpoint da família SAM para detectar e rastrear sujeitos e produzir máscaras por papel que dirigem a transferência de ação multicaracter. Informações sobre a segmentação SAM: GitHub
- Adaptadores LoRA. Adaptadores opcionais especializam o gerador para preservação de identidade e fidelidade de ação sem re-treinar o modelo completo. Informações sobre ajuste LoRA: arXiv
- Utilitários FeiHou Toolbox. Utilitários de colagem e máscara facilitam referências de identidade de múltiplas imagens e máscaras coloridas, conscientes de papel para SCAIL 2. GitHub
- Utilitários de imagem KJNodes. Redimensionamento de alta qualidade alinha entradas e máscaras às dimensões do vídeo para amostragem estável. GitHub
Como usar o fluxo de trabalho Comfyui SCAIL 2 Transferência de Ação de Referência Multi-função#
O fluxo de trabalho possui quatro estágios principais: carregar ativos e o gerador, construir referências e máscaras multicaracter, compilar embeddings SCAIL_2, e então amostrar e exportar o vídeo final. Grupos executam de cima para baixo, com pré-visualizações úteis em cada etapa.
Área de Carregamento de Modelo#
Esta área prepara o backbone Wan 2.1 e seu VAE. Use WanAnimatePlus ModelLoader (#37) para escolher o modelo base e precisão, e WanAnimatePlus VAELoader (#71) para o VAE correspondente. Se você planeja enfatizar ainda mais identidade ou movimento, adicione adaptadores com WanAnimatePlus LoraSelectMulti (#66), então aplique-os ao modelo via WanAnimatePlus SetLoRAs (#69). Configurações opcionais WanVideoTorchCompileSettings (#72) podem reduzir a latência compilando blocos de atenção.
Carregamento de Imagem Única#
Forneça uma imagem de identidade primária com LoadImage no grupo de Carregamento de Imagem Única. Esta imagem ancora a aparência do seu sujeito principal. Se preferir construir uma colagem de múltiplas identidades ou papéis, alterne no grupo Quick Toggle para rotear a partir da entrada de colagem em vez da imagem única.
Entrada de Colagem#
Use AutoRefCollage (#370) para montar até várias imagens de referência em um layout, detectando automaticamente pessoas e colocando recortes em uma tela limpa. A colagem atua como um quadro de identidade multicaracter: cada sujeito contribui com dicas de aparência para o estágio de Transferência de Ação de Referência Multi-função SCAIL 2. Um nó de pré-visualização mostra a colagem montada para que você possa verificar o enquadramento antes de prosseguir.
Referência de Múltiplas Imagens#
Aqui você também pode carregar três ou mais retratos curados com LoadImage e empacotá-los usando ImageBatchMulti (#331). ImageResizeKJv2 alinha seu tamanho para corresponder à resolução de vídeo pretendida. Este caminho é útil quando você deseja controle mais rigoroso sobre quais identidades e ângulos informam o modelo de aparência.
Carregamento de Vídeo#
VHS_LoadVideo (#297) traz o vídeo de condução e áudio. Você pode forçar uma taxa de quadros alvo para um movimento mais suave, limitar o total de quadros para limitar a duração, pular um segmento de introdução ou amostrar cada N-ésimo quadro para iteração mais rápida. Um sub-pipeline separado “Pré-visualização de Vídeo de Referência” combina e reproduz os quadros carregados para que você possa confirmar se o clipe está correto antes de rastrear.
Área de Máscara#
O fluxo de trabalho detecta e rastreia sujeitos para criar as máscaras conscientes de papel que alimentam a Transferência de Ação de Referência Multi-função SCAIL 2. Três nós SAM3_VideoTrack (#315, #316, #306) rastreiam objetos no vídeo de condução, imagens de referência e quadros de prefixo opcionais. SCAIL2ColoredMaskV2 (#354) funde essas trilhas em três saídas: uma máscara de vídeo de pose, uma máscara de imagem de referência colorida e uma máscara de prefixo para inícios rápidos. Pré-visualizações para máscaras de papel único e múltiplo ajudam a verificar se cada cor corresponde ao personagem correto antes da amostragem.
Transferência de Movimento - Processamento de Embedding#
WanAnimatePlus SCAIL_2 Embeds (#342) transforma suas entradas em embeddings de imagem SCAIL_2 usados pelo gerador. Ele combina características VAE, embeddings CLIP Vision, sua imagem de referência ou colagem, a substituição de fundo (opcional), os quadros de pose rastreados e as máscaras coloridas. Você pode executar em dois modos: transferência de movimento (use a aparência de referência com o movimento de condução) ou substituição de personagem (substitua a pessoa no vídeo de entrada com sua referência). Existem opções também para preservar o fundo de referência principal e para cortar ou azulejar quadros de prefixo para execuções longas ou de alta resolução.
Área de Amostragem#
WanVideoTextEncodeCached codifica prompts, e WanVideoContextOptions (#290) controla janelas temporais através dos quadros. WanAnimatePlus SamplerSettings (#332) coleta o modelo, embeds de imagem SCAIL_2, e embeds de texto juntamente com hiperparâmetros de amostragem e cronograma; WanAnimatePlus SamplerFromSettings (#311) realiza a geração. WanAnimatePlus Decode (#267) transforma latentes em quadros; você pode habilitar tiling VAE aqui se enfrentar limites de memória. O vídeo é finalizado via VHS_VideoCombine e exportado da Área de Pré-visualização; um combinado companheiro pode exportar um clipe apenas de máscara para depuração rápida.
Alternância Rápida e Dimensões de Vídeo#
O interruptor “true = Substituição de Personagem | false = Transferência de Movimento” (#341) muda instantaneamente como os papéis são tratados a jusante. Constantes de largura e altura alimentam todos os nós de redimensionamento e máscara para manter as formas alinhadas. Um FastGroupsBypassSwitch (#351) permite que você troque entre uma imagem única e uma entrada de colagem sem reconfiguração.
Principais nós no fluxo de trabalho Comfyui SCAIL 2 Transferência de Ação de Referência Multi-função#
SCAIL2ColoredMaskV2 (#354)#
Gera máscaras conscientes de papel fundindo trilhas de objetos do vídeo de condução, imagens de referência e quadros de prefixo opcionais. Use object_indices para escolher quais IDs rastreados se tornam papéis e o prefix_mask_mode para especificar um layout de imagem única e multi-cor quando você dirige vários personagens ao mesmo tempo. Mantenha replacement_mode consistente com a alternância global para que a semântica da máscara corresponda ao estágio de embedding.
WanAnimatePlus SCAIL_2 Embeds (#342)#
Funde VAE, CLIP Vision, referências de múltiplas imagens, quadros de pose e máscaras em embeddings SCAIL_2 para o gerador. Aumente ref_strength quando houver desvios de identidade; aumente pose_strength quando a fidelidade do movimento estiver baixa. Para cenas que devem manter um fundo de referência, habilite a preservação de fundo; ao iniciar de um único quadro de prefixo, habilite a codificação de prefixo de quadro único.
SAM3_VideoTrack (#315, #316, #306)#
Detecta e rastreia sujeitos através dos quadros para alimentar o gerador de máscaras. Se você detectar poucos personagens, reduza o detection_threshold ou permita mais max_objects; se o rastreamento for ruidoso, aumente o detect_interval para reduzir a oscilação de re-deteção. Sempre revise a pré-visualização da máscara colorida para garantir que cada papel permaneça estável ao longo do tempo.
VHS_LoadVideo (#297)#
Controla o clipe de condução. force_rate define o FPS de trabalho, frame_load_cap limita a duração, skip_first_frames corta introduções, e select_every_nth permite sub-amostrar quadros para testes mais rápidos. Esses controles afetam diretamente as janelas de contexto e a memória, então ajuste-os antes da amostragem.
WanAnimatePlus SamplerSettings (#332)#
Contém os principais ajustes de geração. steps, scheduler, e cfg orientam detalhe, suavidade, e aderência aos prompts; denoise_strength governa o quanto a orientação SCAIL_2 pode remodelar quadros. Use a entrada seed para reprodutibilidade ao refinar cenas multicaracter.
WanAnimatePlus BlockSwap (#67)#
Salvador de memória opcional que troca blocos de computação durante a amostragem. Em orçamentos apertados de VRAM ou intervalos longos de quadros, aumente a troca para evitar erros de falta de memória; em GPUs de alta VRAM, reduza ou desabilite para velocidade.
WanAnimatePlus Decode (#267)#
Decodifica latentes para quadros RGB. Se sua resolução ou comprimento de clipe for alto e decodificar causar OOMs, habilite a decodificação VAE em tiles e defina tamanhos e passos de tile apropriados para que os tiles se sobreponham de forma limpa.
Extras opcionais#
- Para clipes multicaracter, dê a cada papel pelo menos um retrato limpo e de frente e mantenha a iluminação consistente em toda a colagem.
- Comece com o modo de transferência de movimento para validar máscaras e qualidade de movimento, depois mude para substituição de personagem se precisar trocar completamente o performer.
- Use a pré-visualização de vídeo apenas de máscara para confirmar atribuições de papel e estabilidade de cor antes de uma renderização longa.
- Mantenha todas as entradas alinhadas à mesma largura e altura; use os nós de redimensionamento fornecidos em vez de ferramentas externas para evitar discrepâncias sutis de forma.
- Se os resultados parecerem superestilizados ou fora de identidade, diminua a força do prompt e aumente a ênfase de referência no estágio de embedding; ajuste a mistura LoRA se você tiver habilitado adaptadores.
- Clipes longos se beneficiam de janelas de contexto maiores em
WanVideoContextOptions; equilibre isso com a memória habilitando tiling VAE e, se necessário, troca moderada de blocos.
Este fluxo de trabalho SCAIL 2 Transferência de Ação de Referência Multi-função é projetado para tornar a transferência de movimento multicaracter repetível e previsível: prepare referências claras, verifique máscaras, então amostre com configurações estáveis para movimento natural e fiel à identidade entre personagens.
Agradecimentos#
Este fluxo de trabalho implementa e constrói sobre os seguintes trabalhos e recursos. Agradecemos a SCAIL 2 por SCAIL 2 Multi-role Reference Action Transfer Workflow Source por suas contribuições e manutenção. Para detalhes autoritativos, consulte a documentação original e os repositórios vinculados abaixo.
Recursos#
- SCAIL 2/SCAIL 2 Multi-role Reference Action Transfer Workflow Source
- Docs / Release Notes: SCAIL 2 Multi-role Reference Action Transfer Workflow Source
Nota: O uso dos modelos, conjuntos de dados e código referenciados está sujeito às respectivas licenças e termos fornecidos por seus autores e mantenedores.

