Animação de personagens guiada por pose SCAIL no ComfyUI
Este fluxo de trabalho traz o SCAIL para o ComfyUI para animação de personagens guiada por pose e baseada em referência. Combinando uma única imagem de referência com poses humanas extraídas, o SCAIL mantém a identidade do sujeito, a estrutura corporal e o movimento coerente entre os quadros enquanto você controla o estilo com prompts. Ele suporta um vídeo de entrada para transferência de movimento ou imagens mais poses renderizadas para coreografia, depois gera vídeos com múltiplos quadros com passagem opcional de áudio.
Use este fluxo de trabalho SCAIL para transferência de movimento de dança e ação, animação de personagens estilizada e sequências consistentes de múltiplas tomadas onde a estabilidade temporal e poses precisas são importantes. Internamente, ele roda no WanVideo para geração de vídeo por difusão-transformador, aumenta a identidade via CLIP vision e conduz a estrutura com sinais de pose NLF e ViTPose/DWPose, todos configurados para amostragem eficiente de longas sequências.
Nota: Devido a limitações de compatibilidade, a máquina 2XL não pode ser usada com o fluxo de trabalho atual do ComfyUI.
Modelos principais no fluxo de trabalho SCAIL do Comfyui
- SCAIL: animação de personagens em nível de estúdio via injeção de pose de contexto completo e uma representação de pose consistente em 3D; o núcleo da preservação de identidade e fidelidade de pose deste fluxo de trabalho. GitHub, arXiv
- Wan 2.x Image-to-Video backbone: grandes modelos de difusão de vídeo usados aqui como base de amostragem para geração condicionada pelo SCAIL; suporta tarefas de alta qualidade I2V e animação. Exemplos: Wan‑AI/Wan2.1‑I2V‑14B‑480P, Wan‑AI/Wan2.2‑Animate‑14B
- UMT5-XXL text encoder: variante T5 multilíngue usada por pipelines Wan para transformar prompts em embeddings de condicionamento. Hugging Face
- CLIP ViT-H/14 vision encoder: extrai características robustas de imagem de referência para ancorar a identidade durante a síntese de vídeo. GitHub
- ViTPose (Whole-Body): estimador de pose humana 2D de alta qualidade que fornece pontos-chave densos para corpo, mãos e rosto usados pelas utilidades de alinhamento e desenho do SCAIL. GitHub
- DWPose: formato de ponto-chave de corpo inteiro e modelos utilizados para detalhes opcionais de rosto/mãos e alinhamento de pose. GitHub
- NLF (Neural Localizer Fields): prevê dicas contínuas de pose/forma humana que rendem em imagens de pose SCAIL conscientes de 3D usadas para controle estrutural forte. GitHub
- YOLOv10: detector rápido usado na cadeia de pré-processamento de pose para localização de pessoas. GitHub
Como usar o fluxo de trabalho SCAIL do Comfyui
Fluxo geral: carregue uma imagem de referência e um vídeo de condução opcional; extraia e renderize poses; codifique a referência com CLIP vision; adicione embeddings de referência SCAIL e pose SCAIL; monte o condicionamento de texto; amostre quadros com WanVideo; decodifique e exporte o vídeo. O gráfico inclui variáveis públicas "Set_" para que largura, altura, CFG e contagem de quadros sejam propagados automaticamente.
-
Entradas e dimensionamento
- Carregue uma imagem de personagem de referência ou um vídeo para transferência de movimento. O fluxo de trabalho redimensiona a referência para o tamanho de geração e garante que as dimensões alvo sejam divisíveis por 32. Se você carregar um vídeo, seu áudio estará disponível para passagem para a exportação final.
- Defina uma vez largura, altura e contagem de quadros; os valores alimentam o sampler, decodificador e exportador por meio de getter e setter compartilhados. Mantenha a proporção consistente entre referência e saída para minimizar artefatos de esticamento.
-
Extração de pose (grupo: Extração de pose)
- Os quadros de vídeo de entrada ou imagens são redimensionados para análise e alimentados a um preditor de pose NLF e a um detector ViTPose. A saída ViTPose é convertida em formato DWPose para detalhes opcionais de rosto/mãos e para alinhar a pose global ao sujeito de referência.
- Imagens de pose SCAIL renderizadas são produzidas a metade da resolução de geração internamente para eficiência, depois compostas para o tamanho alvo, preservando dicas de profundidade e oclusões. O desenho de rosto/mãos pode ser alternado enquanto ainda usa alinhamento; desconecte DWPose se quiser o alinhamento de pose desativado.
-
Codificação de identidade de referência
- A imagem de referência é codificada com CLIP ViT-H/14 e convertida em embeddings de imagem WanVideo. Esses embeddings capturam cor, textura e estrutura local para que o SCAIL possa manter o personagem consistente em movimentos desafiadores.
- Se a identidade se desviar em tomadas longas ou estilizadas, mantenha uma referência limpa e de frente e evite cortes pesados; isso fortalece o sinal CLIP usado a jusante.
-
Condicionamento de pose SCAIL
- As renderizações de pose SCAIL são injetadas como embeddings de imagem adicionais. Elas atuam como uma orientação estrutural forte que reforça a colocação dos membros, a ordenação de profundidade e a estabilidade da silhueta entre os quadros.
- Você pode trocar a fonte de condução neste estágio: use poses extraídas de um vídeo para transferência de movimento ou alimente imagens de pose SCAIL pré-renderizadas para coreografar sequências sem um guia.
-
Condicionamento de prompt de texto
- Os prompts são codificados em embeddings de texto que influenciam estilo, vestuário, iluminação e ambiente. Use descritores concisos que complementem a imagem de referência; texto negativo pode reduzir saturação excessiva, artefatos ou desordem.
- Os prompts são opcionais quando você deseja que a saída siga de perto a aparência da referência sob o controle do SCAIL.
-
Amostragem e agendamento
- O sampler WanVideo executa o difusor-transformador com modelo, agendador, embeddings de imagem (referência + pose SCAIL), embeddings de texto e orientação CFG. Um nó de opções de contexto pode janelar longas sequências para geração amigável à memória enquanto preserva a continuidade temporal.
- Se notar cintilação ou bordas suaves, considere um agendador mais lento ou CFG ligeiramente mais forte; se o movimento parecer excessivamente restrito, reduza a orientação geral para que as dicas de estrutura e aparência do SCAIL se equilibrem naturalmente.
-
Decodificar e exportar
- Os latentes são decodificados em quadros usando o Wan VAE, e o vídeo é gravado com sua taxa de quadros e prefixo de nome de arquivo escolhidos. O fluxo de trabalho pode concatenar visuais para fatias A/B e passar áudio quando conectado.
- Inspecione a saída; se braços ou pernas cortarem durante giros rápidos, revise a qualidade da extração de pose ou entradas de alinhamento, depois refile com as mesmas sementes para iteração controlada.
Nós principais no fluxo de trabalho SCAIL do Comfyui
-
WanVideoAddSCAILReferenceEmbeds (#350)
- Adiciona condicionamento de identidade e aparência da imagem de referência ao fluxo de embeddings de imagem. Aumente sua influência quando o rosto ou vestuário do personagem se desviar; diminua se o modelo se recusar a se adaptar a grandes rotações de corpo ou iluminação dramática.
-
WanVideoAddSCAILPoseEmbeds (#324)
- Injeta imagens de pose SCAIL renderizadas como orientação estrutural. Aumente sua influência para colocação de membros mais rigorosa e estabilidade da silhueta; diminua se o movimento parecer muito rígido ou se você quiser mais liberdade para que prompts de estilo dobrem ligeiramente a pose.
-
RenderNLFPoses (#362)
- Renderiza previsões contínuas de NLF em imagens de pose no estilo SCAIL, opcionalmente sobrepondo rosto/mãos DWPose e realizando alinhamento de pose para referência. Mantenha a renderização de pose interna a metade da resolução alvo para corresponder ao design do SCAIL e evitar aliasing; desconecte DWPose para remover o alinhamento.
-
WanVideoSamplerv2 (#348)
- Conduz a amostragem de difusão principal com modelo, embeddings de imagem/texto, agendador, argumentos extras e
cfg. Se você vir oscilação temporal, use um agendador mais estável ou mais passos; se os detalhes ultrapassarem a referência, abaixe cfg para que as dicas de identidade do SCAIL liderem.
-
WanVideoSchedulerv2 (#349)
- Controla o comportamento do agendamento de desnoising. Escolha agendamentos que equilibrem detalhe e estabilidade; agendamentos mais lentos geralmente melhoram a consistência temporal para movimentos amplos e longas sequências.
-
WanVideoClipVisionEncode (#327)
- Codifica a imagem de referência com ViT-H/14 e produz embeddings de imagem CLIP para identidade. Use referências de alta qualidade e bem iluminadas; vistas frontais ou 3/4 tendem a ancorar melhor rostos e cabelos.
- As dimensões devem ser divisíveis por 32. Mantenha as proporções de referência e saída alinhadas para evitar distorção.
- O SCAIL espera renderizações de pose a metade da resolução de geração; este fluxo de trabalho o calcula automaticamente, de modo que você não precisa gerenciá-lo manualmente.
- Para mãos e expressões precisas, mantenha o DWPose conectado para habilitar dicas de rosto/mãos; para desabilitar apenas o alinhamento, desconecte o link DWPose mas mantenha as imagens de pose renderizadas.
- Longas sequências: use o nó de opções de contexto para janelar a geração para eficiência de memória enquanto mantém sobreposição para transições suaves.
- Se você usar pesos de pré-visualização do SCAIL reembalados para o ComfyUI, pegue-os das distribuições da comunidade quando necessário. Exemplo de pacote de pré-visualização: Kijai/WanVideo_comfy SCAIL e Kijai/WanVideo_comfy_fp8_scaled SCAIL.
Agradecimentos
Este fluxo de trabalho implementa e baseia-se nos seguintes trabalhos e recursos. Agradecemos profundamente a Ai Verse Z.ai (zai-org) pelo SCAIL (implementação oficial) e teal024 pela página do projeto SCAIL por suas contribuições e manutenção. Para detalhes autoritativos, por favor, consulte a documentação original e os repositórios listados abaixo.
Recursos
- zai-org/SCAIL
- teal024/SCAIL Project Page
Nota: O uso dos modelos, conjuntos de dados e código referenciados está sujeito às respectivas licenças e termos fornecidos por seus autores e mantenedores.