Fluxo de trabalho Stable Video Infinity 2.0 ComfyUI para imagem longa e coerente para vídeo no Wan 2.2
Este fluxo de trabalho transforma uma única imagem em um vídeo longo e orientado por histórias, preservando a identidade, o fluxo de movimento e a consistência das cenas. Ele emparelha o modelo Wan 2.2 I2V A14B com o Stable Video Infinity 2.0 LoRA para estender a continuidade temporal muito além dos limites de clipes curtos. O pipeline é organizado em cinco passagens que transferem latentes de movimento de uma seção para a próxima, com mistura de sobreposição para suavizar transições e uma renderização final que costura tudo junto.
Criadores que precisam de animações estendidas, batidas narrativas ou vídeos de IA cinematográficos descobrirão que o Stable Video Infinity mantém os personagens e o estilo estáveis à medida que a cena evolui. Você obtém vídeos de passagem intermediária para revisão rápida e uma renderização final mestre, tudo produzido diretamente do gráfico do ComfyUI.
Modelos chave no fluxo de trabalho Comfyui Stable Video Infinity
- Par Wan 2.2 I2V A14B UNet (HighNoise e LowNoise), variantes quantizadas GGUF. Estes geram movimento a partir de latentes de imagem e são alternados para equilibrar exploração e refinamento de detalhes. Fonte: Comfy-Org/Wan_2.2_ComfyUI_Repackaged.
- Stable Video Infinity 2.0 LoRA para Wan 2.2 I2V A14B, fornecido nas variantes HIGH e LOW para corresponder aos dois UNets. Ele estende a coerência temporal para sequências longas. Fonte: Kijai/WanVideo_comfy – Stable-Video-Infinity v2.0.
- Codificador de texto Wan UMT5 XXL. Codifica prompts por passagem em condicionamento para o gerador de vídeo. Fonte: Comfy-Org/Wan_2.1_ComfyUI_repackaged.
- Wan 2.1 VAE. Codifica a imagem inicial para o espaço latente e decodifica quadros de volta para imagens em cada passagem. Fonte: Comfy-Org/Wan_2.2_ComfyUI_Repackaged – VAE.
- Conjunto opcional Wan 2.2 LightX2V LoRA (HighNoise e LowNoise). Esses LoRAs auxiliares complementam o Stable Video Infinity durante a amostragem. Fonte: Comfy-Org/Wan_2.2_ComfyUI_Repackaged – loras.
Como usar o fluxo de trabalho Comfyui Stable Video Infinity
O fluxo de trabalho pega uma única imagem de referência, prepara-a na resolução escolhida e, em seguida, executa cinco passagens sequenciais. Cada passagem usa o Stable Video Infinity para gerar um segmento, mistura alguns quadros de sobreposição com o segmento anterior e encaminha seu latente de movimento para a próxima passagem. Você pode visualizar cada passagem como um MP4 e também produzir uma renderização final costurada.
Grupo: Modelos
Este grupo carrega o par Wan 2.2 I2V A14B UNet, o Wan VAE e o codificador de texto UMT5 XXL. Em seguida, aplica o conjunto LightX2V LoRA e o Stable Video Infinity 2.0 LoRA a ambos os ramos HighNoise e LowNoise para que todas as passagens compartilhem as mesmas capacidades. Se você ajustar a força do LoRA, mantenha ambos os ramos HighNoise e LowNoise equilibrados para evitar desvio de estilo ou comportamento de movimento.
Grupo: Prompts
Os prompts são criados por passagem para criar batidas narrativas. Os prompts positivos vivem nos cinco nós CLIPTextEncode como CLIPTextEncode (#93, #152, #284, #297, #310). Os prompts negativos são pré-preenchidos com filtros de qualidade comuns e podem ser editados em CLIPTextEncode (#89, #157, #279, #293, #306). Mantenha descritores de sujeito consistentes em todas as passagens e varie apenas os verbos de ação ou pistas de câmera para manter a identidade enquanto evolui a cena.
Imagem de entrada e resolução
Carregue uma única imagem de referência com LoadImage (#97), depois escale-a com Resolution (LayerUtility: ImageScaleByAspectRatio V2 (#398)) para corresponder ao seu alvo de aspecto. A imagem é codificada para latentes por VAEEncode (#135), que também estabelece o latente âncora usado para manter a identidade estável durante a execução. Se você alterar a entrada ou a proporção, recodifique antes de executar as passagens.
Passagem 1 - Estabeleça a cena
WanImageToVideoSVIPro (#134) usa seu prompt da primeira passagem e o latente âncora para gerar movimento. Dois amostradores, KSamplerAdvanced (#277 para HighNoise, #278 para LowNoise), colaboram para explorar o movimento e depois refinar o detalhe. O resultado é decodificado por VAEDecode (#87) e visualizado via VHS_VideoCombine (#126) como um MP4. Use esta passagem para definir o sujeito, iluminação e estilo geral que o Stable Video Infinity levará adiante.
Passagem 2 - Continue a ação
WanImageToVideoSVIPro (#160) recebe prev_samples da Passagem 1 para que possa estender o movimento sem um salto visual. O mesmo padrão de amostragem de duas etapas é executado através de KSamplerAdvanced (#276 HighNoise, #275 LowNoise), e os quadros são decodificados por VAEDecode (#162). ImageBatchExtendWithOverlap (#168) mistura uma curta sobreposição com o final da Passagem 1 para esconder emendas, e VHS_VideoCombine (#167) escreve a pré-visualização do segmento.
Passagem 3 - Expansão de sequência intermediária
WanImageToVideoSVIPro (#290) continua a partir dos latentes da Passagem 2 e segue o mesmo refinamento de amostrador duplo com KSamplerAdvanced (#291, #287). Após a decodificação em VAEDecode (#282), ImageBatchExtendWithOverlap (#292) anexa os novos quadros à linha do tempo. Atualize o prompt para evoluir a micro ação enquanto mantém os termos do sujeito idênticos.
Passagem 4 - Construa em direção à batida
WanImageToVideoSVIPro (#305) pega o bastão da Passagem 3 e novamente usa amostradores HighNoise e depois LowNoise KSamplerAdvanced (#303, #300). VAEDecode (#295) e ImageBatchExtendWithOverlap (#304) produzem uma sequência contínua que você pode visualizar via VHS_VideoCombine (#296). Use esta passagem para adicionar movimento de câmera ou ações secundárias, mantendo os descritores estáveis para preservar a identidade.
Passagem 5 - Resolva e renderize
WanImageToVideoSVIPro (#318) termina a história e entrega os quadros a KSamplerAdvanced (#316, #313) para refinamento. Após a decodificação com VAEDecode (#308), os quadros são adicionados com ImageBatchExtendWithOverlap (#317). VHS_VideoCombine (#319) produz o MP4 final costurado; ajuste seu frame_rate e filename_prefix para atender à entrega.
Nós chave no fluxo de trabalho Comfyui Stable Video Infinity
WanImageToVideoSVIPro (#134)
Este nó converte o latente âncora e seu prompt em latentes de movimento e pode aceitar prev_samples para continuar de uma passagem anterior. Use length para definir quantos quadros uma passagem gera e motion_latent_count para controlar quanto nova energia de movimento é introduzida. Encadear passagens alimentando prev_samples é o que permite ao Stable Video Infinity construir longas sequências sem estourar.
KSamplerAdvanced (#276)
Cada passagem emparelha um amostrador HighNoise com um amostrador LowNoise para primeiro explorar e depois consolidar detalhes. O fluxo de trabalho expõe steps e um controle de divisão secundária para que você possa decidir como o orçamento de passagem é dividido entre os dois. Mantenha a divisão consistente entre as passagens para evitar cintilação nas transferências.
ImageBatchExtendWithOverlap (#168)
Este utilitário mistura um pequeno número de quadros de cauda da passagem anterior com a cabeça do novo. Ajuste overlap e mantenha o modo em uma mistura suave para esconder emendas enquanto preserva a direção do movimento. É a chave para fazer segmentos do Stable Video Infinity parecerem uma tomada contínua.
VHS_VideoCombine (#319)
Monta quadros decodificados em MP4 para ambas as pré-visualizações e a renderização final. Ajuste frame_rate, format e crf para seu alvo de entrega e tamanho de arquivo. Use valores distintos de filename_prefix para manter as pré-visualizações separadas da saída final.
LoraLoaderModelOnly (#141, #142)
Aplica as variantes Stable Video Infinity 2.0 LoRA ao par Wan 2.2 UNet. O controle strength_model permite que você ajuste finamente quão fortemente o LoRA direciona o movimento e a coerência. Mantenha os ramos HIGH e LOW alinhados para que ambos os amostradores interpretem os prompts de forma semelhante.
Extras opcionais
- Mantenha os descritores de sujeito constantes em todos os cinco prompts e varie apenas os verbos ou pistas de câmera para preservar a identidade.
- Se o movimento parecer muito tímido, aumente ligeiramente
motion_latent_countna próxima passagem em vez de reescrever os prompts drasticamente. - Se o detalhe oscilar entre as passagens, reduza a parte de HighNoise dos
stepsou diminua a força do LoRA uniformemente em ambos os ramos. - Use uma sobreposição curta para ação rápida e uma sobreposição longa para cenas lentas e sutis, equilibrando o ocultamento de emendas e o tempo de execução.
- Para um corte rápido, renderize apenas as pré-visualizações das Passagens 1 e 3 para validar a identidade e o movimento antes de se comprometer com a execução completa.
Agradecimentos
Este fluxo de trabalho implementa e se baseia nos seguintes trabalhos e recursos. Agradecemos imensamente a Kijai por Stable-Video-Infinity v2.0 (SVI 2.0) por suas contribuições e manutenção. Para detalhes autoritativos, consulte a documentação original e os repositórios vinculados abaixo.
Recursos
- Kijai/Stable-Video-Infinity v2.0 (SVI 2.0)
- Hugging Face: SVI 2.0 Source
Nota: O uso dos modelos, datasets e código referenciados está sujeito às respectivas licenças e termos fornecidos por seus autores e mantenedores.
