Crie Cenas Coerentes (Qwen Image Edit & Wan 2.2)
Crie Cenas Coerentes (Qwen Image Edit & Wan 2.2) é um fluxo de trabalho ComfyUI pronto para produção para construir vídeos com múltiplas tomadas orientadas por histórias, onde personagens, iluminação e composição permanecem consistentes de uma tomada para outra. Ele combina Qwen Image Edit para imagens estáticas guiadas por referência com Wan 2.2 de imagem para vídeo para movimento cinematográfico, permitindo que você costure cenas, suavize o movimento com interpolação de quadros e adicione áudio foley gerado para finalizar. Ideal para arte narrativa, animação, previz e rolos de conceito, o fluxo de trabalho ajuda você a passar de um único quadro chave estabelecido para uma sequência coesa com mínimo de retoque manual.
O pipeline é organizado em três partes: Parte 1 cria e edita quadros chave coerentes, Parte 2 anima cada tomada com Wan 2.2 e as junta em um único corte, e Parte 3 gera áudio foley consciente da cena. Onde quer que você veja Crie Cenas Coerentes (Qwen Image Edit & Wan 2.2) neste README, refere-se ao processo completo, de ponta a ponta.
Modelos chave no fluxo de trabalho Comfyui Crie Cenas Coerentes (Qwen Image Edit & Wan 2.2)
- Wan 2.2 Image-to-Video 14B (variantes de alto ruído e baixo ruído). Gerador de vídeo principal usado para animar suas imagens de cena enquanto preserva o layout espacial e o estilo. Empacotado para ComfyUI com codificador de texto e ativos VAE. Referência: Comfy-Org/Wan_2.2_ComfyUI_Repackaged.
- Qwen-Image-Edit 2509 + Qwen 2.5 VL codificador de texto + Qwen Image VAE. Edição de imagem semântica e consciente de referência usada para criar quadros chave da próxima cena que combinam com sua narrativa enquanto mantém a continuidade de personagem e cena. Referências: Comfy-Org/Qwen-Image-Edit_ComfyUI e Comfy-Org/Qwen-Image_ComfyUI.
- FLUX.1 dev (texto para imagem). Modelo base opcional para o primeiro quadro chave estabelecido antes da edição. Referência: Comfy-Org/FLUX.1-Krea-dev_ComfyUI.
- RIFE Interpolação de Quadros de Vídeo. Usado para aumentar a taxa de quadros e suavizar o movimento no corte combinado. Referência: hzwer/Practical-RIFE.
- HunyuanVideo-Foley. Um modelo de áudio generativo que cria foley sincronizado a partir de imagens ou vídeo mais um texto curto; usado para adicionar som diegético por cena ou para o corte final. Referência: phazei/HunyuanVideo-Foley.
- Auxiliares opcionais. MiniCPM-V 4.5 pode criar automaticamente prompts de áudio a partir do seu corte para acelerar a ideação de foley: OpenBMB/MiniCPM-V.
Como usar o fluxo de trabalho Comfyui Crie Cenas Coerentes (Qwen Image Edit & Wan 2.2)
Lógica geral
- Parte 1 cria um quadro chave inicial e depois usa o Qwen Image Edit para gerar imagens estáticas da "próxima cena" que permanecem alinhadas estilisticamente.
- Parte 2 anima cada imagem de cena em um curto clipe com Wan 2.2, depois concatena todos os clipes em um único corte e opcionalmente interpola quadros para movimento mais suave.
- Parte 3 opcionalmente gera áudio foley por cena ou para o corte combinado e o mistura no vídeo final.
Carregador de modelos
- A área do modelo carrega as variantes de alto e baixo ruído de Wan 2.2 e seus VAE/CLIP uma vez, com uma opção para acelerar via torch compile. Você também verá uma rota de baixo VRAM usando UNETs GGUF quantizados e troca de blocos para que você possa executar o mesmo processo Crie Cenas Coerentes (Qwen Image Edit & Wan 2.2) em GPUs menores.
- LoRAs para Wan 2.2 e o Qwen Image Edit Lightning LoRA são pré-conectados para influenciar o estilo de movimento e a velocidade de edição sem complicar o gráfico.
- Se você mudar os modelos, mantenha as famílias de codificador de texto/UNET/VAE consistentes para evitar incompatibilidades de espaço latente.
Configurações
- Controles globais definem a largura, altura, semente e comprimento da cena de trabalho para que cada cena herde geometria de tela e cadência temporal idênticas. Este é um dos principais elementos para a consistência de Crie Cenas Coerentes (Qwen Image Edit & Wan 2.2).
- Um prompt negativo abrangente é fornecido e roteado globalmente; você pode substituí-lo a qualquer momento para ajustar sua direção artística.
Parte 1 — Texto para Imagem quadro chave inicial
- Comece descrevendo sua tomada de abertura. O prompt alimenta um amostrador de texto para imagem base que gera um quadro "Start_" para o projeto.
- Essa imagem é armazenada em cache e se torna a referência para a próxima cena na trilha Qwen. O fluxo de trabalho escala a imagem para uma resolução amigável à edição e a codifica em latentes.
Parte 1 — Qwen Image Edit quadros chave da próxima cena
- Para cada tomada subsequente, escreva uma breve instrução de "Próxima Cena". O editor condiciona na imagem da cena anterior para que a identidade do personagem, guarda-roupa, iluminação e paleta permaneçam alinhados.
- O resultado editado é decodificado, pré-visualizado e salvo como "Scene_1_…", "Scene_2_…", etc. Estas são suas imagens estáticas coerentes. Elas também são armazenadas em slots de imagem compartilhados para que prompts posteriores possam referenciá-las.
Entradas de cena (1–6)
- Se você já tem quadros de conceito, insira-os nos seis nós "LoadImage". Caso contrário, use as imagens estáticas geradas pelo Qwen da Parte 1 como suas imagens iniciais.
- Para cada cena, adicione um prompt de texto curto através do nó de prompt rotulado. Pense neles como notas de cinematografia que orientam o estilo de movimento em vez de redescrever todo o ambiente.
Amostragem de cena (1–6)
- Cada cena executa uma passagem de imagem para vídeo Wan 2.2 para transformar a imagem inicial em um clipe latente. Um caminho de amostragem de três estágios então refina a sequência latente usando um caminho de alto ruído, um caminho de baixo ruído e um caminho sem LoRA organizado para estabilidade.
- Os quadros decodificados alimentam um gravador de vídeo por cena que salva um MP4 para revisão rápida. Nós de purga de memória após cada renderização liberam VRAM antes que a próxima cena comece.
- Como todas as cenas compartilham a mesma semente, tamanho e comprimento, a cadência de movimento e a composição permanecem alinhadas, ajudando Crie Cenas Coerentes (Qwen Image Edit & Wan 2.2) a parecer uma peça contínua.
Combine cenas
- As seis sequências de imagens renderizadas são concatenadas em ordem, produzindo um corte "Combinado". Você pode reordenar ou omitir cenas reconectando o nó de lote que as coleta.
Interpolação de quadros opcional
- Uma passagem de interpolação aumenta a taxa de quadros aparente usando RIFE. Isso cria uma exportação "Interpolada" para movimento mais suave de câmera e sujeito enquanto mantém o mesmo visual.
Parte 3 — Vídeo para Áudio foley
- Carregue o corte combinado ou qualquer cena individual na seção de áudio. Um auxiliar embutido de visão-linguagem pode criar automaticamente uma descrição textual da cena; edite-a ao seu gosto para refletir ritmo, humor e ações principais.
- O modelo foley sintetiza áudio sincronizado e um nó de mistura o combina com seus quadros em um MP4 habilitado para áudio. Para melhores resultados, gere áudio por cena e depois costure.
Nós chave no fluxo de trabalho Comfyui Crie Cenas Coerentes (Qwen Image Edit & Wan 2.2)
-
WanImageToVideo (#111)
Converte um único quadro de referência em um vídeo latente coerente enquanto respeita texto positivo e negativo. Use-o para definir a duração e o tamanho da tela de cada tomada e fornecer a imagem inicial que você deseja animar. Respaldado pelos modelos Wan 2.2 I2V 14B empacotados aqui: Comfy-Org/Wan_2.2_ComfyUI_Repackaged.
-
TextEncodeQwenImageEditPlus (#360)
Codifica instruções de "Próxima Cena" junto com uma imagem de referência para que as edições sigam a história mas correspondam à identidade e iluminação. Mantenha substantivos e tags estilísticas consistentes entre as cenas para reforçar a continuidade. Referências de modelo: Comfy-Org/Qwen-Image-Edit_ComfyUI e Comfy-Org/Qwen-Image_ComfyUI.
-
KSamplerAdvanced (#159)
O principal denoiser para cada cena animada. Este fluxo de trabalho encadeia três amostradores que visam diferentes regimes de ruído e misturas LoRA para melhorar a estabilidade temporal. Se você alterar etapas ou sementes, faça-o uniformemente nos amostradores encadeados para manter o comportamento de movimento previsível.
-
ImageBatchMulti (#308)
Reúne lotes de quadros de cena em uma longa linha do tempo. Use-o para reordenar, descartar ou trocar cenas antes da exportação sem tocar nos caminhos de amostragem.
-
RIFE VFI (#94)
Realiza interpolação de quadros para aumentar a taxa de quadros percebida. É especialmente eficaz para movimentos lentos de câmera e movimento fluido de sujeito. Referência: hzwer/Practical-RIFE.
-
HunyuanFoleySampler (#331)
Gera foley sincronizado a partir de quadros mais um prompt de texto curto, então passa o áudio para o mixador de vídeo. Para detalhes do modelo e arquivos, veja phazei/HunyuanVideo-Foley.
- Para iteração mais rápida, use a rota Wan 2.2 GGUF quantizada com troca de blocos quando o VRAM estiver apertado; volte para precisão total para renderizações finais.
- Mantenha largura, altura e comprimento da cena idênticos em todo o projeto para reforçar o ritmo e a continuidade de enquadramento.
- Nos prompts do Qwen, preserve identificadores principais (nomes, roupa, acessórios) e termos de iluminação; varie apenas a ação e a linguagem da câmera entre as cenas.
- Use a semente global para travar o "sentimento" geral do projeto. Altere-a apenas quando quiser um caráter de movimento diferente em todas as cenas.
- Interpole apenas depois de estar satisfeito com o tempo, depois renderize a versão de áudio por cena e combine; foley por cena tende a soar mais natural.
- FLUX.1 dev é uma ótima base para o primeiro quadro chave; uma vez estabelecido, confie nas edições do Qwen para progredir na história enquanto mantém o visual: Comfy-Org/FLUX.1-Krea-dev_ComfyUI.
Agradecimentos
Este fluxo de trabalho implementa e se baseia nos seguintes trabalhos e recursos. Agradecemos imensamente aos criadores do Qwen Image Edit pelo modelo, aos desenvolvedores do Wan 2.2 pelo modelo e ao autor(@Benji’s AI Playground) do "Create Coherent Scenes (Qwen Image Edit & Wan 2.2) Youtube Tutorial" por suas contribuições e manutenção. Para detalhes autoritativos, consulte a documentação original e os repositórios vinculados abaixo.
Recursos
- YouTube/Create Coherent Scenes (Qwen Image Edit & Wan 2.2)
Nota: O uso dos modelos, conjuntos de dados e códigos referenciados está sujeito às respectivas licenças e termos fornecidos por seus autores e mantenedores.