logo
RunComfy
ComfyUIPlaygroundPricing
discord logo
ComfyUI>Fluxos de Trabalho>Crie Cenas Coerentes | Gerador de Arte de História Consistente

Crie Cenas Coerentes | Gerador de Arte de História Consistente

Workflow Name: RunComfy/Create-Coherent-Scenes
Workflow ID: 0000...1305
Este poderoso fluxo de trabalho ajuda você a projetar cenas de histórias visualmente unificadas usando as capacidades combinadas de Qwen Image Edit e Wan 2.2. Ele sincroniza iluminação, ângulos de câmera e composição em várias tomadas para alcançar consistência natural. Perfeito para narrativa, animação e visualização de conceitos, mantém personagens e ambientes coerentes de quadro a quadro. Você pode facilmente refinar tomadas, preservar o tom artístico e gerar transições suaves para sequências cinematográficas. Ideal para criadores que buscam eficiência e controle sobre narrativas de múltiplas cenas.

Crie Cenas Coerentes (Qwen Image Edit & Wan 2.2)

Crie Cenas Coerentes (Qwen Image Edit & Wan 2.2) é um fluxo de trabalho ComfyUI pronto para produção para construir vídeos com múltiplas tomadas orientadas por histórias, onde personagens, iluminação e composição permanecem consistentes de uma tomada para outra. Ele combina Qwen Image Edit para imagens estáticas guiadas por referência com Wan 2.2 de imagem para vídeo para movimento cinematográfico, permitindo que você costure cenas, suavize o movimento com interpolação de quadros e adicione áudio foley gerado para finalizar. Ideal para arte narrativa, animação, previz e rolos de conceito, o fluxo de trabalho ajuda você a passar de um único quadro chave estabelecido para uma sequência coesa com mínimo de retoque manual.

O pipeline é organizado em três partes: Parte 1 cria e edita quadros chave coerentes, Parte 2 anima cada tomada com Wan 2.2 e as junta em um único corte, e Parte 3 gera áudio foley consciente da cena. Onde quer que você veja Crie Cenas Coerentes (Qwen Image Edit & Wan 2.2) neste README, refere-se ao processo completo, de ponta a ponta.

Modelos chave no fluxo de trabalho Comfyui Crie Cenas Coerentes (Qwen Image Edit & Wan 2.2)

  • Wan 2.2 Image-to-Video 14B (variantes de alto ruído e baixo ruído). Gerador de vídeo principal usado para animar suas imagens de cena enquanto preserva o layout espacial e o estilo. Empacotado para ComfyUI com codificador de texto e ativos VAE. Referência: Comfy-Org/Wan_2.2_ComfyUI_Repackaged.
  • Qwen-Image-Edit 2509 + Qwen 2.5 VL codificador de texto + Qwen Image VAE. Edição de imagem semântica e consciente de referência usada para criar quadros chave da próxima cena que combinam com sua narrativa enquanto mantém a continuidade de personagem e cena. Referências: Comfy-Org/Qwen-Image-Edit_ComfyUI e Comfy-Org/Qwen-Image_ComfyUI.
  • FLUX.1 dev (texto para imagem). Modelo base opcional para o primeiro quadro chave estabelecido antes da edição. Referência: Comfy-Org/FLUX.1-Krea-dev_ComfyUI.
  • RIFE Interpolação de Quadros de Vídeo. Usado para aumentar a taxa de quadros e suavizar o movimento no corte combinado. Referência: hzwer/Practical-RIFE.
  • HunyuanVideo-Foley. Um modelo de áudio generativo que cria foley sincronizado a partir de imagens ou vídeo mais um texto curto; usado para adicionar som diegético por cena ou para o corte final. Referência: phazei/HunyuanVideo-Foley.
  • Auxiliares opcionais. MiniCPM-V 4.5 pode criar automaticamente prompts de áudio a partir do seu corte para acelerar a ideação de foley: OpenBMB/MiniCPM-V.

Como usar o fluxo de trabalho Comfyui Crie Cenas Coerentes (Qwen Image Edit & Wan 2.2)

Lógica geral

  • Parte 1 cria um quadro chave inicial e depois usa o Qwen Image Edit para gerar imagens estáticas da "próxima cena" que permanecem alinhadas estilisticamente.
  • Parte 2 anima cada imagem de cena em um curto clipe com Wan 2.2, depois concatena todos os clipes em um único corte e opcionalmente interpola quadros para movimento mais suave.
  • Parte 3 opcionalmente gera áudio foley por cena ou para o corte combinado e o mistura no vídeo final.

Carregador de modelos

  • A área do modelo carrega as variantes de alto e baixo ruído de Wan 2.2 e seus VAE/CLIP uma vez, com uma opção para acelerar via torch compile. Você também verá uma rota de baixo VRAM usando UNETs GGUF quantizados e troca de blocos para que você possa executar o mesmo processo Crie Cenas Coerentes (Qwen Image Edit & Wan 2.2) em GPUs menores.
  • LoRAs para Wan 2.2 e o Qwen Image Edit Lightning LoRA são pré-conectados para influenciar o estilo de movimento e a velocidade de edição sem complicar o gráfico.
  • Se você mudar os modelos, mantenha as famílias de codificador de texto/UNET/VAE consistentes para evitar incompatibilidades de espaço latente.

Configurações

  • Controles globais definem a largura, altura, semente e comprimento da cena de trabalho para que cada cena herde geometria de tela e cadência temporal idênticas. Este é um dos principais elementos para a consistência de Crie Cenas Coerentes (Qwen Image Edit & Wan 2.2).
  • Um prompt negativo abrangente é fornecido e roteado globalmente; você pode substituí-lo a qualquer momento para ajustar sua direção artística.

Parte 1 — Texto para Imagem quadro chave inicial

  • Comece descrevendo sua tomada de abertura. O prompt alimenta um amostrador de texto para imagem base que gera um quadro "Start_" para o projeto.
  • Essa imagem é armazenada em cache e se torna a referência para a próxima cena na trilha Qwen. O fluxo de trabalho escala a imagem para uma resolução amigável à edição e a codifica em latentes.

Parte 1 — Qwen Image Edit quadros chave da próxima cena

  • Para cada tomada subsequente, escreva uma breve instrução de "Próxima Cena". O editor condiciona na imagem da cena anterior para que a identidade do personagem, guarda-roupa, iluminação e paleta permaneçam alinhados.
  • O resultado editado é decodificado, pré-visualizado e salvo como "Scene_1_…", "Scene_2_…", etc. Estas são suas imagens estáticas coerentes. Elas também são armazenadas em slots de imagem compartilhados para que prompts posteriores possam referenciá-las.

Entradas de cena (1–6)

  • Se você já tem quadros de conceito, insira-os nos seis nós "LoadImage". Caso contrário, use as imagens estáticas geradas pelo Qwen da Parte 1 como suas imagens iniciais.
  • Para cada cena, adicione um prompt de texto curto através do nó de prompt rotulado. Pense neles como notas de cinematografia que orientam o estilo de movimento em vez de redescrever todo o ambiente.

Amostragem de cena (1–6)

  • Cada cena executa uma passagem de imagem para vídeo Wan 2.2 para transformar a imagem inicial em um clipe latente. Um caminho de amostragem de três estágios então refina a sequência latente usando um caminho de alto ruído, um caminho de baixo ruído e um caminho sem LoRA organizado para estabilidade.
  • Os quadros decodificados alimentam um gravador de vídeo por cena que salva um MP4 para revisão rápida. Nós de purga de memória após cada renderização liberam VRAM antes que a próxima cena comece.
  • Como todas as cenas compartilham a mesma semente, tamanho e comprimento, a cadência de movimento e a composição permanecem alinhadas, ajudando Crie Cenas Coerentes (Qwen Image Edit & Wan 2.2) a parecer uma peça contínua.

Combine cenas

  • As seis sequências de imagens renderizadas são concatenadas em ordem, produzindo um corte "Combinado". Você pode reordenar ou omitir cenas reconectando o nó de lote que as coleta.

Interpolação de quadros opcional

  • Uma passagem de interpolação aumenta a taxa de quadros aparente usando RIFE. Isso cria uma exportação "Interpolada" para movimento mais suave de câmera e sujeito enquanto mantém o mesmo visual.

Parte 3 — Vídeo para Áudio foley

  • Carregue o corte combinado ou qualquer cena individual na seção de áudio. Um auxiliar embutido de visão-linguagem pode criar automaticamente uma descrição textual da cena; edite-a ao seu gosto para refletir ritmo, humor e ações principais.
  • O modelo foley sintetiza áudio sincronizado e um nó de mistura o combina com seus quadros em um MP4 habilitado para áudio. Para melhores resultados, gere áudio por cena e depois costure.

Nós chave no fluxo de trabalho Comfyui Crie Cenas Coerentes (Qwen Image Edit & Wan 2.2)

  • WanImageToVideo (#111) Converte um único quadro de referência em um vídeo latente coerente enquanto respeita texto positivo e negativo. Use-o para definir a duração e o tamanho da tela de cada tomada e fornecer a imagem inicial que você deseja animar. Respaldado pelos modelos Wan 2.2 I2V 14B empacotados aqui: Comfy-Org/Wan_2.2_ComfyUI_Repackaged.

  • TextEncodeQwenImageEditPlus (#360) Codifica instruções de "Próxima Cena" junto com uma imagem de referência para que as edições sigam a história mas correspondam à identidade e iluminação. Mantenha substantivos e tags estilísticas consistentes entre as cenas para reforçar a continuidade. Referências de modelo: Comfy-Org/Qwen-Image-Edit_ComfyUI e Comfy-Org/Qwen-Image_ComfyUI.

  • KSamplerAdvanced (#159) O principal denoiser para cada cena animada. Este fluxo de trabalho encadeia três amostradores que visam diferentes regimes de ruído e misturas LoRA para melhorar a estabilidade temporal. Se você alterar etapas ou sementes, faça-o uniformemente nos amostradores encadeados para manter o comportamento de movimento previsível.

  • ImageBatchMulti (#308) Reúne lotes de quadros de cena em uma longa linha do tempo. Use-o para reordenar, descartar ou trocar cenas antes da exportação sem tocar nos caminhos de amostragem.

  • RIFE VFI (#94) Realiza interpolação de quadros para aumentar a taxa de quadros percebida. É especialmente eficaz para movimentos lentos de câmera e movimento fluido de sujeito. Referência: hzwer/Practical-RIFE.

  • HunyuanFoleySampler (#331) Gera foley sincronizado a partir de quadros mais um prompt de texto curto, então passa o áudio para o mixador de vídeo. Para detalhes do modelo e arquivos, veja phazei/HunyuanVideo-Foley.

Extras opcionais

  • Para iteração mais rápida, use a rota Wan 2.2 GGUF quantizada com troca de blocos quando o VRAM estiver apertado; volte para precisão total para renderizações finais.
  • Mantenha largura, altura e comprimento da cena idênticos em todo o projeto para reforçar o ritmo e a continuidade de enquadramento.
  • Nos prompts do Qwen, preserve identificadores principais (nomes, roupa, acessórios) e termos de iluminação; varie apenas a ação e a linguagem da câmera entre as cenas.
  • Use a semente global para travar o "sentimento" geral do projeto. Altere-a apenas quando quiser um caráter de movimento diferente em todas as cenas.
  • Interpole apenas depois de estar satisfeito com o tempo, depois renderize a versão de áudio por cena e combine; foley por cena tende a soar mais natural.
  • FLUX.1 dev é uma ótima base para o primeiro quadro chave; uma vez estabelecido, confie nas edições do Qwen para progredir na história enquanto mantém o visual: Comfy-Org/FLUX.1-Krea-dev_ComfyUI.

Agradecimentos

Este fluxo de trabalho implementa e se baseia nos seguintes trabalhos e recursos. Agradecemos imensamente aos criadores do Qwen Image Edit pelo modelo, aos desenvolvedores do Wan 2.2 pelo modelo e ao autor(@Benji’s AI Playground) do "Create Coherent Scenes (Qwen Image Edit & Wan 2.2) Youtube Tutorial" por suas contribuições e manutenção. Para detalhes autoritativos, consulte a documentação original e os repositórios vinculados abaixo.

Recursos

  • YouTube/Create Coherent Scenes (Qwen Image Edit & Wan 2.2)
    • Documentos / Notas de Lançamento @Benji’s AI Playground: Create Coherent Scenes (Qwen Image Edit & Wan 2.2) Youtube Tutorial

Nota: O uso dos modelos, conjuntos de dados e códigos referenciados está sujeito às respectivas licenças e termos fornecidos por seus autores e mantenedores.

Want More ComfyUI Workflows?

Wan 2.2 | Líder em Geração de Vídeo Open-Source

Disponível agora! Melhor precisão + movimento mais suave.

Wan 2.2 FLF2V | Geração de Vídeo Quadro-Inicial-Final

Gere vídeos suaves a partir de um quadro inicial e final usando Wan 2.2 FLF2V.

Wan 2.2 + Lightx2v V2 | Ultra Rápido I2V & T2V

Configuração Dual Light LoRA, 4X mais rápida.

Wan 2.2 VACE | Gerador de Vídeo Controlado por Pose

Transforme imagens estáticas em movimentos impressionantes com controle baseado em pose.

Wan 2.1 Ditto | Gerador de Restilização de Vídeo Cinematográfico

Transforme vídeos em estilos artísticos deslumbrantes com fluxo de movimento perfeito.

Reallusion AI Render | Coleção de Fluxos de Trabalho de 3D para ComfyUI

ComfyUI + Reallusion = Velocidade, Acessibilidade e Facilidade para visuais 3D

SkyReels-A2 | Geração de Vídeo Multi-Elemento

Combine múltiplos elementos em vídeos dinâmicos com precisão.

Pyramid Flow | Geração de Vídeo

Incluindo modos de texto-para-vídeo e imagem-para-vídeo.

Siga-nos
  • LinkedIn
  • Facebook
  • Instagram
  • Twitter
Suporte
  • Discord
  • E-mail
  • Status do Sistema
  • afiliado
Recursos
  • ComfyUI Online Gratuito
  • Guias do ComfyUI
  • RunComfy API
  • Tutoriais do ComfyUI
  • Nós do ComfyUI
  • Saiba Mais
Legal
  • Termos de Serviço
  • Política de Privacidade
  • Política de Cookies
RunComfy
Copyright 2025 RunComfy. Todos os Direitos Reservados.

RunComfy é a principal ComfyUI plataforma, oferecendo ComfyUI online ambiente e serviços, juntamente com fluxos de trabalho do ComfyUI apresentando visuais impressionantes. RunComfy também oferece AI Playground, permitindo que artistas utilizem as mais recentes ferramentas de AI para criar arte incrível.