Qwen Image 2512 em ComfyUI | Fluxo de Trabalho de Síntese Visual Realista

ComfyUI Qwen Image 2512 Fluxo de Trabalho

Qwen Image 2512 in ComfyUI | Realistic Visual Synthesis Workflow

Deseja executar este fluxo de trabalho?

Fluxos de trabalho totalmente operacionais
Sem nós ou modelos ausentes
Nenhuma configuração manual necessária
Apresenta visuais impressionantes

ComfyUI Qwen Image 2512 Exemplos

qwen-image-2512-in-comfyui-realistic-visual-synthesis-workflow-1330-example_01.webp

qwen-image-2512-in-comfyui-realistic-visual-synthesis-workflow-1330-example_02.webp

qwen-image-2512-in-comfyui-realistic-visual-synthesis-workflow-1330-example_03.webp

qwen-image-2512-in-comfyui-realistic-visual-synthesis-workflow-1330-example_04.webp

qwen-image-2512-in-comfyui-realistic-visual-synthesis-workflow-1330-example_05.webp

qwen-image-2512-in-comfyui-realistic-visual-synthesis-workflow-1330-example_06.webp

Fluxo de trabalho Qwen Image 2512 ComfyUI para retratos e cenas com precisão de texto#

Este fluxo de trabalho transforma seu prompt em uma imagem de alta fidelidade usando o Qwen Image 2512. É projetado para criadores que precisam de forte alinhamento texto-imagem, pessoas realistas e renderização confiável de texto bilíngue dentro da cena. O gráfico vem pré-configurado com o VAE e o codificador de texto do Qwen, além de um LoRA opcional Lightning para geração em poucos passos, permitindo que você passe do prompt ao resultado com configuração mínima.

Use-o para arte conceitual, ilustração, sinalização, cartazes e estilos de foto do dia a dia. O Qwen Image 2512 traz composição estável e tipografia nítida, tornando-o uma escolha sólida para prompts que misturam pessoas, ambientes e texto legível.

Modelos principais no fluxo de trabalho Comfyui Qwen Image 2512#

Modelo base Qwen-Image 2512 (bfloat16). Modelo de difusão central que sintetiza a imagem a partir do condicionamento. Os pesos prontos para Comfy são fornecidos no pacote Comfy-Org. Arquivos do modelo
Codificador de texto Qwen2.5-VL 7B. Codifica seu prompt em vetores de condicionamento que direcionam o layout, estilo e renderização de texto do Qwen Image 2512. Arquivos do codificador de texto
Qwen Image VAE. Decodifica o latente produzido pelo sampler de volta para uma imagem RGB com cores e detalhes fiéis. Arquivo VAE
Qwen-Image-2512-Lightning-4steps-V1.0 LoRA (opcional). Um LoRA comunitário ajustado para geração em poucos passos para acelerar a renderização com pequenos compromissos de qualidade. Cartão LoRA
Para informações sobre a família de modelos e abordagem de treinamento, veja o relatório técnico Qwen-Image. Artigo

Como usar o fluxo de trabalho Comfyui Qwen Image 2512#

Fluxo geral: seu prompt é codificado, uma tela latente é criada na resolução escolhida, a pilha de modelos aplica o modelo base e o LoRA opcional, o sampler itera para refinar o latente, e o VAE decodifica a imagem final para salvar.

Visão geral do grupo Qwen-Image-2512
- Todo o gráfico está organizado dentro de um único grupo chamado "Qwen-Image-2512." Ele conecta o codificador de texto, modelo e pilha LoRA, ajudantes de amostragem e decodificação VAE. Você controla o visual com seus prompts positivos e negativos, tamanho da tela e algumas configurações do sampler. A saída é uma imagem de estilo retrato de alta resolução salva na sua pasta de saída do ComfyUI.
Prompts com CLIPTextEncode (#52) e negativos opcionais CLIPTextEncode (#32)
- Insira sua descrição principal em CLIPTextEncode (#52). Escreva a cena, os sujeitos e qualquer texto na imagem que deseja renderizar; o Qwen Image 2512 é particularmente forte em sinalização, cartazes, maquetes de UI e legendas bilíngues. Use CLIPTextEncode (#32) para negativos opcionais para evitar artefatos ou estilos indesejados. Mantenha trechos de texto entre aspas se precisar de formulação precisa.
Tela e proporção com EmptySD3LatentImage (#57)
- Escolha sua largura e altura alvo aqui para definir a composição. Formatos de retrato funcionam bem para pessoas e selfies, enquanto proporções quadradas e paisagens se adequam a layouts de produtos e cenas. Telas maiores oferecem detalhes mais finos ao custo de memória e tempo; comece modestamente, depois aumente uma vez que goste da moldura. A consistência melhora quando você mantém a mesma proporção em todas as iterações.
Pilha de modelo e LoRA com UNETLoader (#100) e LoraLoaderModelOnly (#101)
- O gerador base é o Qwen Image 2512 carregado por UNETLoader (#100). Se desejar renderizações mais rápidas, ative o Lightning LoRA em LoraLoaderModelOnly (#101) para alternar para um fluxo de trabalho de poucos passos. Esta pilha define as capacidades do modelo para realismo, layout e alinhamento texto-imagem antes do início da amostragem.
Ajudantes de amostragem com ModelSamplingAuraFlow (#43) e CFGNorm (#55)
- Esses dois nós preparam o modelo para amostragem estável e balanceada em contraste. ModelSamplingAuraFlow (#43) ajusta o cronograma para manter detalhes nítidos sem exagerar nas texturas. CFGNorm (#55) normaliza a orientação para manter a cor e a exposição consistentes enquanto segue seu prompt.
Desnoisificação e refinamento com KSampler (#54)
- Esta é a fase de trabalho que melhora iterativamente o latente de ruído para uma imagem coerente. Você define a semente para repetibilidade, seleciona o sampler e o agendador, e escolhe quantos passos executar. Com o Lightning ativado, você pode mirar em poucos passos; com o modelo base sozinho, use mais passos para máxima fidelidade.
Decodificação e salvamento com VAEDecode (#45) e SaveImage (#117)
- Após a amostragem, o VAE reconstrói claramente o RGB do latente e SaveImage grava o PNG final. Se as cores ou o contraste parecerem fora, reveja a orientação ou a formulação do prompt em vez de pós-processamento; o Qwen Image 2512 responde bem a pistas descritivas de iluminação e material.

Nós principais no fluxo de trabalho Comfyui Qwen Image 2512#

UNETLoader (#100)
- Carrega o modelo base Qwen-Image-2512 que determina a capacidade geral e o espaço de estilo. Use a construção bf16 para qualidade máxima se sua GPU permitir. Mude para uma variante fp8 ou comprimida apenas se precisar ajustar a memória ou aumentar o rendimento.
LoraLoaderModelOnly (#101)
- Aplica o Qwen-Image-2512-Lightning-4steps-V1.0 LoRA sobre o modelo base. Aumente ou diminua strength_model para misturar ajuste de velocidade com fidelidade base, ou defina-o para 0 para desativar. Quando este LoRA está ativo, reduza steps em KSampler para algumas iterações para realizar o aumento de velocidade.
ModelSamplingAuraFlow (#43)
- Ajusta o comportamento de amostragem do modelo para um cronograma de estilo de fluxo que muitas vezes resulta em bordas mais nítidas e menos borrões. Se os resultados parecerem excessivamente nítidos ou pouco detalhados, ajuste ligeiramente o parâmetro shift e reamostre. Mantenha outras variáveis estáveis enquanto testa para isolar o efeito.
CFGNorm (#55)
- Normaliza a orientação livre de classificadores para evitar saídas desbotadas ou excessivamente saturadas. Use strength para decidir quão assertivamente a normalização deve atuar. Se a precisão do texto cair quando você aumentar o CFG, aumente a força da normalização em vez de aumentar ainda mais o CFG.
EmptySD3LatentImage (#57)
- Define o tamanho da tela latente que determina a moldura e a proporção. Para pessoas, proporções de retrato reduzem distorções e ajudam nas proporções do corpo; para cartazes, proporções quadradas ou paisagens enfatizam o layout e blocos de texto. Aumente a resolução apenas depois de estar satisfeito com a composição.
CLIPTextEncode (#52) e CLIPTextEncode (#32)
- O codificador positivo (#52) transforma sua descrição em condicionamento, incluindo strings de texto explícitas a serem renderizadas na cena. O codificador negativo (#32) suprime características indesejadas, como artefatos, dedos extras ou fundos ruidosos. Mantenha os prompts concisos e factuais para melhor alinhamento.
KSampler (#54)
- Controla semente, sampler, agendador, passos, CFG e força de desnoisificação. Com o Qwen Image 2512, valores moderados de CFG geralmente preservam o forte alinhamento de texto do modelo; se as letras se deformarem, reduza o CFG antes de mudar o sampler. Para rascunhos rápidos, ative o Lightning e tente muito poucos passos, depois aumente os passos para renderizações finais, se necessário.
VAELoader (#34) e VAEDecode (#45)
- Carregue e aplique o VAE do Qwen para reconstruir cores fiéis e detalhes finos. Mantenha o VAE emparelhado com o modelo base para evitar mudanças de cor. Se você mudar os pesos base, também mude para a construção VAE correspondente.

Extras opcionais#

Prompting para texto na imagem
- Coloque palavras exatas entre aspas retas e adicione dicas breves de tipografia como "tipografia moderna e limpa" ou "sans serif em negrito." Inclua sugestões de posicionamento como "cartaz de parede" ou "placa de loja" para ancorar onde o texto deve aparecer.
Iteração mais rápida com Lightning
- Ative o Lightning LoRA e use poucos passos para pré-visualizações. Uma vez que a moldura e a formulação estejam corretas, desative ou reduza a força do LoRA e aumente os passos para recuperar a fidelidade máxima.
Escolhas de proporção
- Mantenha proporções consistentes em variações. Use retrato para pessoas, quadrado para estudos de produto ou logotipo, e paisagem para ambientes ou slides. Se você aumentar a escala mais tarde, mantenha a mesma proporção para manter a composição.
Disciplina de orientação
- O Qwen Image 2512 geralmente prefere CFG modesto. Se a fidelidade do texto diminuir, reduza o CFG ou aumente a força do CFGNorm em vez de acumular mais orientação.
Reprodutibilidade
- Trave uma semente quando gostar de um resultado para que possa iterar com segurança. Altere um controle por vez para entender seu impacto antes de avançar.

Agradecimentos#

Este fluxo de trabalho implementa e se baseia nos seguintes trabalhos e recursos. Agradecemos sinceramente à Comfy-Org pelos Arquivos de Modelo do Qwen Image 2512 por suas contribuições e manutenção. Para detalhes autoritativos, consulte a documentação original e os repositórios vinculados abaixo.

Recursos#

Arquivos de Modelo Comfy-Org/Qwen Image 2512
- Hugging Face: Comfy-Org/Qwen-Image_ComfyUI
- Documentação / Notas de Lançamento: Arquivos de Modelo Qwen Image 2512

Nota: O uso dos modelos, conjuntos de dados e código referenciados está sujeito às respectivas licenças e termos fornecidos por seus autores e mantenedores.

Want More ComfyUI Workflows?

Wan 2.2 | Líder em Geração de Vídeo Open-Source

Disponível agora! Melhor precisão + movimento mais suave.

Wan 2.2 + Lightx2v V2 | Ultra Rápido I2V & T2V

Configuração Dual Light LoRA, 4X mais rápida.

Wan 2.2 Geração de Imagens | Pacote de Fluxo de Trabalho 2-em-1

MoE Mix + Somente-Baixo com aumento de resolução. Escolha um.

Wan 2.2 FLF2V | Geração de Vídeo Quadro-Inicial-Final

Gere vídeos suaves a partir de um quadro inicial e final usando Wan 2.2 FLF2V.

Wan 2.2 Low Vram | Wrapper Kijai

Low VRAM. Sem mais espera. Wrapper Kijai incluído.

SkyReels-A2 | Geração de Vídeo Multi-Elemento

Combine múltiplos elementos em vídeos dinâmicos com precisão.

ACE++ Face Swap ｜ Edição de Imagem

Troque rostos em imagens com instruções em linguagem natural enquanto preserva o estilo e o contexto.

Stable Diffusion 3 (SD3) | Texto para Imagem

Integre o Stable Diffusion 3 medium em seu fluxo de trabalho para produzir arte de IA excepcional.

Suporte

Recursos

Legal

RunComfy

RunComfy é a principal ComfyUI plataforma, oferecendo ComfyUI online ambiente e serviços, juntamente com fluxos de trabalho do ComfyUI apresentando visuais impressionantes. RunComfy também oferece AI Models, permitindo que artistas utilizem as mais recentes ferramentas de AI para criar arte incrível.

Qwen Image 2512 | Gerador de Imagens de Precisão por IA