Fluxo de trabalho Qwen Image 2512 ComfyUI para retratos e cenas com precisão de texto
Este fluxo de trabalho transforma seu prompt em uma imagem de alta fidelidade usando o Qwen Image 2512. É projetado para criadores que precisam de forte alinhamento texto-imagem, pessoas realistas e renderização confiável de texto bilíngue dentro da cena. O gráfico vem pré-configurado com o VAE e o codificador de texto do Qwen, além de um LoRA opcional Lightning para geração em poucos passos, permitindo que você passe do prompt ao resultado com configuração mínima.
Use-o para arte conceitual, ilustração, sinalização, cartazes e estilos de foto do dia a dia. O Qwen Image 2512 traz composição estável e tipografia nítida, tornando-o uma escolha sólida para prompts que misturam pessoas, ambientes e texto legível.
Modelos principais no fluxo de trabalho Comfyui Qwen Image 2512
- Modelo base Qwen-Image 2512 (bfloat16). Modelo de difusão central que sintetiza a imagem a partir do condicionamento. Os pesos prontos para Comfy são fornecidos no pacote Comfy-Org. Arquivos do modelo
- Codificador de texto Qwen2.5-VL 7B. Codifica seu prompt em vetores de condicionamento que direcionam o layout, estilo e renderização de texto do Qwen Image 2512. Arquivos do codificador de texto
- Qwen Image VAE. Decodifica o latente produzido pelo sampler de volta para uma imagem RGB com cores e detalhes fiéis. Arquivo VAE
- Qwen-Image-2512-Lightning-4steps-V1.0 LoRA (opcional). Um LoRA comunitário ajustado para geração em poucos passos para acelerar a renderização com pequenos compromissos de qualidade. Cartão LoRA
- Para informações sobre a família de modelos e abordagem de treinamento, veja o relatório técnico Qwen-Image. Artigo
Como usar o fluxo de trabalho Comfyui Qwen Image 2512
Fluxo geral: seu prompt é codificado, uma tela latente é criada na resolução escolhida, a pilha de modelos aplica o modelo base e o LoRA opcional, o sampler itera para refinar o latente, e o VAE decodifica a imagem final para salvar.
- Visão geral do grupo Qwen-Image-2512
- Todo o gráfico está organizado dentro de um único grupo chamado "Qwen-Image-2512." Ele conecta o codificador de texto, modelo e pilha LoRA, ajudantes de amostragem e decodificação VAE. Você controla o visual com seus prompts positivos e negativos, tamanho da tela e algumas configurações do sampler. A saída é uma imagem de estilo retrato de alta resolução salva na sua pasta de saída do ComfyUI.
- Prompts com
CLIPTextEncode(#52) e negativos opcionaisCLIPTextEncode(#32)- Insira sua descrição principal em
CLIPTextEncode(#52). Escreva a cena, os sujeitos e qualquer texto na imagem que deseja renderizar; o Qwen Image 2512 é particularmente forte em sinalização, cartazes, maquetes de UI e legendas bilíngues. UseCLIPTextEncode(#32) para negativos opcionais para evitar artefatos ou estilos indesejados. Mantenha trechos de texto entre aspas se precisar de formulação precisa.
- Insira sua descrição principal em
- Tela e proporção com
EmptySD3LatentImage(#57)- Escolha sua largura e altura alvo aqui para definir a composição. Formatos de retrato funcionam bem para pessoas e selfies, enquanto proporções quadradas e paisagens se adequam a layouts de produtos e cenas. Telas maiores oferecem detalhes mais finos ao custo de memória e tempo; comece modestamente, depois aumente uma vez que goste da moldura. A consistência melhora quando você mantém a mesma proporção em todas as iterações.
- Pilha de modelo e LoRA com
UNETLoader(#100) eLoraLoaderModelOnly(#101)- O gerador base é o Qwen Image 2512 carregado por
UNETLoader(#100). Se desejar renderizações mais rápidas, ative o Lightning LoRA emLoraLoaderModelOnly(#101) para alternar para um fluxo de trabalho de poucos passos. Esta pilha define as capacidades do modelo para realismo, layout e alinhamento texto-imagem antes do início da amostragem.
- O gerador base é o Qwen Image 2512 carregado por
- Ajudantes de amostragem com
ModelSamplingAuraFlow(#43) eCFGNorm(#55)- Esses dois nós preparam o modelo para amostragem estável e balanceada em contraste.
ModelSamplingAuraFlow(#43) ajusta o cronograma para manter detalhes nítidos sem exagerar nas texturas.CFGNorm(#55) normaliza a orientação para manter a cor e a exposição consistentes enquanto segue seu prompt.
- Esses dois nós preparam o modelo para amostragem estável e balanceada em contraste.
- Desnoisificação e refinamento com
KSampler(#54)- Esta é a fase de trabalho que melhora iterativamente o latente de ruído para uma imagem coerente. Você define a semente para repetibilidade, seleciona o sampler e o agendador, e escolhe quantos passos executar. Com o Lightning ativado, você pode mirar em poucos passos; com o modelo base sozinho, use mais passos para máxima fidelidade.
- Decodificação e salvamento com
VAEDecode(#45) eSaveImage(#117)- Após a amostragem, o VAE reconstrói claramente o RGB do latente e
SaveImagegrava o PNG final. Se as cores ou o contraste parecerem fora, reveja a orientação ou a formulação do prompt em vez de pós-processamento; o Qwen Image 2512 responde bem a pistas descritivas de iluminação e material.
- Após a amostragem, o VAE reconstrói claramente o RGB do latente e
Nós principais no fluxo de trabalho Comfyui Qwen Image 2512
UNETLoader(#100)- Carrega o modelo base Qwen-Image-2512 que determina a capacidade geral e o espaço de estilo. Use a construção bf16 para qualidade máxima se sua GPU permitir. Mude para uma variante fp8 ou comprimida apenas se precisar ajustar a memória ou aumentar o rendimento.
LoraLoaderModelOnly(#101)- Aplica o Qwen-Image-2512-Lightning-4steps-V1.0 LoRA sobre o modelo base. Aumente ou diminua
strength_modelpara misturar ajuste de velocidade com fidelidade base, ou defina-o para 0 para desativar. Quando este LoRA está ativo, reduzastepsemKSamplerpara algumas iterações para realizar o aumento de velocidade.
- Aplica o Qwen-Image-2512-Lightning-4steps-V1.0 LoRA sobre o modelo base. Aumente ou diminua
ModelSamplingAuraFlow(#43)- Ajusta o comportamento de amostragem do modelo para um cronograma de estilo de fluxo que muitas vezes resulta em bordas mais nítidas e menos borrões. Se os resultados parecerem excessivamente nítidos ou pouco detalhados, ajuste ligeiramente o parâmetro
shifte reamostre. Mantenha outras variáveis estáveis enquanto testa para isolar o efeito.
- Ajusta o comportamento de amostragem do modelo para um cronograma de estilo de fluxo que muitas vezes resulta em bordas mais nítidas e menos borrões. Se os resultados parecerem excessivamente nítidos ou pouco detalhados, ajuste ligeiramente o parâmetro
CFGNorm(#55)- Normaliza a orientação livre de classificadores para evitar saídas desbotadas ou excessivamente saturadas. Use
strengthpara decidir quão assertivamente a normalização deve atuar. Se a precisão do texto cair quando você aumentar o CFG, aumente a força da normalização em vez de aumentar ainda mais o CFG.
- Normaliza a orientação livre de classificadores para evitar saídas desbotadas ou excessivamente saturadas. Use
EmptySD3LatentImage(#57)- Define o tamanho da tela latente que determina a moldura e a proporção. Para pessoas, proporções de retrato reduzem distorções e ajudam nas proporções do corpo; para cartazes, proporções quadradas ou paisagens enfatizam o layout e blocos de texto. Aumente a resolução apenas depois de estar satisfeito com a composição.
CLIPTextEncode(#52) eCLIPTextEncode(#32)- O codificador positivo (#52) transforma sua descrição em condicionamento, incluindo strings de texto explícitas a serem renderizadas na cena. O codificador negativo (#32) suprime características indesejadas, como artefatos, dedos extras ou fundos ruidosos. Mantenha os prompts concisos e factuais para melhor alinhamento.
KSampler(#54)- Controla semente, sampler, agendador, passos, CFG e força de desnoisificação. Com o Qwen Image 2512, valores moderados de CFG geralmente preservam o forte alinhamento de texto do modelo; se as letras se deformarem, reduza o CFG antes de mudar o sampler. Para rascunhos rápidos, ative o Lightning e tente muito poucos passos, depois aumente os passos para renderizações finais, se necessário.
VAELoader(#34) eVAEDecode(#45)- Carregue e aplique o VAE do Qwen para reconstruir cores fiéis e detalhes finos. Mantenha o VAE emparelhado com o modelo base para evitar mudanças de cor. Se você mudar os pesos base, também mude para a construção VAE correspondente.
Extras opcionais
- Prompting para texto na imagem
- Coloque palavras exatas entre aspas retas e adicione dicas breves de tipografia como "tipografia moderna e limpa" ou "sans serif em negrito." Inclua sugestões de posicionamento como "cartaz de parede" ou "placa de loja" para ancorar onde o texto deve aparecer.
- Iteração mais rápida com Lightning
- Ative o Lightning LoRA e use poucos passos para pré-visualizações. Uma vez que a moldura e a formulação estejam corretas, desative ou reduza a força do LoRA e aumente os passos para recuperar a fidelidade máxima.
- Escolhas de proporção
- Mantenha proporções consistentes em variações. Use retrato para pessoas, quadrado para estudos de produto ou logotipo, e paisagem para ambientes ou slides. Se você aumentar a escala mais tarde, mantenha a mesma proporção para manter a composição.
- Disciplina de orientação
- O Qwen Image 2512 geralmente prefere CFG modesto. Se a fidelidade do texto diminuir, reduza o CFG ou aumente a força do
CFGNormem vez de acumular mais orientação.
- O Qwen Image 2512 geralmente prefere CFG modesto. Se a fidelidade do texto diminuir, reduza o CFG ou aumente a força do
- Reprodutibilidade
- Trave uma semente quando gostar de um resultado para que possa iterar com segurança. Altere um controle por vez para entender seu impacto antes de avançar.
Agradecimentos
Este fluxo de trabalho implementa e se baseia nos seguintes trabalhos e recursos. Agradecemos sinceramente à Comfy-Org pelos Arquivos de Modelo do Qwen Image 2512 por suas contribuições e manutenção. Para detalhes autoritativos, consulte a documentação original e os repositórios vinculados abaixo.
Recursos
- Arquivos de Modelo Comfy-Org/Qwen Image 2512
- Hugging Face: Comfy-Org/Qwen-Image_ComfyUI
- Documentação / Notas de Lançamento: Arquivos de Modelo Qwen Image 2512
Nota: O uso dos modelos, conjuntos de dados e código referenciados está sujeito às respectivas licenças e termos fornecidos por seus autores e mantenedores.


