ERNIE-Image ComfyUI: geração de imagem a partir de texto com renderização de texto nítida
Este fluxo de trabalho ERNIE-Image ComfyUI transforma prompts curtos em imagens de alta qualidade que seguem instruções e renderizam texto de forma confiável. Combina o modelo de difusão ERNIE-Image da Comfy-Org com um forte codificador de texto, um aprimorador de prompt opcional e um moderno Flux2 VAE para preservar detalhes e tipografia.
Projetado para iteração rápida, o ERNIE-Image ComfyUI aceita seu prompt, expande-o opcionalmente para orientação mais rica, codifica-o, amostra com ERNIE-Image e decodifica para uma imagem final. O caminho de aprimoramento de prompt está incluído e pode ser alternado, permitindo que você compare prompts originais versus aprimorados sem alterar o gráfico.
Modelos principais no fluxo de trabalho Comfyui ERNIE-Image ComfyUI
- Modelo de difusão ERNIE-Image. O gerador principal que remove o ruído dos latentes em imagens, ajustado para seguir instruções e renderizar texto. Model card
- Codificador de texto Ministral-3-3B. O principal codificador de texto que converte seu prompt em condicionamento para o ERNIE-Image. File
- Aprimorador de Prompt ERNIE-Image. Um codificador auxiliar usado pelo ramo de aprimoramento para expandir prompts concisos em orientações descritivas. File
- Flux2 VAE. O decodificador que transforma latentes do amostrador em pixels enquanto preserva detalhes finos e texto legível. File
Como usar o fluxo de trabalho Comfyui ERNIE-Image ComfyUI
Em alto nível, seu prompt passa por uma etapa de aprimoramento opcional, é codificado e então amostrado pelo ERNIE-Image em latentes que são finalmente decodificados pelo Flux2 VAE e salvos. Os grupos abaixo mapeiam diretamente para o gráfico, para que você sempre saiba onde ajustar as entradas.
Prompt
Escreva o que deseja ver no campo prompt de nível superior do subgrafo ERNIE-Image ComfyUI. Frases claras e diretas funcionam melhor para seguir instruções e renderizar texto. Você pode incluir texto entre aspas que deseja que seja desenhado na imagem. O condicionamento positivo é construído a partir deste prompt; o caminho negativo começa vazio, então os resultados tendem a ser fiéis, a menos que você adicione seus próprios negativos mais tarde.
Aprimoramento de Prompt
Ative ou desative o caminho de aprimoramento usando Enable prompt enhancement? (#76). Quando ativado, seu breve curto é expandido por TextGenerate (#74) usando o Aprimorador de Prompt ERNIE-Image carregado via Load CLIP (PE) (#91). O aprimorador usa uma instrução estruturada para enriquecer seu prompt e também passa a largura e altura alvo para incentivar uma composição coerente. ComfySwitchNode (#75) roteia o texto original ou aprimorado para que você possa testar facilmente A/B. Para ampla compatibilidade, a alternância está desativada por padrão; ative-a uma vez que o modelo aprimorador esteja presente.
Modelo
O fluxo de trabalho carrega três ativos: UNETLoader (#66) seleciona o modelo de difusão ERNIE-Image, CLIPLoader (#62) traz o codificador de texto Ministral-3-3B, e VAELoader (#63) fornece o Flux2 VAE. Esta combinação é o que dá ao ERNIE-Image ComfyUI uma forte adesão às instruções e tipografia limpa. Se você trocar qualquer modelo, mantenha o trio coordenado para evitar incompatibilidades.
Tamanho da Imagem
EmptyFlux2LatentImage (#71) define a tela. Defina a largura e a altura para a proporção desejada; paisagens, retratos e gráficos quadrados funcionam todos. Essas dimensões também são injetadas no prompt de aprimoramento quando a alternância está ativada, o que ajuda o modelo a planejar o layout e a colocação do texto. Tamanhos maiores custam mais computação; para pré-visualizações rápidas, use dimensões menores e depois amplie conforme necessário.
Texto para Imagem
CLIPTextEncode (#67) transforma seu prompt roteado em condicionamento positivo, enquanto CLIPTextEncode (#72) fornece o ramo negativo (deixado em branco por padrão). KSampler (#70) então gera latentes usando o modelo ERNIE-Image e seu condicionamento. Após a amostragem, VAEDecode (#65) converte latentes em pixels RGB. Tudo está configurado para geração com um clique, então uma vez que suas entradas estejam definidas, basta enfileirar o trabalho e assistir à pré-visualização.
Saída
A imagem é salva por SaveImage (#73). Você verá aparecer na pré-visualização da interface do usuário e no seu diretório de saída. Use sementes consistentes ao comparar o aprimoramento ativado versus desativado para isolar o efeito do ramo de texto.
Nós principais no fluxo de trabalho Comfyui ERNIE-Image ComfyUI
KSampler (#70) O gerador principal que controla a trajetória de difusão. Ajuste steps para qualidade versus velocidade, use cfg para apertar ou relaxar a adesão ao prompt, e defina uma seed fixa para reprodutibilidade entre variantes de prompt. Orientação mais alta pode aguçar a conformidade, mas pode reduzir a criatividade; equilibre conforme seu gosto. Consulte as referências do amostrador do ComfyUI para comportamento geral. ComfyUI
UNETLoader (#66) Carrega o modelo de difusão ERNIE-Image que realmente remove o ruído dos latentes em uma imagem. Mantenha este definido para o ponto de verificação ERNIE-Image para beneficiar-se do seguimento de instruções e renderização de texto. Se você mudar de modelos, espere mudanças no estilo e na capacidade tipográfica. ERNIE-Image
CLIPLoader (#62) Fornece o codificador de texto Ministral-3-3B usado para o caminho de condicionamento principal. Trocar de codificadores muda a forma como a linguagem é mapeada para visuais; para seguir instruções fielmente, mantenha-o alinhado com a pilha ERNIE-Image. Este nó afeta tanto os codificadores positivos quanto os negativos a jusante. Ministral-3-3B file
VAELoader (#63) Fornece o Flux2 VAE usado durante a decodificação. Um VAE correspondente preserva a fidelidade de cor e borda e ajuda a manter o texto renderizado nítido. Use isto ao gerar com ERNIE-Image para obter os melhores resultados. Flux2 VAE file
EmptyFlux2LatentImage (#71) Inicializa uma tela latente vazia na resolução escolhida. Isso define o tamanho final da imagem e guia sutilmente o layout. Alterar dimensões também atualizará a instrução interna do aprimorador quando esse caminho estiver ativo.
CLIPTextEncode (#67) Codifica o prompt final roteado em condicionamento positivo. Para melhorar a renderização de texto, inclua as palavras exatas que deseja que apareçam entre aspas e especifique a capitalização se for importante. Mantenha as instruções concisas e concretas para melhor conformidade.
CLIPTextEncode (#72) Codifica o prompt negativo. Está em branco por padrão para manter as saídas próximas à sua intenção. Se notar artefatos indesejados, adicione alguns termos negativos concisos aqui.
TextGenerate (#74) Gera uma descrição expandida usando o Aprimorador de Prompt ERNIE-Image carregado por Load CLIP (PE) (#91). Útil para transformar breves curtos em direções visuais ricas que melhoram a composição e o detalhe. Mantenha a alternância de aprimoramento desativada para controle literal, ativada para variedade descritiva. Prompt Enhancer file
ComfySwitchNode (#75) Roteia o prompt original ou aprimorado com base em Enable prompt enhancement? (#76). Isso torna o teste A/B trivial sem alterar conexões. Use uma seed fixa ao comparar para isolar diferenças apenas de prompt.
VAEDecode (#65) Decodifica o latente final em uma imagem usando o Flux2 VAE. Este passo influencia fortemente a cor, clareza e como pequenos textos são lidos. Mantenha-o emparelhado com o Flux2 VAE da pilha ERNIE-Image.
SaveImage (#73) Grava a imagem gerada no disco e a expõe na interface do usuário. Use convenções de nomenclatura consistentes se planeja comparar várias execuções do ERNIE-Image ComfyUI.
Extras opcionais
- Para letras nítidas, coloque palavras exatas entre aspas e especifique dicas de estilo como "etiqueta serifada em negrito" ou "etiqueta manuscrita"; o ERNIE-Image ComfyUI é otimizado para renderização de texto.
- Use diretrizes claras como "foto de produto centralizada", "fundo branco" ou "layout de pôster 2:3" para que o ERNIE-Image ComfyUI possa seguir as instruções com precisão.
- Ao comparar o caminho de aprimoramento, bloqueie a
seede alterne apenas a alternância de aprimoramento para ver verdadeiras diferenças A/B. - Escolha uma proporção que corresponda à cena; o ERNIE-Image ComfyUI respeitará dicas de tamanho e planejará o layout adequadamente.
Agradecimentos
Este fluxo de trabalho implementa e se baseia nos seguintes trabalhos e recursos. Agradecemos à Comfy-Org pelo ERNIE-Image (arquivos de modelo e ativos reempacotados), à Baidu pelo modelo ERNIE-Image original, e à equipe ComfyUI pelo exemplo de fluxo de trabalho ERNIE-Image ComfyUI por suas contribuições e manutenção. Para detalhes autoritativos, consulte a documentação original e os repositórios vinculados abaixo.
Recursos
- Fonte do fluxo de trabalho ComfyUI/ERNIE-Image ComfyUI
- GitHub: comfy-org/docs
- Docs / Notas de Lançamento: Exemplo de fluxo de trabalho ERNIE-Image ComfyUI
- Comfy-Org/ERNIE-Image
- GitHub: baidu/ERNIE-Image
- Hugging Face: Comfy-Org/ERNIE-Image
- Comfy-Org/ernie-image.safetensors
- GitHub: baidu/ERNIE-Image
- Hugging Face: ernie-image.safetensors
- Comfy-Org/ministral-3-3b.safetensors
- GitHub: baidu/ERNIE-Image
- Hugging Face: ministral-3-3b.safetensors
- Comfy-Org/ernie-image-prompt-enhancer.safetensors
- GitHub: baidu/ERNIE-Image
- Hugging Face: ernie-image-prompt-enhancer.safetensors
- Comfy-Org/flux2-vae.safetensors
- GitHub: baidu/ERNIE-Image
- Hugging Face: flux2-vae.safetensors
Nota: O uso dos modelos, conjuntos de dados e código referenciados está sujeito às respectivas licenças e termos fornecidos por seus autores e mantenedores.




