ERNIE-Image ComfyUI: testo-immagine che segue le istruzioni con rendering di testo nitido
Questo workflow ERNIE-Image ComfyUI trasforma brevi prompt in immagini di alta qualità che seguono le istruzioni e rendono il testo in modo affidabile. Combina il modello di diffusione ERNIE-Image di Comfy-Org con un potente encoder di testo, un potenziatore di prompt opzionale e un moderno Flux2 VAE per preservare dettagli e tipografia.
Progettato per iterazioni rapide, ERNIE-Image ComfyUI accetta il tuo prompt, lo espande opzionalmente per una guida più ricca, lo codifica, campiona con ERNIE-Image e decodifica in un'immagine finale. Il percorso di potenziamento del prompt è incluso e attivabile in modo da poter confrontare i prompt originali rispetto a quelli potenziati senza cambiare il grafico.
Modelli chiave nel workflow Comfyui ERNIE-Image ComfyUI
- Modello di diffusione ERNIE-Image. Il generatore principale che denoisa i latents in immagini, ottimizzato per seguire le istruzioni e rendere il testo. Model card
- Encoder di testo Ministral-3-3B. L'encoder di testo primario che converte il tuo prompt in condizionamento per ERNIE-Image. File
- Potenziatore di Prompt ERNIE-Image. Un encoder ausiliario utilizzato dal ramo di potenziamento per espandere i prompt concisi in guida descrittiva. File
- Flux2 VAE. Il decoder che trasforma i latents dal campionatore in pixel preservando dettagli fini e testo leggibile. File
Come usare il workflow Comfyui ERNIE-Image ComfyUI
A un livello alto, il tuo prompt passa attraverso un passaggio di potenziamento opzionale, viene codificato, quindi campionato da ERNIE-Image in latents che vengono infine decodificati da Flux2 VAE e salvati. I gruppi sotto mappano direttamente al grafico così sai sempre dove regolare gli input.
Prompt
Scrivi ciò che vuoi vedere nel campo prompt di livello superiore del sottografo ERNIE-Image ComfyUI. Una formulazione chiara e direttiva funziona meglio per seguire le istruzioni e rendere il testo. Puoi includere testo tra virgolette che desideri venga disegnato nell'immagine. Il condizionamento positivo è costruito da questo prompt; il percorso negativo inizia vuoto quindi i risultati tendono ad essere fedeli a meno che non aggiungi i tuoi negativi in seguito.
Potenziamento del Prompt
Attiva o disattiva il percorso di potenziamento usando Enable prompt enhancement? (#76). Quando è attivo, il tuo breve riassunto è espanso da TextGenerate (#74) utilizzando il Potenziatore di Prompt ERNIE-Image caricato tramite Load CLIP (PE) (#91). Il potenziatore usa un'istruzione strutturata per arricchire il tuo prompt e passa anche la larghezza e l'altezza target per incoraggiare una composizione coerente. ComfySwitchNode (#75) indirizza il testo originale o potenziato a valle così puoi fare test A/B facilmente. Per ampia compatibilità il toggle è disattivato di default; attivalo una volta che il modello di potenziamento è presente.
Modello
Il workflow carica tre risorse: UNETLoader (#66) seleziona il modello di diffusione ERNIE-Image, CLIPLoader (#62) porta l'encoder di testo Ministral-3-3B, e VAELoader (#63) fornisce il Flux2 VAE. Questa combinazione è ciò che dà a ERNIE-Image ComfyUI una forte aderenza alle istruzioni e tipografia pulita. Se scambi un modello, mantieni il trio coordinato per evitare disallineamenti.
Dimensione Immagine
EmptyFlux2LatentImage (#71) definisce la tela. Imposta larghezza e altezza al rapporto d'aspetto che desideri; paesaggi, ritratti e grafica quadrata funzionano tutti. Queste dimensioni sono anche iniettate nel prompt di potenziamento quando il toggle è attivo, il che aiuta il modello a pianificare layout e posizionamento del testo. Dimensioni maggiori costano più calcolo; per anteprime rapide usa dimensioni più piccole, quindi ingrandisci successivamente se necessario.
Da Testo a Immagine
CLIPTextEncode (#67) trasforma il tuo prompt instradato in condizionamento positivo, mentre CLIPTextEncode (#72) fornisce il ramo negativo (lasciato vuoto di default). KSampler (#70) genera quindi latents usando il modello ERNIE-Image e il tuo condizionamento. Dopo il campionamento, VAEDecode (#65) converte i latents in pixel RGB. Tutto è cablato per una generazione con un clic, quindi una volta impostati i tuoi input, basta mettere in coda il lavoro e guardare l'anteprima.
Output
L'immagine è salvata da SaveImage (#73). La vedrai apparire nell'anteprima UI e nella tua directory di output. Usa semi consistenti quando confronti potenziamento attivo rispetto a disattivo per isolare l'effetto del ramo di testo.
Nodi chiave nel workflow Comfyui ERNIE-Image ComfyUI
KSampler (#70) Il generatore principale che controlla la traiettoria di diffusione. Regola steps per qualità rispetto a velocità, usa cfg per stringere o rilassare l'aderenza al prompt, e imposta un seed fisso per la riproducibilità tra varianti di prompt. Una guida più alta può affinare la conformità ma può ridurre la creatività; bilancia a piacere. Vedi i riferimenti al campionatore di ComfyUI per il comportamento generale. ComfyUI
UNETLoader (#66) Carica il modello di diffusione ERNIE-Image che effettivamente denoisa i latents in un'immagine. Mantieni questo impostato al checkpoint ERNIE-Image per beneficiare del seguire istruzioni e del rendering del testo. Se cambi modelli, aspettati cambiamenti nello stile e nella capacità tipografica. ERNIE-Image
CLIPLoader (#62) Fornisce l'encoder di testo Ministral-3-3B usato per il percorso di condizionamento principale. Cambiare encoder modifica come il linguaggio si mappa ai visuali; per un fedele seguire delle istruzioni, mantienilo allineato con lo stack ERNIE-Image. Questo nodo influisce su entrambi gli encoder positivi e negativi a valle. Ministral-3-3B file
VAELoader (#63) Fornisce il Flux2 VAE usato durante la decodifica. Un VAE abbinato preserva la fedeltà di colore e bordo e aiuta a mantenere nitido il testo reso. Usa questo quando generi con ERNIE-Image per i migliori risultati. Flux2 VAE file
EmptyFlux2LatentImage (#71) Inizializza una tela latente vuota alla risoluzione scelta. Questo imposta la dimensione finale dell'immagine e guida sottilmente il layout. Cambiare le dimensioni aggiornerà anche l'istruzione interna del potenziatore quando quel percorso è attivo.
CLIPTextEncode (#67) Codifica il prompt instradato finale in condizionamento positivo. Per migliorare il rendering del testo, includi le parole esatte che vuoi che appaiano tra virgolette e specifica la capitalizzazione se importante. Mantieni le istruzioni concise e concrete per la migliore conformità.
CLIPTextEncode (#72) Codifica il prompt negativo. È vuoto di default per mantenere gli output vicini al tuo intento. Se noti artefatti indesiderati, aggiungi alcuni termini negativi concisi qui.
TextGenerate (#74) Genera una descrizione espansa usando il Potenziatore di Prompt ERNIE-Image caricato da Load CLIP (PE) (#91). Utile per trasformare brevi riassunti in direzioni visive ricche che migliorano composizione e dettaglio. Mantieni il toggle di potenziamento disattivato per controllo letterale, attivo per varietà descrittiva. Prompt Enhancer file
ComfySwitchNode (#75) Instrada il prompt originale o potenziato in avanti basato su Enable prompt enhancement? (#76). Questo rende il test A/B banale senza cambiare connessioni. Usa un seed fisso quando confronti per isolare le differenze solo del prompt.
VAEDecode (#65) Decodifica il latente finale in un'immagine usando Flux2 VAE. Questo passaggio influenza fortemente colore, chiarezza e come bene si legge il testo piccolo. Mantienilo abbinato al Flux2 VAE dallo stack ERNIE-Image.
SaveImage (#73) Scrive l'immagine generata su disco e la espone nell'UI. Usa convenzioni di denominazione consistenti se intendi fare benchmark di più esecuzioni di ERNIE-Image ComfyUI.
Extra opzionali
- Per lettere nitide, metti le parole esatte tra virgolette e specifica suggerimenti di stile come "etichetta serif in grassetto" o "tag scritto a mano"; ERNIE-Image ComfyUI è ottimizzato per il rendering del testo.
- Usa direttive chiare come "foto prodotto centrata", "sfondo bianco" o "layout poster 2:3" così ERNIE-Image ComfyUI può seguire le istruzioni con precisione.
- Quando confronti il percorso del potenziatore, blocca il
seede cambia solo il toggle di potenziamento per vedere vere differenze A/B. - Scegli un rapporto d'aspetto che corrisponda alla scena; ERNIE-Image ComfyUI rispetterà i suggerimenti di dimensione e pianificherà il layout di conseguenza.
Riconoscimenti
Questo workflow implementa e si basa sui seguenti lavori e risorse. Ringraziamo calorosamente Comfy-Org per ERNIE-Image (file e risorse del modello riconfezionati), Baidu per il modello ERNIE-Image originale, e il team ComfyUI per l'esempio di workflow ERNIE-Image ComfyUI per i loro contributi e manutenzione. Per dettagli autorevoli, si prega di fare riferimento alla documentazione originale e ai repository linkati sotto.
Risorse
- ComfyUI/ERNIE-Image ComfyUI workflow source
- GitHub: comfy-org/docs
- Docs / Release Notes: ERNIE-Image ComfyUI workflow example
- Comfy-Org/ERNIE-Image
- GitHub: baidu/ERNIE-Image
- Hugging Face: Comfy-Org/ERNIE-Image
- Comfy-Org/ernie-image.safetensors
- GitHub: baidu/ERNIE-Image
- Hugging Face: ernie-image.safetensors
- Comfy-Org/ministral-3-3b.safetensors
- GitHub: baidu/ERNIE-Image
- Hugging Face: ministral-3-3b.safetensors
- Comfy-Org/ernie-image-prompt-enhancer.safetensors
- GitHub: baidu/ERNIE-Image
- Hugging Face: ernie-image-prompt-enhancer.safetensors
- Comfy-Org/flux2-vae.safetensors
- GitHub: baidu/ERNIE-Image
- Hugging Face: flux2-vae.safetensors
Nota: L'uso dei modelli, dataset e codice di riferimento è soggetto alle rispettive licenze e termini forniti dai loro autori e manutentori.




