ERNIE-Image ComfyUI: instruktionsempfindliches Text-zu-Bild mit scharfer Textrendering
Dieser ERNIE-Image ComfyUI Workflow verwandelt kurze Vorgaben in hochqualitative Bilder, die Anweisungen folgen und Text zuverlässig rendern. Er kombiniert das ERNIE-Image Diffusionsmodell von Comfy-Org mit einem starken Textencoder, einem optionalen Vorgabenverbesserer und einem modernen Flux2 VAE, um Details und Typografie zu bewahren.
Entworfen für schnelle Iteration, akzeptiert ERNIE-Image ComfyUI Ihre Vorgabe, erweitert sie optional für reichere Führung, kodiert sie, sampelt mit ERNIE-Image und dekodiert zu einem finalen Bild. Der Vorgabenverbesserungspfad ist enthalten und umschaltbar, sodass Sie originale versus erweiterte Vorgaben vergleichen können, ohne den Graphen zu ändern.
Schlüsselmodelle im Comfyui ERNIE-Image ComfyUI Workflow
- ERNIE-Image Diffusionsmodell. Der Kern-Generator, der Latenten in Bilder umwandelt, abgestimmt auf Instruktionsbefolgung und Textrendering. Model card
- Ministral-3-3B Textencoder. Der primäre Textencoder, der Ihre Vorgabe in Konditionierung für ERNIE-Image umwandelt. File
- ERNIE-Image Prompt Enhancer. Ein Hilfsencoder, der vom Erweiterungszweig verwendet wird, um prägnante Vorgaben in beschreibende Anleitungen zu erweitern. File
- Flux2 VAE. Der Dekoder, der Latenten vom Sampler in Pixel umwandelt, während feine Details und lesbarer Text bewahrt werden. File
Verwendung des Comfyui ERNIE-Image ComfyUI Workflows
Auf hoher Ebene fließt Ihre Vorgabe durch einen optionalen Erweiterungsschritt, wird kodiert, dann von ERNIE-Image in Latenten gesampelt, die schließlich von Flux2 VAE dekodiert und gespeichert werden. Die unten stehenden Gruppen entsprechen direkt dem Graphen, sodass Sie immer wissen, wo Sie Eingaben anpassen können.
Vorgabe
Schreiben Sie, was Sie im obersten prompt-Feld des ERNIE-Image ComfyUI Untergraphen sehen möchten. Klare, direktive Formulierungen funktionieren am besten für Instruktionsbefolgung und Textrendering. Sie können zitierten Text, den Sie im Bild gezeichnet haben möchten, einfügen. Die positive Konditionierung wird aus dieser Vorgabe aufgebaut; der negative Pfad beginnt leer, sodass Ergebnisse tendenziell treu sind, es sei denn, Sie fügen später Ihre eigenen Negativen hinzu.
Vorgabenverbesserung
Schalten Sie den Erweiterungspfad mit Enable prompt enhancement? (#76) ein oder aus. Wenn eingeschaltet, wird Ihre kurze Vorgabe von TextGenerate (#74) mit dem ERNIE-Image Prompt Enhancer, geladen über Load CLIP (PE) (#91), erweitert. Der Enhancer verwendet eine strukturierte Anweisung, um Ihre Vorgabe zu bereichern, und übergibt auch Zielbreite und -höhe, um eine kohärente Komposition zu fördern. ComfySwitchNode (#75) leitet entweder den Original- oder den erweiterten Text weiter, sodass Sie einfach A/B-Tests durchführen können. Für breite Kompatibilität ist der Schalter standardmäßig ausgeschaltet; aktivieren Sie ihn, sobald das Enhancermodell vorhanden ist.
Modell
Der Workflow lädt drei Assets: UNETLoader (#66) wählt das ERNIE-Image Diffusionsmodell aus, CLIPLoader (#62) bringt den Ministral-3-3B Textencoder ein, und VAELoader (#63) liefert den Flux2 VAE. Diese Kombination verleiht ERNIE-Image ComfyUI starke Instruktionsbefolgung und saubere Typografie. Wenn Sie ein Modell austauschen, halten Sie das Trio koordiniert, um Fehlanpassungen zu vermeiden.
Bildgröße
EmptyFlux2LatentImage (#71) definiert die Leinwand. Stellen Sie Breite und Höhe auf das gewünschte Seitenverhältnis ein; Landschaften, Porträts und quadratische Grafiken funktionieren alle. Diese Dimensionen werden auch in die Erweiterungsvorgabe injiziert, wenn der Schalter eingeschaltet ist, was dem Modell hilft, Layout und Textplatzierung zu planen. Größere Größen kosten mehr Rechenleistung; für schnelle Vorschauen verwenden Sie kleinere Dimensionen und skalieren dann bei Bedarf später hoch.
Text zu Bild
CLIPTextEncode (#67) wandelt Ihre geleitete Vorgabe in positive Konditionierung um, während CLIPTextEncode (#72) den negativen Zweig bereitstellt (standardmäßig leer gelassen). KSampler (#70) generiert dann Latenten unter Verwendung des ERNIE-Image Modells und Ihrer Konditionierung. Nach dem Samplen konvertiert VAEDecode (#65) Latenten in RGB-Pixel. Alles ist für eine Ein-Klick-Generierung verkabelt, sodass Sie, sobald Ihre Eingaben festgelegt sind, einfach den Job in die Warteschlange stellen und die Vorschau beobachten können.
Ausgabe
Das Bild wird von SaveImage (#73) gespeichert. Sie werden es in der UI-Vorschau und in Ihrem Ausgabeverzeichnis sehen. Verwenden Sie konsistente Seeds, wenn Sie die Verbesserung vergleichen, um den Effekt des Textzweigs zu isolieren.
Schlüsselnoten im Comfyui ERNIE-Image ComfyUI Workflow
KSampler (#70) Der Hauptgenerator, der die Diffusionstrajektorie steuert. Passen Sie steps für Qualität versus Geschwindigkeit an, verwenden Sie cfg, um die Vorgabenbefolgung zu straffen oder zu lockern, und setzen Sie einen festen seed für Reproduzierbarkeit über Vorgabenvarianten hinweg. Höhere Führung kann die Einhaltung schärfen, aber die Kreativität reduzieren; balancieren Sie nach Geschmack. Siehe ComfyUI’s Samplerreferenzen für allgemeines Verhalten. ComfyUI
UNETLoader (#66) Lädt das ERNIE-Image Diffusionsmodell, das tatsächlich Latenten in ein Bild entrauscht. Halten Sie dies auf das ERNIE-Image Checkpoint gesetzt, um von Instruktionsbefolgung und Textrendering zu profitieren. Wenn Sie Modelle wechseln, erwarten Sie Änderungen im Stil und der Typografiefähigkeit. ERNIE-Image
CLIPLoader (#62) Bietet den Ministral-3-3B Textencoder für den Hauptkonditionierungspfad. Das Austauschen von Encodern verändert, wie Sprache zu Visualisierungen abgebildet wird; für treue Instruktionsbefolgung halten Sie es mit dem ERNIE-Image Stack abgestimmt. Dieser Knoten beeinflusst sowohl positive als auch negative Encoder downstream. Ministral-3-3B file
VAELoader (#63) Stellt den Flux2 VAE für das Dekodieren bereit. Ein abgestimmter VAE bewahrt Farb- und Kantentreue und hilft, gerenderten Text scharf zu halten. Verwenden Sie dies bei der Generierung mit ERNIE-Image für beste Ergebnisse. Flux2 VAE file
EmptyFlux2LatentImage (#71) Initialisiert eine leere latente Leinwand in Ihrer gewählten Auflösung. Dies legt die endgültige Bildgröße fest und leitet subtil das Layout. Das Ändern der Dimensionen aktualisiert auch die interne Anweisung des Enhancers, wenn dieser Pfad aktiv ist.
CLIPTextEncode (#67) Kodiert die endgültige geleitete Vorgabe in positive Konditionierung. Um das Textrendering zu verbessern, fügen Sie die genauen Wörter, die im Bild erscheinen sollen, in Anführungszeichen ein und spezifizieren Sie die Großschreibung, wenn wichtig. Halten Sie Anweisungen prägnant und konkret für beste Einhaltung.
CLIPTextEncode (#72) Kodiert die negative Vorgabe. Sie ist standardmäßig leer, um die Ausgaben nah an Ihrer Absicht zu halten. Wenn Sie unerwünschte Artefakte bemerken, fügen Sie hier einige prägnante negative Begriffe hinzu.
TextGenerate (#74) Generiert eine erweiterte Beschreibung unter Verwendung des ERNIE-Image Prompt Enhancers, geladen von Load CLIP (PE) (#91). Nützlich, um kurze Vorgaben in reiche, visuelle Anleitungen zu verwandeln, die Komposition und Detail verbessern. Halten Sie den Erweiterungsschalter aus für wörtliche Kontrolle, an für beschreibende Vielfalt. Prompt Enhancer file
ComfySwitchNode (#75) Leitet entweder die originale oder erweiterte Vorgabe basierend auf Enable prompt enhancement? (#76) weiter. Dies macht A/B-Tests trivial, ohne Verbindungen zu ändern. Verwenden Sie einen festen seed, wenn Sie vergleichen, um reine Vorgabenunterschiede zu isolieren.
VAEDecode (#65) Dekodiert die endgültige latente in ein Bild unter Verwendung von Flux2 VAE. Dieser Schritt beeinflusst stark Farbe, Klarheit und wie gut kleiner Text lesbar ist. Halten Sie es mit dem Flux2 VAE vom ERNIE-Image Stack gepaart.
SaveImage (#73) Schreibt das generierte Bild auf die Festplatte und zeigt es in der UI an. Verwenden Sie konsistente Benennungskonventionen, wenn Sie mehrere ERNIE-Image ComfyUI Läufe benchmarken möchten.
Optionale Extras
- Für scharfe Buchstaben setzen Sie genaue Wörter in Anführungszeichen und geben Sie Stilhinweise wie "fetter Serifenschriftzug" oder "handschriftliches Etikett" an; ERNIE-Image ComfyUI ist für Textrendering optimiert.
- Verwenden Sie klare Anweisungen wie "zentriertes Produktfoto", "weißer Hintergrund" oder "2:3 Poster-Layout", damit ERNIE-Image ComfyUI Anweisungen präzise folgen kann.
- Wenn Sie den Erweiterungspfad vergleichen, sperren Sie den
seedund schalten Sie nur den Erweiterungsschalter um, um echte A/B-Unterschiede zu sehen. - Wählen Sie ein Seitenverhältnis, das zur Szene passt; ERNIE-Image ComfyUI wird Größenhinweise respektieren und das Layout entsprechend planen.
Danksagungen
Dieser Workflow implementiert und baut auf den folgenden Arbeiten und Ressourcen auf. Wir danken Comfy-Org für ERNIE-Image (umgepackte Modelfiles und Assets), Baidu für das originale ERNIE-Image Modell, und dem ComfyUI Team für das ERNIE-Image ComfyUI Workflow Beispiel für ihre Beiträge und Wartung. Für autoritative Details verweisen Sie bitte auf die originale Dokumentation und Repositories unten.
Ressourcen
- ComfyUI/ERNIE-Image ComfyUI Workflow Quelle
- GitHub: comfy-org/docs
- Docs / Release Notes: ERNIE-Image ComfyUI Workflow Beispiel
- Comfy-Org/ERNIE-Image
- GitHub: baidu/ERNIE-Image
- Hugging Face: Comfy-Org/ERNIE-Image
- Comfy-Org/ernie-image.safetensors
- GitHub: baidu/ERNIE-Image
- Hugging Face: ernie-image.safetensors
- Comfy-Org/ministral-3-3b.safetensors
- GitHub: baidu/ERNIE-Image
- Hugging Face: ministral-3-3b.safetensors
- Comfy-Org/ernie-image-prompt-enhancer.safetensors
- GitHub: baidu/ERNIE-Image
- Hugging Face: ernie-image-prompt-enhancer.safetensors
- Comfy-Org/flux2-vae.safetensors
- GitHub: baidu/ERNIE-Image
- Hugging Face: flux2-vae.safetensors
Hinweis: Die Verwendung der referenzierten Modelle, Datensätze und Codes unterliegt den jeweiligen Lizenzen und Bedingungen der Autoren und Maintainer.



