Ideogram 4 ComfyUI Workflow: Strukturierter Text-zu-Bild mit präzisem Layout und Typografie#
Dieser Ideogram 4 ComfyUI Workflow ist eine kompakte, RunComfy-bereite Vorlage für Ideogram 4.0, ein Open-Weights Text-zu-Bild-Modell, das für Design, Layoutkontrolle und zuverlässigen Text im Bild entwickelt wurde. Es wandelt strukturierte JSON-Untertitel in Bilder mit Szenenzusammenfassungen, Stilblöcken, normalisierten Begrenzungsrahmen und Hex-Farbpaletten um, was es ideal für Poster, Markenkompositionen, typografielastige Grafiken und layout-bewusste Illustrationen macht.
Der Graph liefert eine saubere, einspurige Text-zu-Bild-Pipeline plus einen optionalen On-Graph JSON Eingabebuilder. Wenn Sie bereits JSON-Eingaben schreiben, fügen Sie sie ein und rendern Sie sofort; wenn Sie lieber mit einer kurzen Idee beginnen, kann der LLM-Helfer einen schema-korrekten Untertitel entwerfen, den Sie in den Generator einfügen können. Im Hintergrund folgt der Workflow dem Flow-Matching-DiT-Sampling von Ideogram 4 mit asymmetrischer Klassifikator-freier Führung.
Schlüsselmodelle im Comfyui Ideogram 4 ComfyUI Workflow#
- Ideogram 4 (FP8). Der 9.3B-Parameter Diffusion Transformer, trainiert mit Flow-Matching, entwickelt für JSON-geführte Generierung, starke Textrendering und explizite Layoutkontrolle. Offizielle Modellkarte: ideogram-ai/ideogram-4-fp8. Inferenzcode: ideogram-oss/ideogram4.
- Ideogram 4 Unconditional Branch. Ein gepaarter unbedingter Checkpoint, der für asymmetrische Klassifikator-freie Führung während des Samplings verwendet wird; verpackt für ComfyUI zusammen mit dem Hauptmodell: Comfy-Org/Ideogram-4.
- Qwen3-VL-8B-Instruct (FP8). Ein Vision-Language-Encoder, der als Text-Encoder verwendet wird und mehrskalige semantische Merkmale aus der Eingabe bereitstellt: Qwen/Qwen3-VL-8B-Instruct-FP8 (ComfyUI Repack: Comfy-Org/Qwen3-VL).
- FLUX.2 VAE. Der Decoder, der verwendet wird, um abgetastete Latents in finale Bilder zu verwandeln, verpackt für ComfyUI: Comfy-Org/flux2-dev.
Wie man den Comfyui Ideogram 4 ComfyUI Workflow verwendet#
Gesamte Logik: Wählen Sie eine Leinwand, geben Sie eine Eingabe an (idealerweise strukturiertes JSON), wählen Sie ein Sampler-Preset (Default, Quality, Turbo) und rendern Sie dann. Der Haupt-"Text zu Bild (Ideogram v4)"-Teilgraph führt Codierung, Führung, Sampling und Decodierung in einem Durchgang aus; eine optionale "LLM Eingabe-Builder"-Gruppe kann JSON für Sie entwerfen.
- Leinwand und Seitenverhältnis:
ResolutionSelector(#37)- Wählen Sie ein Preset wie 1:1, 16:9 oder 9:16. Der Workflow berechnet gültige Dimensionen für Ideogram 4 (Vielfache von 16 mit sinnvollen Mindestwerten) und überträgt diese an den Sampler und VAE. Dies ermöglicht es Ihnen, alles von quadratischen Thumbnails bis zu hohen Postern ohne manuelle Mathematik zu zielen. Ändern Sie jederzeit; der Scheduler passt sich an Ihre gewählte Auflösung an.
- Eingabe und JSON-Untertitel:
CLIP Text Encode (Positive Prompt)(#24)- Fügen Sie natürliche Sprache oder, für beste Ergebnisse, einen strukturierten JSON-Untertitel ein, der dem Schema von Ideogram 4 folgt. Verwenden Sie
high_level_description, einenstyle_description-Block (mitcolor_paletteals Großbuchstaben-Hex-Codes) und einencompositional_deconstruction-Abschnitt. Begrenzungsrahmen sind auf einem 0–1000 Gitter mit der Reihenfolge[y_min, x_min, y_max, x_max]und Ursprung oben links normalisiert; fügen Sietype: "text"-Elemente hinzu, um wörtlichen Text im Bild darzustellen. Das Modell ist empfindlich gegenüber der Reihenfolge der Schlüssel; siehe den offiziellen Leitfaden in docs/prompting.md.
- Fügen Sie natürliche Sprache oder, für beste Ergebnisse, einen strukturierten JSON-Untertitel ein, der dem Schema von Ideogram 4 folgt. Verwenden Sie
- Preset-Modus (Geschwindigkeit vs. Qualität): „Preset“-Gruppe innerhalb des Teilgraphs
- Wählen Sie einen Modus im
mode-Eingang des Teilgraphs: Default (ausgewogen), Quality (mehr Schritte und Treue) oder Turbo (weniger Schritte und schnellstes Feedback). Der Workflow analysiert eine kleine interne Preset-Tabelle und leitet die passenden Schrittanzahl und Planungsparameter an den Scheduler weiter. Wechseln Sie Presets, um schnell zu iterieren, und beenden Sie dann mit höherer Qualität.
- Wählen Sie einen Modus im
- Sampling und Führung: „Sampling“-Gruppe innerhalb des Teilgraphs
- Die Pipeline verwendet Flow-Matching-Sampling mit einem gepaarten unbedingten Zweig für asymmetrische Klassifikator-freie Führung. Der
DualModelGuidermischt bedingte und unbedingte Vorhersagen, währendIdeogram4Schedulerden Rauschplan für Ihre gewählte Größe und Preset formt.KSamplerSelectwählt den Algorithmus undSamplerCustomAdvancedführt den Denoising-Durchlauf vor der Decodierung aus.
- Die Pipeline verwendet Flow-Matching-Sampling mit einem gepaarten unbedingten Zweig für asymmetrische Klassifikator-freie Führung. Der
- Modelle (vorgekabelt): „Models“-Gruppe innerhalb des Teilgraphs
- Der Graph lädt das Haupt-Ideogram-4-Modell, seinen unbedingten Partner, den Qwen3-VL-Text-Encoder und das FLUX.2 VAE. Diese sind in den Guider, Sampler und Decoder verkabelt. Normalerweise müssen Sie diese nicht ändern, aber das Austauschen von Modellen ist möglich, wenn Sie mit Varianten experimentieren, die für ComfyUI verpackt sind.
- Optional: On-Graph JSON Entwurf:
JSON Prompt Builder (Gemma4)(#134)- Wählen Sie die „LLM Eingabe-Builder (Auswählen und Ctrl+B zum Aktivieren)“-Gruppe, um sie einzuschalten. Geben Sie eine kurze Idee in das
user_prompt-Feld ein; der Knoten entwirft einen schema-korrekten JSON-Untertitel, den Sie mitPreviewAny(#111) anzeigen können. Kopieren Sie das generierte JSON in den Haupt-prompt-Eingang für den Bild-Teilgraph.
- Wählen Sie die „LLM Eingabe-Builder (Auswählen und Ctrl+B zum Aktivieren)“-Gruppe, um sie einzuschalten. Geben Sie eine kurze Idee in das
- Ausgabe:
SaveImage(#158)- Bilder werden in einem Ordner gespeichert, der nach der Modellversion benannt ist. Benennen Sie das Präfix um, wenn Sie Ausgaben von verschiedenen Presets oder Seitenverhältnissen getrennt halten möchten.
Schlüsselknoten im Comfyui Ideogram 4 ComfyUI Workflow#
CLIP Text Encode (Positive Prompt)(#24)- Kodiert die Eingabe mit Qwen3-VL für Ideogram 4. Verwenden Sie strukturiertes JSON für Layoutkontrolle, expliziten Text im Bild und Palettensteuerung. Halten Sie die Reihenfolge der Schlüssel stabil und verwenden Sie
[y_min, x_min, y_max, x_max]mit Werten auf einem 0–1000 Gitter fürbbox-Einträge; dies entspricht dem dokumentierten Schema des Modells in docs/prompting.md.
- Kodiert die Eingabe mit Qwen3-VL für Ideogram 4. Verwenden Sie strukturiertes JSON für Layoutkontrolle, expliziten Text im Bild und Palettensteuerung. Halten Sie die Reihenfolge der Schlüssel stabil und verwenden Sie
UNETLoader(#23)- Lädt den Haupt-Ideogram-4-Checkpoint, der bedingtes Denoising durchführt. Dies ist das Rückgrat, das Ihre kodierte Eingabe in Bilder übersetzt; lassen Sie es als die offizielle Veröffentlichung für die konsistentesten Ergebnisse: ideogram-ai/ideogram-4-fp8.
UNETLoader(#154)- Lädt den unbedingten Ideogram-4-Checkpoint, der für asymmetrische Klassifikator-freie Führung verwendet wird. Durch die Paarung mit dem Hauptmodell kann der Guider die Einhaltung der Eingabe und die allgemeine Bildqualität separat steuern: Comfy-Org/Ideogram-4.
DualModelGuider(#155)- Kombiniert bedingte und unbedingte Vorhersagen, um asymmetrische Klassifikator-freie Führung zu implementieren. Passen Sie die Führungsstärke nur an, wenn Sie die Kompromisse verstehen: Zu wenig schwächt die Eingabetreue; zu viel kann überscharfen oder verzerren. Wenn Sie Presets ändern, überprüfen Sie die Führung, um ein ähnliches „Gefühl“ zu bewahren.
Ideogram4Scheduler(#17)- Produziert den Rauschplan und die Schrittanzahl, die für Ideogram 4 bei Ihrer gewählten Breite und Höhe spezialisiert sind. Die „Preset“-Gruppe füttert ihm die passenden Schritte und Planungsparameter; verwenden Sie Quality für endgültige Renderings, Turbo für Entwürfe und Default für die tägliche Arbeit.
SamplerCustomAdvanced(#12)- Führt den Denoising-Durchlauf mit dem ausgewählten Sampler und den
sigmasdes Schedulers aus. Lassen Sie dies unverändert, es sei denn, Sie vergleichen absichtlich Sampler-Familien; wenn Sie Sampler austauschen, halten Sie Auflösung und Preset fest, um A/B-Vergleiche sinnvoll zu machen.
- Führt den Denoising-Durchlauf mit dem ausgewählten Sampler und den
CFGOverride(#157)- Bietet einen feinkörnigen Regler dafür, wie Konditionierung während des Samplings angewendet wird. Die meisten Nutzer können dies ignorieren und sich auf die Presets verlassen; falls Sie es anpassen, machen Sie kleine Änderungen und bewerten Sie erneut bei mehreren Eingaben, um ein Überanpassen des Sampler-Verhaltens an eine einzige Szene zu vermeiden.
VAELoader(#9) undVAEDecode(#13)- Laden und wenden das FLUX.2 VAE an, um abgetastete Latents in endgültige Bilder zu dekodieren. Behalten Sie das offizielle VAE, um Farbmetrik und Detailbalance zu bewahren, es sei denn, Sie testen Alternativen: Comfy-Org/flux2-dev.
Optionale Extras#
- Verwenden Sie
type: "text"-Elemente in Ihrem JSON, um exakte Wortlaute im Bild darzustellen; halten Sie Zeichenfolgen prägnant und platzieren Sie sie mit einem dediziertenbbox. - Beginnen Sie mit 3–6 Farben in
style_description.color_palette(Großbuchstaben-Hex) und fügen Sie pro Element Paletten nur hinzu, wenn Sie lokale Überschreibungen benötigen. - Denken Sie beim Layout in Dritteln: Variieren Sie
bbox-Größen und -Positionen, um Tiefe zu schaffen; sich nicht überlappende Boxen reduzieren Kollisionen. - Sperren Sie den Rausch-Seed, um eine Komposition zu reproduzieren; ändern Sie ihn, um Variationen zu erkunden, ohne Ihr JSON zu ändern.
- Wenn Sie „Bild durch Sicherheitsfilter blockiert“ sehen, kommt diese Antwort vom Modell selbst; passen Sie den Inhalt auf sichere, schema-konsistente Eingaben an. Für vollständige Details siehe die Modellkarte: ideogram-ai/ideogram-4-fp8.
Danksagungen#
Dieser Workflow implementiert und baut auf den folgenden Arbeiten und Ressourcen auf. Wir danken Comfy-Org für die ComfyUI Day 0 Support-Ankündigung und die Workflow-Vorlage für Ideogram 4, Comfy-Org für die Ideogram-4-Modellkarte und ideogram-oss für das Open-Source Ideogram 4 Repository für ihre Beiträge und Pflege. Für autoritative Details verweisen Sie bitte auf die Originaldokumentation und -repositories, die unten verlinkt sind.
Ressourcen#
- Comfy-Org/Comfy Blog-Ankündigung
- Docs / Release Notes: Ideogram 4 Day 0 Support in ComfyUI
- Comfy-Org/Comfy Workflow-Vorlage
- Comfy-Org/Ideogram 4 ComfyUI Modellkarte
- Hugging Face: Comfy-Org/Ideogram-4
- ideogram-oss/Ideogram 4 Open-Source Repository
- GitHub: ideogram-oss/ideogram4
Hinweis: Die Nutzung der referenzierten Modelle, Datensätze und Codes unterliegt den jeweiligen Lizenzen und Bedingungen der Autoren und Pflegepersonen.










