Dieser Workflow verwandelt Ihre Eingaben in scharfe, native 2048×2048-Renderings mit Hunyuan Image 2.1. Er kombiniert Tencent’s Diffusion Transformer mit dualen Text-Encodern, um die semantische Ausrichtung und die Textwiedergabequalität zu verbessern, dann wird effizient gesampelt und durch die passende hochkomprimierte VAE dekodiert. Wenn Sie produktionsreife Szenen, Charaktere und klaren Text in Bildern bei 2K benötigen, während Geschwindigkeit und Kontrolle erhalten bleiben, ist dieser ComfyUI Hunyuan Image 2.1-Workflow für Sie entwickelt.
Kreative, Artdirektoren und technische Künstler können mehrsprachige Eingaben vornehmen, einige Regler feinjustieren und konstant scharfe Ergebnisse erzielen. Das Diagramm wird mit einer sinnvollen negativen Eingabe, einer nativen 2K-Leinwand und einem FP8 UNet geliefert, um VRAM im Zaum zu halten und zu zeigen, was Hunyuan Image 2.1 direkt aus der Box liefern kann.
Das Diagramm folgt einem klaren Pfad von der Eingabe zu den Pixeln: Text mit zwei Encodern kodieren, eine native 2K latente Leinwand vorbereiten, mit Hunyuan Image 2.1 sampeln, durch die passende VAE dekodieren und das Ergebnis speichern.
DualCLIPLoader
(#33) lädt Qwen2.5‑VL‑7B und ByT5 Small, konfiguriert für Hunyuan Image 2.1. Diese duale Einrichtung lässt das Modell Szenensemantiken parsen, während es robust gegenüber Glyphen und mehrsprachigem Text bleibt.CLIPTextEncode
(#6) ein. Sie können auf Englisch oder Chinesisch schreiben, Kamera-Hinweise und Beleuchtung mischen und Text-in-Bild-Anweisungen einfügen.CLIPTextEncode
(#7) unterdrückt häufige Artefakte. Sie können es an Ihren Stil anpassen oder es so lassen, wie es ist, für ausgewogene Ergebnisse.EmptyHunyuanImageLatent
(#29) initialisiert die Leinwand bei 2048×2048 mit einem einzigen Batch. Hunyuan Image 2.1 ist für die 2K-Generierung ausgelegt, daher werden native 2K-Größen für beste Qualität empfohlen.UNETLoader
(#37) lädt den FP8-Checkpoint, um VRAM zu reduzieren, während die Treue erhalten bleibt, und füttert dann KSampler
(#3) zum Denoising.VAELoader
(#34) bringt die Hunyuan Image 2.1 VAE und VAEDecode
(#8) rekonstruiert das finale Bild aus dem gesampelten Latenten mit dem 32× Kompressionsschema des Modells.SaveImage
(#9) schreibt das Ergebnis in Ihr gewähltes Verzeichnis. Setzen Sie ein klares Dateinamenpräfix, wenn Sie über Seeds oder Eingaben hinweg iterieren möchten.DualCLIPLoader
(#33)Dieser Knoten lädt das Paar von Text-Encodern, das Hunyuan Image 2.1 erwartet. Halten Sie den Modelltyp für Hunyuan gesetzt und wählen Sie Qwen2.5‑VL‑7B und ByT5 Small, um starkes Szenenverständnis mit glyphenbewusster Texthandhabung zu kombinieren. Wenn Sie den Stil iterieren, passen Sie die positive Eingabe im Einklang mit der Anleitung an, anstatt die Encoder zu wechseln.
CLIPTextEncode
(#6 und #7)Diese Knoten verwandeln Ihre positiven und negativen Eingaben in Konditionierung. Halten Sie die positive Eingabe oben prägnant, fügen Sie dann Linsen-, Beleuchtungs- und Stilhinweise hinzu. Verwenden Sie die negative Eingabe, um Artefakte wie zusätzliche Gliedmaßen oder störenden Text zu unterdrücken; kürzen Sie es, wenn Sie es für Ihr Konzept als zu einschränkend empfinden.
EmptyHunyuanImageLatent
(#29)Definiert die Arbeitsauflösung und den Batch. Die Standardauflösung 2048×2048 stimmt mit Hunyuan Image 2.1’s nativer 2K-Fähigkeit überein. Für andere Seitenverhältnisse wählen Sie modellfreundliche Breite- und Höhe-Paare und erwägen Sie eine leichte Erhöhung der Schritte, wenn Sie sich weit vom Quadrat entfernen.
KSampler
(#3)Steuert den Denoising-Prozess mit Hunyuan Image 2.1. Erhöhen Sie die Schritte, wenn Sie feinere Mikrodetails benötigen, verringern Sie sie für schnelle Entwürfe. Erhöhen Sie die Anleitung für stärkere Eingabebindung, aber achten Sie auf Übersättigung oder Steifheit; verringern Sie sie für mehr natürliche Variation. Wechseln Sie die Seeds, um Kompositionen zu erkunden, ohne Ihre Eingabe zu ändern.
UNETLoader
(#37)Lädt das Hunyuan Image 2.1 UNet. Der enthaltene FP8-Checkpoint hält den Speicherverbrauch für 2K-Ausgaben bescheiden. Wenn Sie über reichlich VRAM verfügen und maximalen Spielraum für aggressive Einstellungen wünschen, sollten Sie eine höherpräzise Variante desselben Modells aus den offiziellen Veröffentlichungen in Betracht ziehen.
VAELoader
(#34) und VAEDecode
(#8)Diese Knoten müssen mit der Hunyuan Image 2.1-Veröffentlichung übereinstimmen, um korrekt zu dekodieren. Die hochkomprimierte VAE des Modells ist der Schlüssel zur schnellen 2K-Generierung; das richtige VAE-Paar vermeidet Farbverschiebungen und blockige Texturen. Wenn Sie das Basismodell ändern, aktualisieren Sie immer entsprechend die VAE.
Dieser Workflow implementiert und baut auf den folgenden Arbeiten und Ressourcen auf. Wir danken @Ai Verse und Hunyuan für Hunyuan Image 2.1 Demo für ihre Beiträge und Wartung. Für autoritative Details verweisen wir auf die Originaldokumentation und Repositories, die unten verlinkt sind.
Hinweis: Die Nutzung der referenzierten Modelle, Datensätze und des Codes unterliegt den jeweiligen Lizenzen und Bedingungen, die von ihren Autoren und Wartenden bereitgestellt werden.
RunComfy ist die führende ComfyUI Plattform, die ComfyUI online Umgebung und Services bietet, zusammen mit ComfyUI Workflows mit atemberaubenden Visualisierungen. RunComfy bietet auch AI-Spielplatz, Künstlern ermöglichen, die neuesten AI-Tools zu nutzen, um unglaubliche Kunst zu schaffen.