Z‑Image ist ein 6B‑Parameter Bildgenerierungsmodell von Tongyi‑MAI, das auf einem Scalable Single‑Stream Diffusion Transformer (S3‑DiT) basiert. Für seine Größe ist es ungewöhnlich effizient und wurde für die Ausführung bei 1024×1024 auf Consumer‑GPUs entwickelt.
Diese Anleitung zum Z-Image Turbo LoRA Training behandelt die zwei gängigsten, praxisnahen Ansätze für das Z‑Image Turbo LoRA trainieren:
1) Z‑Image Turbo (mit Training Adapter) — ideal, wenn Ihr LoRA nach dem Training mit echter 8‑Schritt Turbo‑Geschwindigkeit laufen soll.
2) Z‑Image De‑Turbo (De‑Distilled) — ideal, wenn Sie eine de‑destillierte Basis ohne Adapter trainieren oder längere Fine‑Tunes durchführen möchten.
Am Ende dieser Anleitung werden Sie in der Lage sein:
- Die richtige Z‑Image‑Basis (Turbo+Adapter vs De‑Turbo) für Ihr Ziel auszuwählen.
- Einen Datensatz vorzubereiten, der mit Turbo‑artigem destillierten Training funktioniert.
- Ostris AI Toolkit (lokal oder auf RunComfy Cloud AI Toolkit) Panel für Panel zu konfigurieren.
- Zu verstehen, warum jeder Parameter wichtig ist, damit Sie anpassen können, anstatt blind zu kopieren.
Dieser Artikel ist Teil der AI Toolkit LoRA Training Serie. Wenn Sie neu bei Ostris AI Toolkit sind, beginnen Sie mit der AI Toolkit LoRA Training Übersicht, bevor Sie sich in diese Anleitung vertiefen.
Schnellstart (empfohlene Basiskonfiguration)
Option A — Turbo + Training Adapter (für die meisten LoRAs empfohlen)
Verwenden Sie diese Option für das Z-Image Turbo LoRA Training, wenn Ihr LoRA nach dem Training das schnelle 8‑Schritt‑Verhalten von Turbo beibehalten soll.
Warum das wichtig ist:
- Turbo ist ein destilliertes "Schüler"‑Modell: Es komprimiert einen langsameren mehrstufigen Diffusionsprozess in ~8 Schritte.
- Wenn Sie auf Turbo wie auf ein normales Modell trainieren, können Ihre Updates die Destillation rückgängig machen ("Turbo‑Drift"), und Sie benötigen mehr Schritte / mehr CFG, um die gleiche Qualität zu erreichen.
- Der Training Adapter "de‑destilliert" Turbo vorübergehend während des Trainings, sodass Ihr LoRA Ihr Konzept erlernt, ohne Turbos 8‑Schritt‑Verhalten zu beeinträchtigen. Bei der Inferenz entfernen Sie den Adapter und behalten nur Ihr LoRA.
Basiseinstellungen:
- MODEL → Model Architecture:
Z‑Image Turbo (w/ Training Adapter) - MODEL → Name or Path:
Tongyi-MAI/Z-Image-Turbo - MODEL → Training Adapter Path:
- Behalten Sie den Standard bei, wenn Ihre UI ihn automatisch ausfüllt (RunComfy verwendet oft v2 als Standard), oder setzen Sie explizit:
- v1:
ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v1.safetensors - v2:
ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v2.safetensors - TARGET → Linear Rank:
16 - TRAINING → Learning Rate:
0.0001 - TRAINING → Steps:
2500–3000(für 10–30 Bilder) - DATASETS → Resolutions:
512 / 768 / 1024und Cache Latents = AN - SAMPLE (für Vorschauen):
1024×1024, 8 Schritte (oder9, wenn Ihre Pipeline 9 als "8 DiT‑Forwards" behandelt)- Guidance Scale = 0 (Turbo ist guidance‑destilliert)
- Sample alle
250Schritte
Option B — De‑Turbo (de‑destillierte Basis)
Verwenden Sie diese Option, wenn Sie ohne Training Adapter trainieren möchten oder längere Trainingsläufe planen.
Was sich im Vergleich zu Turbo ändert:
- De‑Turbo verhält sich beim Training und Sampling eher wie ein "normales" Diffusionsmodell.
- Sie samplen typischerweise mit mehr Schritten und niedrigem (aber nicht null) CFG.
- MODEL → Model Architecture:
Z‑Image De‑Turbo (De‑Distilled) - MODEL → Name or Path:
ostris/Z-Image-De-Turbo(oder was auch immer Ihre AI Toolkit Version vorauswählt) - Training Adapter Path: keine (nicht benötigt)
- Behalten Sie die gleichen LoRA‑Einstellungen (Rank/LR/Steps) als Basislinie bei.
- SAMPLE (für Vorschauen):
- 20–30 Schritte
- CFG (Guidance Scale) ≈ 2–3
- Sample alle
250Schritte
Möchten Sie keine Einrichtung? Nutzen Sie das RunComfy Cloud AI Toolkit und folgen Sie den exakt gleichen Panels.
Inhaltsverzeichnis
- 1. Welche Z‑Image‑Basis sollten Sie trainieren? (Turbo+Adapter vs De‑Turbo)
- 2. Z‑Image Training Adapter v1 vs v2 (was sich ändert, wann zu verwenden)
- 3. Z‑Image / Z‑Image‑Turbo im Überblick (für LoRA Training)
- 4. Wo Z‑Image trainieren: lokal vs Cloud AI Toolkit
- 5. Datensätze für Z‑Image LoRA Training gestalten
- 6. Z‑Image LoRA Konfiguration im AI Toolkit – Parameter für Parameter
- 7. Praktische Rezepte für Z‑Image LoRA Training
- 8. Fehlerbehebung (Turbo‑Drift, Überanpassung, VRAM, Sampling)
- 9. Export und Verwendung Ihres Z‑Image LoRA
- FAQ
1. Welche Z‑Image‑Basis sollten Sie trainieren? (Turbo+Adapter vs De‑Turbo)
AI Toolkit bietet zwei "Model Architecture" Auswahlmöglichkeiten für das Z-Image-Turbo LoRA Training:
1.1 Z‑Image Turbo (mit Training Adapter)
Am besten für: typische LoRAs (Charakter, Stil, Produkt), bei denen Ihr Endziel darin besteht, Inferenz auf Turbo mit 8 Schritten auszuführen.
Warum es existiert:
- Z‑Image Turbo ist ein schritt‑destilliertes Modell. Wenn Sie LoRAs auf einem schritt‑destillierten Modell "normal" trainieren, kann die Destillation schnell zusammenbrechen, und Turbo beginnt sich wie ein langsameres, nicht‑destilliertes Modell zu verhalten (Qualitätsverschiebungen, benötigt mehr Schritte usw.).
- Der Training Adapter fungiert während des Trainings wie ein temporäres "De‑Destillierungs‑LoRA". Ihr LoRA lernt Ihr Konzept, während Turbos schnelles 8‑Schritt‑Verhalten stabil bleibt.
- Zur Inferenzzeit entfernen Sie den Training Adapter und behalten Ihr LoRA auf der echten Turbo‑Basis.
Praktische Anzeichen, dass Sie den richtigen Pfad gewählt haben:
- Ihre Vorschau‑Samples sehen bei 8 Schritten mit Guidance ≈ 0 gut aus.
- Ihr LoRA benötigt nicht plötzlich 20–30 Schritte, um sauber auszusehen (ein häufiges Zeichen für Turbo‑Drift).
1.2 Z‑Image De‑Turbo (De‑Distilled)
Am besten für: Training ohne Adapter oder längere Fine‑Tunes, bei denen Turbo+Adapter irgendwann driften würde.
Was es ist:
- De‑Turbo ist eine de‑destillierte Version von Turbo, die sich beim Training eher wie ein normales Diffusionsmodell verhält.
- Es kann direkt ohne Adapter trainiert werden und auch für Inferenz verwendet werden (typischerweise 20–30 Schritte mit niedrigem CFG).
1.3 Schnelle Entscheidungshilfe
Wählen Sie Turbo + Training Adapter wenn:
- Sie möchten, dass das LoRA nach dem Training mit Turbo‑Geschwindigkeit (8 Schritte) läuft.
- Sie einen normalen LoRA‑Lauf durchführen (einige tausend bis zehntausende Schritte).
Wählen Sie De‑Turbo wenn:
- Sie "normales Modell"‑Verhalten für Training und Sampling wünschen.
- Sie länger trainieren möchten oder mit Workflows experimentieren, die den Training Adapter nicht sauber unterstützen.
2. Z‑Image Training Adapter v1 vs v2 (was sich ändert, wann zu verwenden)
Im Training Adapter Repository sehen Sie oft zwei Dateien:
..._v1.safetensors..._v2.safetensors
Was Sie wissen müssen (praktisch):
- v1 ist die sichere Basislinie.
- v2 ist eine neuere Variante, die Trainingsdynamik und Ergebnisse verändern kann.
Empfehlung: Behandeln Sie dies als A/B‑Test:
- Halten Sie Datensatz, LR, Steps, Rank identisch
- Trainieren Sie einmal mit v1, einmal mit v2
- Vergleichen Sie Sample‑Grids bei denselben Checkpoints
Wenn Ihre RunComfy UI standardmäßig v2 verwendet und Ihr Training stabil aussieht, behalten Sie es bei. Wenn Sie Instabilität sehen (Rauschen, Turbo‑Drift, seltsame Artefakte), wechseln Sie zu v1.
3. Z‑Image / Z‑Image‑Turbo im Überblick (für LoRA Training)
Aus den offiziellen Z‑Image Quellen:
- 6B Parameter, S3‑DiT Architektur — Text‑Tokens, visuelle semantische Tokens und VAE‑Latents werden zu einem einzigen Transformer‑Stream verkettet.
- Modellfamilie — Turbo, Base und Edit Varianten existieren in der Z‑Image Serie.
- Turbo‑Spezifika — optimiert für schnelle Inferenz; Guidance ist typischerweise 0 für Turbo‑Inferenz.
Ein hilfreiches mentales Modell für LoRA Training:
- High‑Noise‑Zeitschritte steuern hauptsächlich die Komposition (Layout, Pose, globaler Farbton).
- Low‑Noise‑Zeitschritte steuern hauptsächlich Details (Gesichter, Hände, Texturen).
Deshalb können Zeitschritteinstellungen und Bias merklich verändern, ob sich ein LoRA wie "globaler Stil" vs "Identität/Detail" anfühlt.
4. Wo Z‑Image trainieren: lokal vs Cloud AI Toolkit
4.1 Lokales AI Toolkit
Das AI Toolkit von Ostris ist Open Source auf GitHub. Es unterstützt das AI Toolkit Z-Image Turbo LoRA Training, FLUX, Wan, Qwen und mehr durch ein einheitliches UI und Konfigurationssystem.
Lokal macht Sinn, wenn:
- Sie bereits eine NVIDIA GPU haben und Python / Git Setup nicht scheuen.
- Sie volle Kontrolle über Dateien, Logs und benutzerdefinierte Änderungen möchten.
Repo: ostris/ai-toolkit
4.2 RunComfy Cloud AI Toolkit
Wenn Sie lieber CUDA‑Installationen und Treiberprobleme überspringen möchten, nutzen Sie das RunComfy Cloud AI Toolkit:
- Keine Einrichtung — öffnen Sie einen Browser und trainieren Sie.
- Konsistenter VRAM — einfacheres Befolgen von Anleitungen ohne Hardware‑Reibung.
- Persistenter Speicher — einfachere Iteration und Checkpoint‑Verwaltung.
👉 Hier öffnen: Cloud AI Toolkit auf RunComfy
5. Datensätze für Z‑Image LoRA Training gestalten
5.1 Wie viele Bilder brauchen Sie wirklich?
- 10–30 Bilder ist ein guter Bereich für die meisten Charakter‑ oder Stil‑LoRAs.
- Über ~50 Bilder treffen Sie oft auf abnehmende Erträge, es sei denn, Ihr Stilbereich ist sehr breit.
Z‑Image lernt stark von Gradienten ("lernt heiß"), daher sind Datensatzqualität und Vielfalt wichtiger als die reine Bildanzahl:
- Zu wenige Bilder + zu viel Training zeigt sich oft als überangepasste Gesichter, wiederholte Posen oder chaotische Hintergründe.
- Ein kleiner, aber vielfältiger Datensatz (Winkel, Beleuchtung, Hintergründe) generalisiert tendenziell besser als ein großer, repetitiver.
5.2 Charakter- vs Stil‑LoRAs
Charakter‑LoRA
- Streben Sie 12–30 Bilder desselben Subjekts an.
- Mischen Sie Nahaufnahmen und Ganzkörper, Winkel, Beleuchtung, Outfits.
- Beschriftungen können wörtlich und konsistent sein; optionales Trigger‑Token.
Stil‑LoRA
- Streben Sie 15–40 Bilder über verschiedene Motive hinweg an (Menschen, Innenräume, Landschaften, Objekte).
- Beschriften Sie die Szene normal; überbeschreiben Sie den Stil nicht, es sei denn, Sie möchten, dass er nur per Trigger aufrufbar ist.
- Dies lehrt: "rendere alles in diesem Stil", anstatt "mache den Stil nur, wenn ich ein spezielles Schlüsselwort sage."
5.3 Beschriftungen, Trigger‑Wort und Textdateien
image_01.png→image_01.txt- Wenn es keine
.txtgibt, verwendet AI Toolkit die Default Caption. - Sie können
[trigger]in Beschriftungen verwenden und Trigger Word im JOB Panel setzen. - Dies ist besonders nützlich, wenn Sie später DOP (Differential Output Preservation) aktivieren, um das LoRA mehr "opt‑in" zu machen.
6. Z‑Image LoRA Konfiguration im AI Toolkit – Parameter für Parameter
In diesem Abschnitt gehen wir die UI‑Panels durch und erklären, was jedes wichtige Feld beim Z-Image Turbo LoRA trainieren bewirkt.
6.1 JOB Panel
- Training Name — beschreibendes Label wie
zimage_char_rothaar_v1 - GPU ID — lokaler GPU‑Selektor; in der Cloud Standardwert beibehalten
- Trigger Word (optional) —
zchar_rothaar/zstyle_bleistift
6.2 MODEL Panel (am wichtigsten)
Hier sind die zwei Basiswahlmöglichkeiten entscheidend:
Wenn Sie Turbo + Adapter wählen
- Model Architecture —
Z‑Image Turbo (w/ Training Adapter) - Name or Path —
Tongyi-MAI/Z-Image-Turbo - Dies ist die Hugging Face Model ID (Repo‑ID). In den meisten AI Toolkit Builds wird das Auswählen der Model Architecture dies automatisch ausfüllen; lassen Sie es so, es sei denn, Sie haben einen Grund, es zu ändern.
- Wenn Sie es überschreiben, verwenden Sie das Hugging Face Repo‑ID Format:
org-oder-user/model-name(optionalorg-oder-user/model-name@revision). - Training Adapter Path — Standard beibehalten oder wählen:
- v1:
ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v1.safetensors - v2:
ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v2.safetensors
Tipp: Wenn Sie versehentlich Turbo ohne den Adapter trainieren, ist das häufigste Symptom, dass Ihr LoRA nur "funktioniert", wenn Sie Steps/CFG erhöhen, was den Sinn von Turbo verfehlt.
Wenn Sie De‑Turbo wählen
- Model Architecture —
Z‑Image De‑Turbo (De‑Distilled) - Name or Path —
ostris/Z-Image-De-Turbo - Dies ist die Hugging Face Model ID (Repo‑ID). In den meisten AI Toolkit Builds wird das Auswählen der Model Architecture dies automatisch ausfüllen; lassen Sie es so, es sei denn, Sie haben einen Grund, es zu ändern.
- Wenn Sie es überschreiben, verwenden Sie das Hugging Face Repo‑ID Format:
org-oder-user/model-name(optionalorg-oder-user/model-name@revision). - Training Adapter Path — keine
Optionen:
- Low VRAM / Layer Offloading — aktivieren, wenn Sie VRAM‑beschränkt sind
6.3 QUANTIZATION Panel
- Bei 24+ GB, bevorzugen Sie
BF16/nonefür Genauigkeit - Bei 16 GB, ist
float8normalerweise der beste Kompromiss
6.4 TARGET Panel – LoRA Konfiguration
- Target Type —
LoRA - Linear Rank — beginnen Sie mit
8–16 16für stärkere Stile/Texturen8für kleinere, subtilere LoRAs
6.5 SAVE Panel
- Data Type —
BF16 - Save Every —
250 - Max Step Saves to Keep —
4–12
6.6 TRAINING Panel – Kern‑Hyperparameter
- Batch Size —
1 - Optimizer —
AdamW8Bit - Learning Rate — beginnen Sie bei
0.0001Wenn instabil/verrauscht, senken Sie auf
0.00005–0.00008.Vermeiden Sie es, zu hoch zu gehen (z.B.
0.0002+) — Turbo‑artige Modelle können schnell instabil werden. - Weight Decay —
0.0001 - Steps —
2500–3000für 10–30 BilderWenn Ihr Datensatz sehr klein ist (<10 Bilder), erwägen Sie
1500–2200, um Überanpassung zu reduzieren. - Loss Type —
Mean Squared Error - Timestep Type —
Weighted - Timestep Bias —
Balanced - Bevorzugen Sie High Noise, wenn Sie einen stärkeren globalen Stil / Stimmung möchten.
- Bevorzugen Sie Low Noise, wenn Sie Identität/Detail verfolgen (fortgeschritten; beginnen Sie mit Balanced).
- EMA — AUS
Text Encoder:
- Cache Text Embeddings — AN, wenn Beschriftungen statisch sind und VRAM knapp ist
(dann Caption Dropout auf 0 setzen)
- Unload TE — AUS lassen für beschriftungsgesteuertes Training
Regularisierung:
- DOP — AUS für den ersten Lauf; später für Produktions‑Trigger‑only LoRAs hinzufügen
(DOP ist mächtig, fügt aber Komplexität hinzu; am einfachsten, wenn Sie bereits eine stabile Basislinie haben.)
6.7 DATASETS Panel
- Caption Dropout Rate
0.05wenn Text‑Embeddings nicht gecacht werden0wenn Embeddings gecacht werden- Cache Latents — AN
- Resolutions —
512 / 768 / 1024ist eine starke Basislinie
6.8 SAMPLE Panel (an Ihre Basis anpassen!)
Wenn Sie Turbo trainieren:
1024×1024, 8 Schritte, Guidance = 0, Sample alle250
Wenn Sie De‑Turbo trainieren:
1024×1024, 20–30 Schritte, CFG 2–3, Sample alle250
Verwenden Sie 5–10 Prompts, die reale Nutzung widerspiegeln; fügen Sie ein paar Prompts ohne den Trigger ein, um Leakage zu erkennen.
6.9 ADVANCED Panel – Differential Guidance (optional)
- Do Differential Guidance — AN, wenn Sie schnellere Konvergenz möchten
- Scale — beginnen Sie bei
3Wenn Samples früh überscharf/verrauscht aussehen, reduzieren Sie auf
2. Wenn das Lernen langsam ist, können Sie später4testen.
7. Praktische Rezepte für Z‑Image LoRA Training
Eine starke Basislinie für Turbo LoRAs:
- Turbo + Training Adapter (v1 oder v2)
rank=16,lr=1e-4,steps=2500–3000512/768/1024Buckets, Cache Latents AN- Samples alle 250 Schritte, 8 Schritte, Guidance 0
Wenn Ihr LoRA "zu stark" wirkt:
- Behalten Sie das Training gleich, aber planen Sie, Inferenz mit einem niedrigeren LoRA‑Gewicht auszuführen (z.B.
0.6–0.8).
8. Fehlerbehebung
"Mein LoRA hat Turbo zerstört — jetzt brauche ich mehr Steps / CFG."
- Häufigste Ursachen:
- auf Turbo ohne den Training Adapter trainiert, oder
- LR zu hoch für zu lange.
- Lösung:
- Turbo + Training Adapter Architektur verwenden
- LR ≤ 1e‑4 halten
- Steps reduzieren, wenn Sie früh Drift sehen
"Der Stil ist zu stark."
- LoRA‑Gewicht bei Inferenz senken (0.6–0.8)
- Trigger + DOP für Produktions‑LoRAs verwenden (Opt‑in Verhalten)
"Hände/Hintergründe sind chaotisch."
- Ein paar Bilder hinzufügen, die diese Fälle einschließen
- Erwägen Sie, Low‑Noise‑Zeitschritte leicht zu bevorzugen (fortgeschritten)
"Kein VRAM / zu langsam."
- Hohe Buckets deaktivieren (512–1024 behalten)
- Low VRAM + Offloading aktivieren
- Auf float8 quantisieren
- Latents cachen (und optional Text‑Embeddings cachen)
9. Verwenden Sie Ihr Z‑Image LoRA
- Model Playground — testen Sie Ihr LoRA auf dem Basismodell über den Z‑Image Turbo LoRA Playground
- ComfyUI Workflows — laden Sie Ihr LoRA in einen Workflow wie Z‑Image Workflow in ComfyUI
FAQ
Sollte ich beim Z-Image Turbo LoRA Training den v1 oder v2 Adapter verwenden?
Beginnen Sie mit dem Standard Ihrer UI. Wenn Ergebnisse instabil sind oder Sie Z‑Image Turbo Drift sehen, testen Sie die andere Version mit allen anderen Einstellungen gleich.
Sollte ich Z‑Image auf Turbo+Adapter oder De‑Turbo trainieren?
Turbo+Adapter für die meisten Z‑Image LoRAs, die 8‑Schritt Turbo‑Verhalten behalten müssen. De‑Turbo, wenn Sie adapterfreies Training oder längere Fine‑Tunes möchten.
Welche Z‑Image Inferenz‑Einstellungen sollte ich nach dem Training verwenden?
Z‑Image Turbo verwendet typischerweise niedrige/keine CFG und ~8 Schritte. De‑Turbo verhält sich eher wie ein normales Modell (20–30 Schritte, niedriger CFG). Passen Sie Ihre Sampling‑Einstellungen immer an die Basis an, die Sie tatsächlich verwenden.
Weitere AI Toolkit LoRA Training Anleitungen
- FLUX.2 Dev LoRA Training mit AI Toolkit
- Qwen-Image-Edit-2511 LoRA Training mit AI Toolkit
- Qwen-Image-Edit-2509 LoRA Training mit AI Toolkit
- Wan 2.2 I2V 14B Image-to-Video LoRA Training
- Wan 2.2 T2V 14B Text-to-Video LoRA Training
- LTX-2 LoRA-Training mit AI Toolkit
- Qwen Image 2512 LoRA-Training mit AI Toolkit
Ready to start training?

