Z-Image LoRA-Training (Z-Image Turbo + De-Turbo) mit Ostris AI Toolkit

Z‑Image ist ein 6B‑Parameter Bildgenerierungsmodell von Tongyi‑MAI, das auf einem Scalable Single‑Stream Diffusion Transformer (S3‑DiT) basiert. Für seine Größe ist es ungewöhnlich effizient und wurde für die Ausführung bei 1024×1024 auf Consumer‑GPUs entwickelt.

Diese Anleitung zum Z-Image Turbo LoRA Training behandelt die zwei gängigsten, praxisnahen Ansätze für das Z‑Image Turbo LoRA trainieren:

1) Z‑Image Turbo (mit Training Adapter) — ideal, wenn Ihr LoRA nach dem Training mit echter 8‑Schritt Turbo‑Geschwindigkeit laufen soll.

2) Z‑Image De‑Turbo (De‑Distilled) — ideal, wenn Sie eine de‑destillierte Basis ohne Adapter trainieren oder längere Fine‑Tunes durchführen möchten.

Am Ende dieser Anleitung werden Sie in der Lage sein:

Die richtige Z‑Image‑Basis (Turbo+Adapter vs De‑Turbo) für Ihr Ziel auszuwählen.
Einen Datensatz vorzubereiten, der mit Turbo‑artigem destillierten Training funktioniert.
Ostris AI Toolkit (lokal oder auf RunComfy Cloud AI Toolkit) Panel für Panel zu konfigurieren.
Zu verstehen, warum jeder Parameter wichtig ist, damit Sie anpassen können, anstatt blind zu kopieren.

Dieser Artikel ist Teil der AI Toolkit LoRA Training Serie. Wenn Sie neu bei Ostris AI Toolkit sind, beginnen Sie mit der AI Toolkit LoRA Training Übersicht, bevor Sie sich in diese Anleitung vertiefen.

Schnellstart (empfohlene Basiskonfiguration)

Option A — Turbo + Training Adapter (für die meisten LoRAs empfohlen)

Verwenden Sie diese Option für das Z-Image Turbo LoRA Training, wenn Ihr LoRA nach dem Training das schnelle 8‑Schritt‑Verhalten von Turbo beibehalten soll.

Warum das wichtig ist:

Turbo ist ein destilliertes "Schüler"‑Modell: Es komprimiert einen langsameren mehrstufigen Diffusionsprozess in ~8 Schritte.
Wenn Sie auf Turbo wie auf ein normales Modell trainieren, können Ihre Updates die Destillation rückgängig machen ("Turbo‑Drift"), und Sie benötigen mehr Schritte / mehr CFG, um die gleiche Qualität zu erreichen.
Der Training Adapter "de‑destilliert" Turbo vorübergehend während des Trainings, sodass Ihr LoRA Ihr Konzept erlernt, ohne Turbos 8‑Schritt‑Verhalten zu beeinträchtigen. Bei der Inferenz entfernen Sie den Adapter und behalten nur Ihr LoRA.

Basiseinstellungen:

MODEL → Model Architecture: Z‑Image Turbo (w/ Training Adapter)
MODEL → Name or Path: Tongyi-MAI/Z-Image-Turbo
MODEL → Training Adapter Path:

Behalten Sie den Standard bei, wenn Ihre UI ihn automatisch ausfüllt (RunComfy verwendet oft v2 als Standard), oder setzen Sie explizit:

v1: ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v1.safetensors
v2: ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v2.safetensors

TARGET → Linear Rank: 16
TRAINING → Learning Rate: 0.0001
TRAINING → Steps: 2500–3000 (für 10–30 Bilder)
DATASETS → Resolutions: 512 / 768 / 1024 und Cache Latents = AN
SAMPLE (für Vorschauen):

1024×1024, 8 Schritte (oder 9, wenn Ihre Pipeline 9 als "8 DiT‑Forwards" behandelt)
Guidance Scale = 0 (Turbo ist guidance‑destilliert)
Sample alle 250 Schritte

Option B — De‑Turbo (de‑destillierte Basis)

Verwenden Sie diese Option, wenn Sie ohne Training Adapter trainieren möchten oder längere Trainingsläufe planen.

Was sich im Vergleich zu Turbo ändert:

De‑Turbo verhält sich beim Training und Sampling eher wie ein "normales" Diffusionsmodell.
Sie samplen typischerweise mit mehr Schritten und niedrigem (aber nicht null) CFG.

MODEL → Model Architecture: Z‑Image De‑Turbo (De‑Distilled)
MODEL → Name or Path: ostris/Z-Image-De-Turbo (oder was auch immer Ihre AI Toolkit Version vorauswählt)
Training Adapter Path: keine (nicht benötigt)
Behalten Sie die gleichen LoRA‑Einstellungen (Rank/LR/Steps) als Basislinie bei.
SAMPLE (für Vorschauen):

20–30 Schritte
CFG (Guidance Scale) ≈ 2–3
Sample alle 250 Schritte

Möchten Sie keine Einrichtung? Nutzen Sie das RunComfy Cloud AI Toolkit und folgen Sie den exakt gleichen Panels.

Inhaltsverzeichnis

1. Welche Z‑Image‑Basis sollten Sie trainieren? (Turbo+Adapter vs De‑Turbo)
2. Z‑Image Training Adapter v1 vs v2 (was sich ändert, wann zu verwenden)
3. Z‑Image / Z‑Image‑Turbo im Überblick (für LoRA Training)
4. Wo Z‑Image trainieren: lokal vs Cloud AI Toolkit
5. Datensätze für Z‑Image LoRA Training gestalten
6. Z‑Image LoRA Konfiguration im AI Toolkit – Parameter für Parameter
7. Praktische Rezepte für Z‑Image LoRA Training
8. Fehlerbehebung (Turbo‑Drift, Überanpassung, VRAM, Sampling)
9. Export und Verwendung Ihres Z‑Image LoRA
FAQ

1. Welche Z‑Image‑Basis sollten Sie trainieren? (Turbo+Adapter vs De‑Turbo)

AI Toolkit bietet zwei "Model Architecture" Auswahlmöglichkeiten für das Z-Image-Turbo LoRA Training:

1.1 Z‑Image Turbo (mit Training Adapter)

Am besten für: typische LoRAs (Charakter, Stil, Produkt), bei denen Ihr Endziel darin besteht, Inferenz auf Turbo mit 8 Schritten auszuführen.

Warum es existiert:

Z‑Image Turbo ist ein schritt‑destilliertes Modell. Wenn Sie LoRAs auf einem schritt‑destillierten Modell "normal" trainieren, kann die Destillation schnell zusammenbrechen, und Turbo beginnt sich wie ein langsameres, nicht‑destilliertes Modell zu verhalten (Qualitätsverschiebungen, benötigt mehr Schritte usw.).
Der Training Adapter fungiert während des Trainings wie ein temporäres "De‑Destillierungs‑LoRA". Ihr LoRA lernt Ihr Konzept, während Turbos schnelles 8‑Schritt‑Verhalten stabil bleibt.
Zur Inferenzzeit entfernen Sie den Training Adapter und behalten Ihr LoRA auf der echten Turbo‑Basis.

Praktische Anzeichen, dass Sie den richtigen Pfad gewählt haben:

Ihre Vorschau‑Samples sehen bei 8 Schritten mit Guidance ≈ 0 gut aus.
Ihr LoRA benötigt nicht plötzlich 20–30 Schritte, um sauber auszusehen (ein häufiges Zeichen für Turbo‑Drift).

1.2 Z‑Image De‑Turbo (De‑Distilled)

Am besten für: Training ohne Adapter oder längere Fine‑Tunes, bei denen Turbo+Adapter irgendwann driften würde.

Was es ist:

De‑Turbo ist eine de‑destillierte Version von Turbo, die sich beim Training eher wie ein normales Diffusionsmodell verhält.
Es kann direkt ohne Adapter trainiert werden und auch für Inferenz verwendet werden (typischerweise 20–30 Schritte mit niedrigem CFG).

1.3 Schnelle Entscheidungshilfe

Wählen Sie Turbo + Training Adapter wenn:

Sie möchten, dass das LoRA nach dem Training mit Turbo‑Geschwindigkeit (8 Schritte) läuft.
Sie einen normalen LoRA‑Lauf durchführen (einige tausend bis zehntausende Schritte).

Wählen Sie De‑Turbo wenn:

Sie "normales Modell"‑Verhalten für Training und Sampling wünschen.
Sie länger trainieren möchten oder mit Workflows experimentieren, die den Training Adapter nicht sauber unterstützen.

2. Z‑Image Training Adapter v1 vs v2 (was sich ändert, wann zu verwenden)

Im Training Adapter Repository sehen Sie oft zwei Dateien:

..._v1.safetensors
..._v2.safetensors

Was Sie wissen müssen (praktisch):

v1 ist die sichere Basislinie.
v2 ist eine neuere Variante, die Trainingsdynamik und Ergebnisse verändern kann.

Empfehlung: Behandeln Sie dies als A/B‑Test:

Halten Sie Datensatz, LR, Steps, Rank identisch
Trainieren Sie einmal mit v1, einmal mit v2
Vergleichen Sie Sample‑Grids bei denselben Checkpoints

Wenn Ihre RunComfy UI standardmäßig v2 verwendet und Ihr Training stabil aussieht, behalten Sie es bei. Wenn Sie Instabilität sehen (Rauschen, Turbo‑Drift, seltsame Artefakte), wechseln Sie zu v1.

3. Z‑Image / Z‑Image‑Turbo im Überblick (für LoRA Training)

Aus den offiziellen Z‑Image Quellen:

6B Parameter, S3‑DiT Architektur — Text‑Tokens, visuelle semantische Tokens und VAE‑Latents werden zu einem einzigen Transformer‑Stream verkettet.
Modellfamilie — Turbo, Base und Edit Varianten existieren in der Z‑Image Serie.
Turbo‑Spezifika — optimiert für schnelle Inferenz; Guidance ist typischerweise 0 für Turbo‑Inferenz.

Ein hilfreiches mentales Modell für LoRA Training:

High‑Noise‑Zeitschritte steuern hauptsächlich die Komposition (Layout, Pose, globaler Farbton).
Low‑Noise‑Zeitschritte steuern hauptsächlich Details (Gesichter, Hände, Texturen).

Deshalb können Zeitschritteinstellungen und Bias merklich verändern, ob sich ein LoRA wie "globaler Stil" vs "Identität/Detail" anfühlt.

4. Wo Z‑Image trainieren: lokal vs Cloud AI Toolkit

4.1 Lokales AI Toolkit

Das AI Toolkit von Ostris ist Open Source auf GitHub. Es unterstützt das AI Toolkit Z-Image Turbo LoRA Training, FLUX, Wan, Qwen und mehr durch ein einheitliches UI und Konfigurationssystem.

Lokal macht Sinn, wenn:

Sie bereits eine NVIDIA GPU haben und Python / Git Setup nicht scheuen.
Sie volle Kontrolle über Dateien, Logs und benutzerdefinierte Änderungen möchten.

Repo: ostris/ai-toolkit

4.2 RunComfy Cloud AI Toolkit

Wenn Sie lieber CUDA‑Installationen und Treiberprobleme überspringen möchten, nutzen Sie das RunComfy Cloud AI Toolkit:

Keine Einrichtung — öffnen Sie einen Browser und trainieren Sie.
Konsistenter VRAM — einfacheres Befolgen von Anleitungen ohne Hardware‑Reibung.
Persistenter Speicher — einfachere Iteration und Checkpoint‑Verwaltung.

👉 Hier öffnen: Cloud AI Toolkit auf RunComfy

5. Datensätze für Z‑Image LoRA Training gestalten

5.1 Wie viele Bilder brauchen Sie wirklich?

10–30 Bilder ist ein guter Bereich für die meisten Charakter‑ oder Stil‑LoRAs.
Über ~50 Bilder treffen Sie oft auf abnehmende Erträge, es sei denn, Ihr Stilbereich ist sehr breit.

Z‑Image lernt stark von Gradienten ("lernt heiß"), daher sind Datensatzqualität und Vielfalt wichtiger als die reine Bildanzahl:

Zu wenige Bilder + zu viel Training zeigt sich oft als überangepasste Gesichter, wiederholte Posen oder chaotische Hintergründe.
Ein kleiner, aber vielfältiger Datensatz (Winkel, Beleuchtung, Hintergründe) generalisiert tendenziell besser als ein großer, repetitiver.

5.2 Charakter- vs Stil‑LoRAs

Charakter‑LoRA

Streben Sie 12–30 Bilder desselben Subjekts an.
Mischen Sie Nahaufnahmen und Ganzkörper, Winkel, Beleuchtung, Outfits.
Beschriftungen können wörtlich und konsistent sein; optionales Trigger‑Token.

Stil‑LoRA

Streben Sie 15–40 Bilder über verschiedene Motive hinweg an (Menschen, Innenräume, Landschaften, Objekte).
Beschriften Sie die Szene normal; überbeschreiben Sie den Stil nicht, es sei denn, Sie möchten, dass er nur per Trigger aufrufbar ist.

Dies lehrt: "rendere alles in diesem Stil", anstatt "mache den Stil nur, wenn ich ein spezielles Schlüsselwort sage."

5.3 Beschriftungen, Trigger‑Wort und Textdateien

image_01.png → image_01.txt
Wenn es keine .txt gibt, verwendet AI Toolkit die Default Caption.
Sie können [trigger] in Beschriftungen verwenden und Trigger Word im JOB Panel setzen.

Dies ist besonders nützlich, wenn Sie später DOP (Differential Output Preservation) aktivieren, um das LoRA mehr "opt‑in" zu machen.

6. Z‑Image LoRA Konfiguration im AI Toolkit – Parameter für Parameter

In diesem Abschnitt gehen wir die UI‑Panels durch und erklären, was jedes wichtige Feld beim Z-Image Turbo LoRA trainieren bewirkt.

6.1 JOB Panel

Training Name — beschreibendes Label wie zimage_char_rothaar_v1
GPU ID — lokaler GPU‑Selektor; in der Cloud Standardwert beibehalten
Trigger Word (optional) — zchar_rothaar / zstyle_bleistift

6.2 MODEL Panel (am wichtigsten)

Hier sind die zwei Basiswahlmöglichkeiten entscheidend:

Wenn Sie Turbo + Adapter wählen

Model Architecture — Z‑Image Turbo (w/ Training Adapter)
Name or Path — Tongyi-MAI/Z-Image-Turbo

Dies ist die Hugging Face Model ID (Repo‑ID). In den meisten AI Toolkit Builds wird das Auswählen der Model Architecture dies automatisch ausfüllen; lassen Sie es so, es sei denn, Sie haben einen Grund, es zu ändern.
Wenn Sie es überschreiben, verwenden Sie das Hugging Face Repo‑ID Format: org-oder-user/model-name (optional org-oder-user/model-name@revision).

Training Adapter Path — Standard beibehalten oder wählen:

v1: ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v1.safetensors
v2: ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v2.safetensors

Tipp: Wenn Sie versehentlich Turbo ohne den Adapter trainieren, ist das häufigste Symptom, dass Ihr LoRA nur "funktioniert", wenn Sie Steps/CFG erhöhen, was den Sinn von Turbo verfehlt.

Wenn Sie De‑Turbo wählen

Model Architecture — Z‑Image De‑Turbo (De‑Distilled)
Name or Path — ostris/Z-Image-De-Turbo

Dies ist die Hugging Face Model ID (Repo‑ID). In den meisten AI Toolkit Builds wird das Auswählen der Model Architecture dies automatisch ausfüllen; lassen Sie es so, es sei denn, Sie haben einen Grund, es zu ändern.
Wenn Sie es überschreiben, verwenden Sie das Hugging Face Repo‑ID Format: org-oder-user/model-name (optional org-oder-user/model-name@revision).

Training Adapter Path — keine

Optionen:

Low VRAM / Layer Offloading — aktivieren, wenn Sie VRAM‑beschränkt sind

6.3 QUANTIZATION Panel

Bei 24+ GB, bevorzugen Sie BF16/none für Genauigkeit
Bei 16 GB, ist float8 normalerweise der beste Kompromiss

6.4 TARGET Panel – LoRA Konfiguration

Target Type — LoRA
Linear Rank — beginnen Sie mit 8–16

16 für stärkere Stile/Texturen
8 für kleinere, subtilere LoRAs

6.5 SAVE Panel

Data Type — BF16
Save Every — 250
Max Step Saves to Keep — 4–12

6.6 TRAINING Panel – Kern‑Hyperparameter

Batch Size — 1
Optimizer — AdamW8Bit
Learning Rate — beginnen Sie bei 0.0001
Wenn instabil/verrauscht, senken Sie auf 0.00005–0.00008.

Vermeiden Sie es, zu hoch zu gehen (z.B. 0.0002+) — Turbo‑artige Modelle können schnell instabil werden.
Weight Decay — 0.0001
Steps — 2500–3000 für 10–30 Bilder
Wenn Ihr Datensatz sehr klein ist (<10 Bilder), erwägen Sie 1500–2200, um Überanpassung zu reduzieren.
Loss Type — Mean Squared Error
Timestep Type — Weighted
Timestep Bias — Balanced

Bevorzugen Sie High Noise, wenn Sie einen stärkeren globalen Stil / Stimmung möchten.
Bevorzugen Sie Low Noise, wenn Sie Identität/Detail verfolgen (fortgeschritten; beginnen Sie mit Balanced).

EMA — AUS

Text Encoder:

Cache Text Embeddings — AN, wenn Beschriftungen statisch sind und VRAM knapp ist
(dann Caption Dropout auf 0 setzen)
Unload TE — AUS lassen für beschriftungsgesteuertes Training

Regularisierung:

DOP — AUS für den ersten Lauf; später für Produktions‑Trigger‑only LoRAs hinzufügen
(DOP ist mächtig, fügt aber Komplexität hinzu; am einfachsten, wenn Sie bereits eine stabile Basislinie haben.)

6.7 DATASETS Panel

Caption Dropout Rate

0.05 wenn Text‑Embeddings nicht gecacht werden
0 wenn Embeddings gecacht werden

Cache Latents — AN
Resolutions — 512 / 768 / 1024 ist eine starke Basislinie

6.8 SAMPLE Panel (an Ihre Basis anpassen!)

Wenn Sie Turbo trainieren:

1024×1024, 8 Schritte, Guidance = 0, Sample alle 250

Wenn Sie De‑Turbo trainieren:

1024×1024, 20–30 Schritte, CFG 2–3, Sample alle 250

Verwenden Sie 5–10 Prompts, die reale Nutzung widerspiegeln; fügen Sie ein paar Prompts ohne den Trigger ein, um Leakage zu erkennen.

6.9 ADVANCED Panel – Differential Guidance (optional)

Do Differential Guidance — AN, wenn Sie schnellere Konvergenz möchten
Scale — beginnen Sie bei 3
Wenn Samples früh überscharf/verrauscht aussehen, reduzieren Sie auf 2. Wenn das Lernen langsam ist, können Sie später 4 testen.

7. Praktische Rezepte für Z‑Image LoRA Training

Eine starke Basislinie für Turbo LoRAs:

Turbo + Training Adapter (v1 oder v2)
rank=16, lr=1e-4, steps=2500–3000
512/768/1024 Buckets, Cache Latents AN
Samples alle 250 Schritte, 8 Schritte, Guidance 0

Wenn Ihr LoRA "zu stark" wirkt:

Behalten Sie das Training gleich, aber planen Sie, Inferenz mit einem niedrigeren LoRA‑Gewicht auszuführen (z.B. 0.6–0.8).

8. Fehlerbehebung

"Mein LoRA hat Turbo zerstört — jetzt brauche ich mehr Steps / CFG."

Häufigste Ursachen:

auf Turbo ohne den Training Adapter trainiert, oder
LR zu hoch für zu lange.

Lösung:

Turbo + Training Adapter Architektur verwenden
LR ≤ 1e‑4 halten
Steps reduzieren, wenn Sie früh Drift sehen

"Der Stil ist zu stark."

LoRA‑Gewicht bei Inferenz senken (0.6–0.8)
Trigger + DOP für Produktions‑LoRAs verwenden (Opt‑in Verhalten)

"Hände/Hintergründe sind chaotisch."

Ein paar Bilder hinzufügen, die diese Fälle einschließen
Erwägen Sie, Low‑Noise‑Zeitschritte leicht zu bevorzugen (fortgeschritten)

"Kein VRAM / zu langsam."

Hohe Buckets deaktivieren (512–1024 behalten)
Low VRAM + Offloading aktivieren
Auf float8 quantisieren
Latents cachen (und optional Text‑Embeddings cachen)

FAQ

Sollte ich beim Z-Image Turbo LoRA Training den v1 oder v2 Adapter verwenden?

Beginnen Sie mit dem Standard Ihrer UI. Wenn Ergebnisse instabil sind oder Sie Z‑Image Turbo Drift sehen, testen Sie die andere Version mit allen anderen Einstellungen gleich.

Sollte ich Z‑Image auf Turbo+Adapter oder De‑Turbo trainieren?

Turbo+Adapter für die meisten Z‑Image LoRAs, die 8‑Schritt Turbo‑Verhalten behalten müssen. De‑Turbo, wenn Sie adapterfreies Training oder längere Fine‑Tunes möchten.

Welche Z‑Image Inferenz‑Einstellungen sollte ich nach dem Training verwenden?

Z‑Image Turbo verwendet typischerweise niedrige/keine CFG und ~8 Schritte. De‑Turbo verhält sich eher wie ein normales Modell (20–30 Schritte, niedriger CFG). Passen Sie Ihre Sampling‑Einstellungen immer an die Basis an, die Sie tatsächlich verwenden.

9. Verwenden Sie Ihr Z‑Image LoRA

Run LoRA — öffnen Sie die Z‑Image Turbo Run LoRA Seite. Auf dieser Base‑Model‑Inference‑Seite können Sie entweder ein LoRA‑Asset auswählen, das Sie auf RunComfy trainiert haben, oder eine LoRA‑Datei importieren, die Sie mit AI Toolkit trainiert haben, und anschließend Inference über das Playground oder die API ausführen. RunComfy verwendet dasselbe Base Model und die vollständige AI‑Toolkit‑Pipeline‑Definition aus Ihrer Training‑Config, sodass Sie in der Inference genau das bekommen, was Sie im Training gesehen haben — diese enge Ausrichtung von Training und Inference hilft, die Ergebnisse konsistent mit Ihren Trainings‑Samples zu halten.
ComfyUI Workflows — laden Sie Ihr LoRA in einen Workflow wie Z‑Image Workflow in ComfyUI

OstrisAI-Toolkit

New Training Job

Job

Model

Quantization

Target

Save

Training

Advanced

Datasets

Dataset 1

Sample