AI Toolkit LoRA Training Guides

Z-Image LoRA Training (Z-Image Turbo + De-Turbo) mit Ostris AI Toolkit

Dieser Guide erklärt, wie du ein hochwertiges Z-Image LoRA mit Ostris AI Toolkit trainierst: die richtige Basis (Turbo + Training-Adapter vs De-Turbo) auswählen und anschließend Dataset, Rank/LR/Steps sowie Sampling-Einstellungen so abstimmen, dass die Ergebnisse stabil bleiben.

Train Diffusion Models with Ostris AI Toolkit

Horizontal scrollen, um das vollständige Formular zu sehen

Ostris AI ToolkitOstrisAI-Toolkit

New Training Job

Job

Model

Quantization

Target

Save

Training

Datasets

Dataset 1

Sample

Z‑Image ist ein 6B‑Parameter Bildgenerierungsmodell von Tongyi‑MAI, das auf einem Scalable Single‑Stream Diffusion Transformer (S3‑DiT) basiert. Für seine Größe ist es ungewöhnlich effizient und wurde für die Ausführung bei 1024×1024 auf Consumer‑GPUs entwickelt.

Diese Anleitung zum Z-Image Turbo LoRA Training behandelt die zwei gängigsten, praxisnahen Ansätze für das Z‑Image Turbo LoRA trainieren:

1) Z‑Image Turbo (mit Training Adapter) — ideal, wenn Ihr LoRA nach dem Training mit echter 8‑Schritt Turbo‑Geschwindigkeit laufen soll.

2) Z‑Image De‑Turbo (De‑Distilled) — ideal, wenn Sie eine de‑destillierte Basis ohne Adapter trainieren oder längere Fine‑Tunes durchführen möchten.

Am Ende dieser Anleitung werden Sie in der Lage sein:

  • Die richtige Z‑Image‑Basis (Turbo+Adapter vs De‑Turbo) für Ihr Ziel auszuwählen.
  • Einen Datensatz vorzubereiten, der mit Turbo‑artigem destillierten Training funktioniert.
  • Ostris AI Toolkit (lokal oder auf RunComfy Cloud AI Toolkit) Panel für Panel zu konfigurieren.
  • Zu verstehen, warum jeder Parameter wichtig ist, damit Sie anpassen können, anstatt blind zu kopieren.
Dieser Artikel ist Teil der AI Toolkit LoRA Training Serie. Wenn Sie neu bei Ostris AI Toolkit sind, beginnen Sie mit der AI Toolkit LoRA Training Übersicht, bevor Sie sich in diese Anleitung vertiefen.

Schnellstart (empfohlene Basiskonfiguration)

Option A — Turbo + Training Adapter (für die meisten LoRAs empfohlen)

Verwenden Sie diese Option für das Z-Image Turbo LoRA Training, wenn Ihr LoRA nach dem Training das schnelle 8‑Schritt‑Verhalten von Turbo beibehalten soll.

Warum das wichtig ist:

  • Turbo ist ein destilliertes "Schüler"‑Modell: Es komprimiert einen langsameren mehrstufigen Diffusionsprozess in ~8 Schritte.
  • Wenn Sie auf Turbo wie auf ein normales Modell trainieren, können Ihre Updates die Destillation rückgängig machen ("Turbo‑Drift"), und Sie benötigen mehr Schritte / mehr CFG, um die gleiche Qualität zu erreichen.
  • Der Training Adapter "de‑destilliert" Turbo vorübergehend während des Trainings, sodass Ihr LoRA Ihr Konzept erlernt, ohne Turbos 8‑Schritt‑Verhalten zu beeinträchtigen. Bei der Inferenz entfernen Sie den Adapter und behalten nur Ihr LoRA.

Basiseinstellungen:

  1. MODEL → Model Architecture: Z‑Image Turbo (w/ Training Adapter)
  2. MODEL → Name or Path: Tongyi-MAI/Z-Image-Turbo
  3. MODEL → Training Adapter Path:
    • Behalten Sie den Standard bei, wenn Ihre UI ihn automatisch ausfüllt (RunComfy verwendet oft v2 als Standard), oder setzen Sie explizit:
      • v1: ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v1.safetensors
      • v2: ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v2.safetensors
  4. TARGET → Linear Rank: 16
  5. TRAINING → Learning Rate: 0.0001
  6. TRAINING → Steps: 2500–3000 (für 10–30 Bilder)
  7. DATASETS → Resolutions: 512 / 768 / 1024 und Cache Latents = AN
  8. SAMPLE (für Vorschauen):
    • 1024×1024, 8 Schritte (oder 9, wenn Ihre Pipeline 9 als "8 DiT‑Forwards" behandelt)
    • Guidance Scale = 0 (Turbo ist guidance‑destilliert)
    • Sample alle 250 Schritte

Option B — De‑Turbo (de‑destillierte Basis)

Verwenden Sie diese Option, wenn Sie ohne Training Adapter trainieren möchten oder längere Trainingsläufe planen.

Was sich im Vergleich zu Turbo ändert:

  • De‑Turbo verhält sich beim Training und Sampling eher wie ein "normales" Diffusionsmodell.
  • Sie samplen typischerweise mit mehr Schritten und niedrigem (aber nicht null) CFG.
  1. MODEL → Model Architecture: Z‑Image De‑Turbo (De‑Distilled)
  2. MODEL → Name or Path: ostris/Z-Image-De-Turbo (oder was auch immer Ihre AI Toolkit Version vorauswählt)
  3. Training Adapter Path: keine (nicht benötigt)
  4. Behalten Sie die gleichen LoRA‑Einstellungen (Rank/LR/Steps) als Basislinie bei.
  5. SAMPLE (für Vorschauen):
    • 20–30 Schritte
    • CFG (Guidance Scale) ≈ 2–3
    • Sample alle 250 Schritte
Möchten Sie keine Einrichtung? Nutzen Sie das RunComfy Cloud AI Toolkit und folgen Sie den exakt gleichen Panels.

Inhaltsverzeichnis


1. Welche Z‑Image‑Basis sollten Sie trainieren? (Turbo+Adapter vs De‑Turbo)

AI Toolkit bietet zwei "Model Architecture" Auswahlmöglichkeiten für das Z-Image-Turbo LoRA Training:

1.1 Z‑Image Turbo (mit Training Adapter)

Am besten für: typische LoRAs (Charakter, Stil, Produkt), bei denen Ihr Endziel darin besteht, Inferenz auf Turbo mit 8 Schritten auszuführen.

Warum es existiert:

  • Z‑Image Turbo ist ein schritt‑destilliertes Modell. Wenn Sie LoRAs auf einem schritt‑destillierten Modell "normal" trainieren, kann die Destillation schnell zusammenbrechen, und Turbo beginnt sich wie ein langsameres, nicht‑destilliertes Modell zu verhalten (Qualitätsverschiebungen, benötigt mehr Schritte usw.).
  • Der Training Adapter fungiert während des Trainings wie ein temporäres "De‑Destillierungs‑LoRA". Ihr LoRA lernt Ihr Konzept, während Turbos schnelles 8‑Schritt‑Verhalten stabil bleibt.
  • Zur Inferenzzeit entfernen Sie den Training Adapter und behalten Ihr LoRA auf der echten Turbo‑Basis.

Praktische Anzeichen, dass Sie den richtigen Pfad gewählt haben:

  • Ihre Vorschau‑Samples sehen bei 8 Schritten mit Guidance ≈ 0 gut aus.
  • Ihr LoRA benötigt nicht plötzlich 20–30 Schritte, um sauber auszusehen (ein häufiges Zeichen für Turbo‑Drift).

1.2 Z‑Image De‑Turbo (De‑Distilled)

Am besten für: Training ohne Adapter oder längere Fine‑Tunes, bei denen Turbo+Adapter irgendwann driften würde.

Was es ist:

  • De‑Turbo ist eine de‑destillierte Version von Turbo, die sich beim Training eher wie ein normales Diffusionsmodell verhält.
  • Es kann direkt ohne Adapter trainiert werden und auch für Inferenz verwendet werden (typischerweise 20–30 Schritte mit niedrigem CFG).

1.3 Schnelle Entscheidungshilfe

Wählen Sie Turbo + Training Adapter wenn:

  • Sie möchten, dass das LoRA nach dem Training mit Turbo‑Geschwindigkeit (8 Schritte) läuft.
  • Sie einen normalen LoRA‑Lauf durchführen (einige tausend bis zehntausende Schritte).

Wählen Sie De‑Turbo wenn:

  • Sie "normales Modell"‑Verhalten für Training und Sampling wünschen.
  • Sie länger trainieren möchten oder mit Workflows experimentieren, die den Training Adapter nicht sauber unterstützen.

2. Z‑Image Training Adapter v1 vs v2 (was sich ändert, wann zu verwenden)

Im Training Adapter Repository sehen Sie oft zwei Dateien:

  • ..._v1.safetensors
  • ..._v2.safetensors

Was Sie wissen müssen (praktisch):

  • v1 ist die sichere Basislinie.
  • v2 ist eine neuere Variante, die Trainingsdynamik und Ergebnisse verändern kann.

Empfehlung: Behandeln Sie dies als A/B‑Test:

  • Halten Sie Datensatz, LR, Steps, Rank identisch
  • Trainieren Sie einmal mit v1, einmal mit v2
  • Vergleichen Sie Sample‑Grids bei denselben Checkpoints

Wenn Ihre RunComfy UI standardmäßig v2 verwendet und Ihr Training stabil aussieht, behalten Sie es bei. Wenn Sie Instabilität sehen (Rauschen, Turbo‑Drift, seltsame Artefakte), wechseln Sie zu v1.


3. Z‑Image / Z‑Image‑Turbo im Überblick (für LoRA Training)

Aus den offiziellen Z‑Image Quellen:

  • 6B Parameter, S3‑DiT Architektur — Text‑Tokens, visuelle semantische Tokens und VAE‑Latents werden zu einem einzigen Transformer‑Stream verkettet.
  • Modellfamilie — Turbo, Base und Edit Varianten existieren in der Z‑Image Serie.
  • Turbo‑Spezifika — optimiert für schnelle Inferenz; Guidance ist typischerweise 0 für Turbo‑Inferenz.

Ein hilfreiches mentales Modell für LoRA Training:

  • High‑Noise‑Zeitschritte steuern hauptsächlich die Komposition (Layout, Pose, globaler Farbton).
  • Low‑Noise‑Zeitschritte steuern hauptsächlich Details (Gesichter, Hände, Texturen).

Deshalb können Zeitschritteinstellungen und Bias merklich verändern, ob sich ein LoRA wie "globaler Stil" vs "Identität/Detail" anfühlt.


4. Wo Z‑Image trainieren: lokal vs Cloud AI Toolkit

4.1 Lokales AI Toolkit

Das AI Toolkit von Ostris ist Open Source auf GitHub. Es unterstützt das AI Toolkit Z-Image Turbo LoRA Training, FLUX, Wan, Qwen und mehr durch ein einheitliches UI und Konfigurationssystem.

Lokal macht Sinn, wenn:

  • Sie bereits eine NVIDIA GPU haben und Python / Git Setup nicht scheuen.
  • Sie volle Kontrolle über Dateien, Logs und benutzerdefinierte Änderungen möchten.

Repo: ostris/ai-toolkit


4.2 RunComfy Cloud AI Toolkit

Wenn Sie lieber CUDA‑Installationen und Treiberprobleme überspringen möchten, nutzen Sie das RunComfy Cloud AI Toolkit:

  • Keine Einrichtung — öffnen Sie einen Browser und trainieren Sie.
  • Konsistenter VRAM — einfacheres Befolgen von Anleitungen ohne Hardware‑Reibung.
  • Persistenter Speicher — einfachere Iteration und Checkpoint‑Verwaltung.

👉 Hier öffnen: Cloud AI Toolkit auf RunComfy


5. Datensätze für Z‑Image LoRA Training gestalten

5.1 Wie viele Bilder brauchen Sie wirklich?

  • 10–30 Bilder ist ein guter Bereich für die meisten Charakter‑ oder Stil‑LoRAs.
  • Über ~50 Bilder treffen Sie oft auf abnehmende Erträge, es sei denn, Ihr Stilbereich ist sehr breit.

Z‑Image lernt stark von Gradienten ("lernt heiß"), daher sind Datensatzqualität und Vielfalt wichtiger als die reine Bildanzahl:

  • Zu wenige Bilder + zu viel Training zeigt sich oft als überangepasste Gesichter, wiederholte Posen oder chaotische Hintergründe.
  • Ein kleiner, aber vielfältiger Datensatz (Winkel, Beleuchtung, Hintergründe) generalisiert tendenziell besser als ein großer, repetitiver.

5.2 Charakter- vs Stil‑LoRAs

Charakter‑LoRA

  • Streben Sie 12–30 Bilder desselben Subjekts an.
  • Mischen Sie Nahaufnahmen und Ganzkörper, Winkel, Beleuchtung, Outfits.
  • Beschriftungen können wörtlich und konsistent sein; optionales Trigger‑Token.

Stil‑LoRA

  • Streben Sie 15–40 Bilder über verschiedene Motive hinweg an (Menschen, Innenräume, Landschaften, Objekte).
  • Beschriften Sie die Szene normal; überbeschreiben Sie den Stil nicht, es sei denn, Sie möchten, dass er nur per Trigger aufrufbar ist.
    • Dies lehrt: "rendere alles in diesem Stil", anstatt "mache den Stil nur, wenn ich ein spezielles Schlüsselwort sage."

5.3 Beschriftungen, Trigger‑Wort und Textdateien

  • image_01.pngimage_01.txt
  • Wenn es keine .txt gibt, verwendet AI Toolkit die Default Caption.
  • Sie können [trigger] in Beschriftungen verwenden und Trigger Word im JOB Panel setzen.
    • Dies ist besonders nützlich, wenn Sie später DOP (Differential Output Preservation) aktivieren, um das LoRA mehr "opt‑in" zu machen.

6. Z‑Image LoRA Konfiguration im AI Toolkit – Parameter für Parameter

In diesem Abschnitt gehen wir die UI‑Panels durch und erklären, was jedes wichtige Feld beim Z-Image Turbo LoRA trainieren bewirkt.

6.1 JOB Panel

  • Training Name — beschreibendes Label wie zimage_char_rothaar_v1
  • GPU ID — lokaler GPU‑Selektor; in der Cloud Standardwert beibehalten
  • Trigger Word (optional)zchar_rothaar / zstyle_bleistift

6.2 MODEL Panel (am wichtigsten)

Hier sind die zwei Basiswahlmöglichkeiten entscheidend:

Wenn Sie Turbo + Adapter wählen

  • Model ArchitectureZ‑Image Turbo (w/ Training Adapter)
  • Name or PathTongyi-MAI/Z-Image-Turbo
    • Dies ist die Hugging Face Model ID (Repo‑ID). In den meisten AI Toolkit Builds wird das Auswählen der Model Architecture dies automatisch ausfüllen; lassen Sie es so, es sei denn, Sie haben einen Grund, es zu ändern.
    • Wenn Sie es überschreiben, verwenden Sie das Hugging Face Repo‑ID Format: org-oder-user/model-name (optional org-oder-user/model-name@revision).
  • Training Adapter Path — Standard beibehalten oder wählen:
    • v1: ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v1.safetensors
    • v2: ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v2.safetensors
Tipp: Wenn Sie versehentlich Turbo ohne den Adapter trainieren, ist das häufigste Symptom, dass Ihr LoRA nur "funktioniert", wenn Sie Steps/CFG erhöhen, was den Sinn von Turbo verfehlt.

Wenn Sie De‑Turbo wählen

  • Model ArchitectureZ‑Image De‑Turbo (De‑Distilled)
  • Name or Pathostris/Z-Image-De-Turbo
    • Dies ist die Hugging Face Model ID (Repo‑ID). In den meisten AI Toolkit Builds wird das Auswählen der Model Architecture dies automatisch ausfüllen; lassen Sie es so, es sei denn, Sie haben einen Grund, es zu ändern.
    • Wenn Sie es überschreiben, verwenden Sie das Hugging Face Repo‑ID Format: org-oder-user/model-name (optional org-oder-user/model-name@revision).
  • Training Adapter Path — keine

Optionen:

  • Low VRAM / Layer Offloading — aktivieren, wenn Sie VRAM‑beschränkt sind

6.3 QUANTIZATION Panel

  • Bei 24+ GB, bevorzugen Sie BF16/none für Genauigkeit
  • Bei 16 GB, ist float8 normalerweise der beste Kompromiss

6.4 TARGET Panel – LoRA Konfiguration

  • Target TypeLoRA
  • Linear Rank — beginnen Sie mit 8–16
    • 16 für stärkere Stile/Texturen
    • 8 für kleinere, subtilere LoRAs

6.5 SAVE Panel

  • Data TypeBF16
  • Save Every250
  • Max Step Saves to Keep4–12

6.6 TRAINING Panel – Kern‑Hyperparameter

  • Batch Size1
  • OptimizerAdamW8Bit
  • Learning Rate — beginnen Sie bei 0.0001

    Wenn instabil/verrauscht, senken Sie auf 0.00005–0.00008.

    Vermeiden Sie es, zu hoch zu gehen (z.B. 0.0002+) — Turbo‑artige Modelle können schnell instabil werden.

  • Weight Decay0.0001
  • Steps2500–3000 für 10–30 Bilder

    Wenn Ihr Datensatz sehr klein ist (<10 Bilder), erwägen Sie 1500–2200, um Überanpassung zu reduzieren.

  • Loss TypeMean Squared Error
  • Timestep TypeWeighted
  • Timestep BiasBalanced
    • Bevorzugen Sie High Noise, wenn Sie einen stärkeren globalen Stil / Stimmung möchten.
    • Bevorzugen Sie Low Noise, wenn Sie Identität/Detail verfolgen (fortgeschritten; beginnen Sie mit Balanced).
  • EMA — AUS

Text Encoder:

  • Cache Text Embeddings — AN, wenn Beschriftungen statisch sind und VRAM knapp ist

    (dann Caption Dropout auf 0 setzen)

  • Unload TE — AUS lassen für beschriftungsgesteuertes Training

Regularisierung:

  • DOP — AUS für den ersten Lauf; später für Produktions‑Trigger‑only LoRAs hinzufügen

    (DOP ist mächtig, fügt aber Komplexität hinzu; am einfachsten, wenn Sie bereits eine stabile Basislinie haben.)


6.7 DATASETS Panel

  • Caption Dropout Rate
    • 0.05 wenn Text‑Embeddings nicht gecacht werden
    • 0 wenn Embeddings gecacht werden
  • Cache Latents — AN
  • Resolutions512 / 768 / 1024 ist eine starke Basislinie

6.8 SAMPLE Panel (an Ihre Basis anpassen!)

Wenn Sie Turbo trainieren:

  • 1024×1024, 8 Schritte, Guidance = 0, Sample alle 250

Wenn Sie De‑Turbo trainieren:

  • 1024×1024, 20–30 Schritte, CFG 2–3, Sample alle 250

Verwenden Sie 5–10 Prompts, die reale Nutzung widerspiegeln; fügen Sie ein paar Prompts ohne den Trigger ein, um Leakage zu erkennen.


6.9 ADVANCED Panel – Differential Guidance (optional)

  • Do Differential Guidance — AN, wenn Sie schnellere Konvergenz möchten
  • Scale — beginnen Sie bei 3

    Wenn Samples früh überscharf/verrauscht aussehen, reduzieren Sie auf 2. Wenn das Lernen langsam ist, können Sie später 4 testen.


7. Praktische Rezepte für Z‑Image LoRA Training

Eine starke Basislinie für Turbo LoRAs:

  • Turbo + Training Adapter (v1 oder v2)
  • rank=16, lr=1e-4, steps=2500–3000
  • 512/768/1024 Buckets, Cache Latents AN
  • Samples alle 250 Schritte, 8 Schritte, Guidance 0

Wenn Ihr LoRA "zu stark" wirkt:

  • Behalten Sie das Training gleich, aber planen Sie, Inferenz mit einem niedrigeren LoRA‑Gewicht auszuführen (z.B. 0.6–0.8).

8. Fehlerbehebung

"Mein LoRA hat Turbo zerstört — jetzt brauche ich mehr Steps / CFG."

  • Häufigste Ursachen:
    • auf Turbo ohne den Training Adapter trainiert, oder
    • LR zu hoch für zu lange.
  • Lösung:
    • Turbo + Training Adapter Architektur verwenden
    • LR ≤ 1e‑4 halten
    • Steps reduzieren, wenn Sie früh Drift sehen

"Der Stil ist zu stark."

  • LoRA‑Gewicht bei Inferenz senken (0.6–0.8)
  • Trigger + DOP für Produktions‑LoRAs verwenden (Opt‑in Verhalten)

"Hände/Hintergründe sind chaotisch."

  • Ein paar Bilder hinzufügen, die diese Fälle einschließen
  • Erwägen Sie, Low‑Noise‑Zeitschritte leicht zu bevorzugen (fortgeschritten)

"Kein VRAM / zu langsam."

  • Hohe Buckets deaktivieren (512–1024 behalten)
  • Low VRAM + Offloading aktivieren
  • Auf float8 quantisieren
  • Latents cachen (und optional Text‑Embeddings cachen)

9. Verwenden Sie Ihr Z‑Image LoRA


FAQ

Sollte ich beim Z-Image Turbo LoRA Training den v1 oder v2 Adapter verwenden?

Beginnen Sie mit dem Standard Ihrer UI. Wenn Ergebnisse instabil sind oder Sie Z‑Image Turbo Drift sehen, testen Sie die andere Version mit allen anderen Einstellungen gleich.

Sollte ich Z‑Image auf Turbo+Adapter oder De‑Turbo trainieren?

Turbo+Adapter für die meisten Z‑Image LoRAs, die 8‑Schritt Turbo‑Verhalten behalten müssen. De‑Turbo, wenn Sie adapterfreies Training oder längere Fine‑Tunes möchten.

Welche Z‑Image Inferenz‑Einstellungen sollte ich nach dem Training verwenden?

Z‑Image Turbo verwendet typischerweise niedrige/keine CFG und ~8 Schritte. De‑Turbo verhält sich eher wie ein normales Modell (20–30 Schritte, niedriger CFG). Passen Sie Ihre Sampling‑Einstellungen immer an die Basis an, die Sie tatsächlich verwenden.


Weitere AI Toolkit LoRA Training Anleitungen

Ready to start training?