Z‑Image (Base) LoRA‑Training mit Ostris AI Toolkit
Z‑Image (Base) ist der vollständige Z‑Image‑Checkpoint (nicht das 8‑Step‑Turbo). Er ist für hochwertiges Text‑to‑Image mit CFG + Negative Prompts und mehr Sampling‑Schritten ausgelegt – und er ist außerdem die beste Wahl, wenn Ihr Ziel ein sauberes, vollständig kontrollierbares LoRA ist (Charakter, Stil, Produkt, typografie‑lastige Konzepte).
Am Ende dieses Z‑Image LoRA‑Trainings werden Sie:
- Ein Z‑Image LoRA‑Training in AI Toolkit von Ostris (lokal oder in der Cloud) durchführen können.
- Defaults wählen, die wirklich zum Z‑Image Base Inferenz‑Verhalten passen (Steps + CFG + Auflösung).
- Die häufigsten Z‑Image Base Stolperfallen im Z‑Image LoRA‑Training vermeiden (Turbo‑Settings, „LoRA macht nichts“, Base↔Turbo‑Mismatch).
- Checkpoints exportieren, die Sie sofort in Ihrer Inferenz‑UI verwenden können.
Dieser Artikel ist Teil der AI Toolkit LoRA‑Training‑Serie. Wenn Sie neu bei Ostris AI Toolkit sind, starten Sie mit der AI Toolkit LoRA‑Training‑Übersicht, bevor Sie in dieses Z‑Image LoRA‑Training einsteigen:
https://www.runcomfy.com/de/trainer/ai-toolkit/getting-started
Inhaltsverzeichnis
- 1. Z‑Image Überblick: was es kann (und wie es sich von Turbo unterscheidet)
- 2. Umgebungen: lokales AI Toolkit vs Cloud AI Toolkit auf RunComfy
- 3. Hardware‑ & VRAM‑Anforderungen für das Z‑Image Base LoRA‑Training
- 4. Datensatz für das Z‑Image Base LoRA‑Training erstellen
- 5. Schritt für Schritt: Z‑Image LoRA‑Training in AI Toolkit
- 6. Empfohlene Z‑Image LoRA‑Training‑Configs nach VRAM‑Klasse
- 7. Häufige Probleme beim Z‑Image (Base) LoRA‑Training und wie man sie behebt
- 8. Ihre Z‑Image Base LoRA nach dem Z‑Image LoRA‑Training verwenden
1. Z‑Image Überblick: was es kann (und wie es sich von Turbo unterscheidet)
1.1 Was „Z‑Image Base“ bedeutet
„Z‑Image Base“ bezeichnet den nicht‑destillierten Z‑Image‑Checkpoint. Praktisch heißt das:
- Es erwartet mehr Sampling‑Schritte (denken Sie an ~30–50, nicht 8).
- Es nutzt CFG und Negative Prompts effektiv.
- Es ist das bessere Ziel für LoRA Fine‑Tuning (einmalig als Synonym) und für Z‑Image LoRA‑Training, wenn Sie maximale Kontrolle und Qualität wollen.
1.2 Base vs Turbo (die wichtige Trainings‑Implikation)
Ein häufiger Fehler im Z‑Image LoRA‑Training ist, Base (oder die Evaluation) wie Turbo zu behandeln.
- Turbo‑Settings (8 Steps, wenig/kein CFG) lassen Base‑Outputs unterbacken wirken und können Sie glauben lassen, Ihr LoRA „funktioniert nicht“.
- Base‑Settings (30–50 Steps + normales CFG) sind der richtige Weg, Checkpoints zu beurteilen.
Faustregel:
Wenn Sie eine Base‑LoRA trainiert haben, evaluieren Sie sie auf Base mit Base‑typischem Sampling.
2. Umgebungen: lokales AI Toolkit vs Cloud AI Toolkit auf RunComfy
Sie können dieses Z‑Image LoRA‑Training auf zwei Arten mit AI Toolkit durchführen:
- Lokales AI Toolkit (Ihre eigene GPU)
Installieren Sie AI Toolkit aus dem GitHub‑Repo und starten Sie dann die Web‑UI. Lokales Z‑Image LoRA‑Training ist ideal, wenn Sie eine NVIDIA‑GPU haben, CUDA/Treiber verwalten können und ein dauerhaftes Setup für wiederholte LoRA‑Iterationen möchten.
https://github.com/ostris/ai-toolkit
- Cloud AI Toolkit auf RunComfy (H100 / H200)
AI Toolkit läuft im Browser auf großen GPUs:
- Keine Installationen (einfach UI öffnen)
- Viel VRAM für höhere Auflösungs‑Buckets (1280 / 1536)
- Persistenter Workspace für Datasets, Configs und vergangene Runs
Der Workflow im Z‑Image LoRA‑Training ist in beiden Umgebungen gleich; nur der GPU‑Ort ändert sich.
3. Hardware‑ & VRAM‑Anforderungen für das Z‑Image Base LoRA‑Training
Z‑Image kann für Inferenz auf relativ bescheidenen GPUs laufen, aber Z‑Image LoRA‑Training skaliert stark mit:
- Auflösungs‑Bucket (768 vs 1024 vs 1536)
- Quantisierung (float8)
- LoRA‑Rank
- Sampling‑Settings während des Trainings (Preview‑Auflösung + Preview‑Steps)
Ein praktischer Rahmen fürs Z‑Image LoRA‑Training:
- 12–16GB VRAM: machbar bei 512/768 mit vorsichtigen Settings
- 24GB VRAM: komfortabel für 1024 im Z‑Image Base LoRA‑Training
- 48GB+ VRAM: der einfachste Weg für 1280/1536‑Buckets und schnellere Iteration
Wenn Ihr Ziel typografie‑lastig ist oder Sie Produkt‑Fidelity brauchen, planen Sie höhere Auflösung ein und akzeptieren Sie, dass der VRAM‑Bedarf schnell steigt.
4. Datensatz für das Z‑Image Base LoRA‑Training erstellen
Z‑Image Base ist beim Dataset‑Format nicht „speziell“ – aber es ist empfindlich dafür, wie Sie Qualität evaluieren. Ihr Datensatz fürs Z‑Image LoRA‑Training sollte daher so gebaut sein, dass er das Inferenz‑Verhalten abbildet, das Sie später wollen (CFG + mehr Steps).
4.1 Ziel wählen (und Dataset‑Form)
- Charakter / Ähnlichkeit: 15–50 Bilder
Mix aus Close‑ups + Mid‑Shots + Licht‑Varianz.
- Stil: 30–200 Bilder
Maximieren Sie die Motiv‑Varianz, damit das Modell „Style‑Cues“ lernt, nicht eine Szene.
- Produkt / Konzept: 20–80 Bilder
Konsistentes Framing und klare Captions für definierende Merkmale (Materialien, Label‑Text, Form).
4.2 Captions + Trigger (keep it simple)
- Nutzen Sie einen Trigger, wenn Sie einen sauberen „On/Off“-Schalter wollen (empfohlen für Charakter/Produkt im Z‑Image LoRA‑Training).
- Halten Sie Captions kurz und konsistent. Lange Captions erhöhen versehentliches Binding (Haarschnitt/Hintergrund werden „Teil des Triggers“).
Schnelle Templates
- Charakter:
[trigger]oder
photo of [trigger], portrait, natural lighting - Stil:
in a [style] illustration style, soft shading, muted palette - Produkt:
product photo of [trigger], studio lighting, clean background
5. Schritt für Schritt: Z‑Image LoRA‑Training in AI Toolkit
Dieser Abschnitt ist so geschrieben, dass er zu den AI‑Toolkit‑UI‑Panels passt, die Sie sehen, wenn Sie einen neuen Z‑Image LoRA‑Training‑Job anlegen.
5.1 JOB‑Panel (Training Name, GPU ID, Trigger Word)
- Training Name: ein beschreibender Run‑Name (z. B.
zimage_base_character_v1) - GPU ID: wählen Sie Ihre GPU (lokal) oder lassen Sie Default (Cloud)
- Trigger Word (optional, aber empfohlen für Charakter/Produkt im Z‑Image LoRA‑Training):
Beispiel:
zimgAlice
5.2 MODEL‑Panel (Model Architecture, Name or Path, Options)
- Model Architecture: wählen Sie Z‑Image
- Name or Path: setzen Sie das Base‑Model‑Repo, typischerweise:
Tongyi-MAI/Z-Image - Options
- Low VRAM: ON, wenn Sie ≤ 24GB haben
- Layer Offloading: standardmäßig OFF; nur ON, wenn Sie weiterhin OOM haben, nachdem Sie Auflösung/Rank gesenkt haben
5.3 QUANTIZATION‑Panel (Transformer, Text Encoder)
- Transformer:
float8 (default)ist ein starker Default, um größere Buckets zu fassen. - Text Encoder:
float8 (default), wenn Sie VRAM‑Spielraum brauchen.
Wenn Sie sehr viel VRAM haben, können Sie Quantisierung reduzieren – aber float8 ist fürs Z‑Image LoRA‑Training meist eine sichere Baseline.
5.4 TARGET‑Panel (Target Type, Linear Rank)
- Target Type:
LoRA - Linear Rank (praktische Defaults fürs Z‑Image LoRA‑Training)
- 16: Stil‑LoRAs, Low‑VRAM‑Runs
- 32: Charakter/Produkt‑LoRAs, höhere Fidelity
- 48+: nur, wenn Sie viel VRAM haben und sicher sind, dass Sie unterfitten
5.5 SAVE‑Panel (Data Type, Save Every, Max Step Saves to Keep)
- Data Type:
BF16 - Save Every:
250(genug Checkpoints, um den besten zu wählen) - Max Step Saves to Keep:
4(verhindert Disk‑Bloat)
5.6 TRAINING‑Panel (Batch Size, Steps, Optimizer, LR, Timesteps)
Stabile Baseline fürs Z‑Image LoRA‑Training
- Batch Size:
1 - Gradient Accumulation:
1(erhöhen, wenn Sie größere effektive Batch ohne VRAM wollen) - Steps: siehe unten (zielbasierte Bereiche)
- Optimizer:
AdamW8Bit - Learning Rate:
0.0001(auf0.00005senken, wenn instabil) - Weight Decay:
0.0001 - Timestep Type:
Weighted - Timestep Bias:
Balanced - Loss Type:
Mean Squared Error - EMA: OFF für die meisten LoRA‑Runs
Steps: eine Z‑Image‑Base‑freundliche Guideline
Z‑Image Base toleriert im Z‑Image LoRA‑Training oft längeres Training als destillierte Turbo‑Modelle, aber Sie sollten stoppen, bevor Prompt‑Fidelity kollabiert.
- Charakter / Ähnlichkeit: 3000–7000 Steps (Sweet Spot hängt von Dataset‑Größe ab)
- Stil: 2000–6000 Steps
- Produkt / Konzept: 2500–6500 Steps
Für einen schnellen Smoke‑Test: 1000–1500 Steps, Samples prüfen, dann auf einen Full‑Run gehen.
5.7 Text‑Encoder‑Optimierungen + Regularisierung (rechte Seite)
- Unload TE: OFF lassen, außer Sie wollen bewusst Trigger‑only‑Verhalten und keine Captions
- Cache Text Embeddings: nur aktivieren, wenn Sie statische Captions und kein Caption Dropout nutzen
Differential Output Preservation (DOP)
Falls Ihr UI‑Build es enthält:
- Aktivieren Sie Differential Output Preservation, wenn Sie wollen, dass das LoRA „nur bei Prompt“ aktiviert
- Wenn DOP ON ist, cachen Sie keine Text‑Embeddings (konzeptioneller Konflikt)
5.8 ADVANCED‑Panel
- Do Differential Guidance: OFF lassen, außer Sie nutzen es ohnehin und wissen, was Sie tunen.
5.9 DATASETS‑Panel (Target Dataset, Caption Dropout, Cache Latents, Resolutions)
Verwenden Sie die Dataset‑Settings fürs Z‑Image LoRA‑Training so, wie Sie sie in der UI sehen:
- Target Dataset: wählen Sie Ihr Dataset
- Default Caption: optionales kurzes Template (oder leer lassen, wenn Sie pro Bild
.txtnutzen) - Caption Dropout Rate:
0.05(auf0setzen, wenn Sie Text‑Embeddings cachen) - Cache Latents: ON für Speed
- Is Regularization: OFF für Ihr Haupt‑Dataset
- Flip X / Flip Y: standardmäßig OFF (besonders bei Logos/Text)
- Resolutions (der wichtigste Hebel im Z‑Image Base LoRA‑Training)
- Low VRAM: 512 + 768
- 24GB: 768 + 1024 (oder nur 1024, wenn das Dataset sehr konsistent ist)
- High VRAM: 1280 / 1536 für beste Produkt‑/Text‑Fidelity
5.10 SAMPLE‑Panel (hier zählt Base vs Turbo am meisten)
Das ist der #1‑Ort, an dem Leute Z‑Image Base im Z‑Image LoRA‑Training falsch konfigurieren.
Empfohlene Base‑Sampling‑Defaults
- Sample Every:
250 - Sampler:
FlowMatch(passt zur Scheduler‑Familie) - Guidance Scale:
4(typischer Base‑Bereich ist ~3–5; nach Geschmack anpassen) - Sample Steps: 30–50 (Start bei 30)
- Width / Height: matcht Ihren Haupt‑Bucket (1024×1024 ist eine gute Baseline)
- Fügen Sie eine kleine Prompt‑Liste hinzu, die abdeckt:
- den Trigger (falls genutzt)
- verschiedene Kompositionen
- mindestens einen „harten“ Prompt, der Identität/Stil/Produkt‑Geometrie stresst
Optionaler Negative Prompt (Base unterstützt das sehr gut)
Nutzen Sie einen kurzen Negative‑Prompt für Previews, um Artefakte zu reduzieren, z. B.:
low quality, blurry, deformed, bad anatomy, watermark, text artifacts
5.11 Training starten & monitoren
Starten Sie den Job und beobachten Sie im Z‑Image LoRA‑Training:
- Samples bei jedem Checkpoint‑Intervall (250 Steps)
- Prompt‑Fidelity (werden Prompts noch respektiert?)
- Overfit‑Signale (gleiches Gesicht/Texture überall, Hintergründe kollabieren)
Wählen Sie den Checkpoint, bei dem das LoRA stark ist, ohne zu einem Always‑On‑Filter zu werden.
6. Empfohlene Z‑Image LoRA‑Training‑Configs nach VRAM‑Klasse
Tier 1 — 12–16GB (knapper VRAM)
- Low VRAM: ON
- Quantization: float8 für Transformer + Text Encoder
- Linear Rank: 16
- Resolutions: 512 + 768
- Sample Steps: 30 (Preview‑Size bei Bedarf auf 768 halten)
- Steps: 2000–5000 je nach Dataset‑Größe
Tier 2 — 24GB (praktischste lokale Klasse)
- Low VRAM: ON (später OFF testen, wenn stabil)
- Quantization: float8
- Linear Rank: 32 (Charakter/Produkt), 16–32 (Stil)
- Resolutions: 768 + 1024 (oder nur 1024, wenn konsistent)
- Sample Steps: 30–40
- Steps: 3000–7000 je nach Ziel
Tier 3 — 48GB+ (oder Cloud H100/H200)
- Low VRAM: OFF (optional)
- Quantization: optional (float8 ist weiter ok)
- Linear Rank: 32–48
- Resolutions: 1024 + 1280 + 1536 (wenn Ihr Dataset es hergibt)
- Sample Steps: 40–50 für beste Preview‑Qualität
- Steps: gleiche zielbasierte Bereiche; Sie iterieren nur schneller
7. Häufige Probleme beim Z‑Image (Base) LoRA‑Training und wie man sie behebt
Das sind Z‑Image Base‑spezifische Probleme (keine generischen AI‑Toolkit‑Fehler).
„Base wirkt unterbacken / wenig Details“
Wahrscheinliche Ursache: zu wenige Steps und/oder zu niedrige Auflösung.
Fix
- Sample‑Steps auf 40–50 erhöhen
- Höheren Bucket (1280/1536) testen, wenn VRAM es erlaubt
- Wenn Ihr Inferenz‑Workflow einen „shift“‑Parameter hat: einige Nutzer berichten von besserer Kohärenz mit mittleren shift‑Werten (z. B. ~4–6). Nutzen Sie das erst als Feintuning‑Knopf, nachdem Steps/CFG stimmen.
„Meine Base‑LoRA funktioniert auf Base, aber nicht auf Turbo“
Das ist in vielen Fällen erwartbar:
- Turbo ist destilliert und verhält sich anders (v. a. bei CFG/Negatives und „wie stark LoRAs beißen“).
Fix
- Wenn Sie Turbo deployen müssen, trainieren Sie in einem Turbo‑fokussierten Workflow, statt Base↔Turbo‑Transfer als 1:1 anzunehmen.
- Für beste Ergebnisse: auf derselben Familie trainieren und deployen (Base→Base).
„Text/Logos sind inkonsistent“
Z‑Image Base kann gute Typografie – aber im Z‑Image LoRA‑Training ist es sensitiv für Auflösung und Sampling.
Fix
- Bei 1024+ trainieren (und 1280/1536 erwägen, wenn möglich)
- Für Evaluation 40–50 Sampling‑Steps nutzen
- Flip X vermeiden, wenn Text wichtig ist
- Das Key‑Text‑Feature konsistent captionen (nicht erwarten, dass der Trigger es „impliziert“)
8. Ihre Z‑Image Base LoRA nach dem Z‑Image LoRA‑Training verwenden
Run LoRA — öffnen Sie die Z‑Image Run‑LoRA‑Seite. Auf dieser Base‑Model‑Inferenz‑Seite können Sie ein LoRA‑Asset auswählen, das Sie auf RunComfy trainiert haben, oder eine LoRA‑Datei importieren, die Sie mit AI Toolkit trainiert haben, und dann Inferenz über Playground oder API ausführen. RunComfy nutzt dasselbe Base‑Model und die vollständige AI‑Toolkit‑Pipeline‑Definition aus Ihrer Training‑Config, sodass das, was Sie während des Trainings gesehen haben, auch in der Inferenz herauskommt – diese enge Training/Inferenz‑Ausrichtung hilft, Ergebnisse konsistent zu Ihren Trainings‑Samples zu halten. Sie können Ihr LoRA außerdem als dedizierten Endpoint deployen über die Deployments‑Seite
Weitere AI Toolkit LoRA‑Training‑Guides
- Z-Image-Turbo & De-Turbo LoRA‑Training mit AI Toolkit
- FLUX.2 Dev LoRA‑Training mit AI Toolkit
- Qwen-Image-Edit-2511 LoRA‑Training mit AI Toolkit
- Qwen-Image-Edit-2509 LoRA‑Training mit AI Toolkit
- Wan 2.2 I2V 14B Image‑to‑Video LoRA‑Training
- Wan 2.2 T2V 14B Text‑to‑Video LoRA‑Training
- Qwen Image 2512 LoRA‑Training
- LTX-2 LoRA‑Training mit AI Toolkit
Ready to start training?

