Z‑Image (Base) LoRA‑Training mit Ostris AI Toolkit

Z‑Image (Base) ist der vollständige Z‑Image‑Checkpoint (nicht das 8‑Step‑Turbo). Er ist für hochwertiges Text‑to‑Image mit CFG + Negative Prompts und mehr Sampling‑Schritten ausgelegt – und er ist außerdem die beste Wahl, wenn Ihr Ziel ein sauberes, vollständig kontrollierbares LoRA ist (Charakter, Stil, Produkt, typografie‑lastige Konzepte).

Am Ende dieses Z‑Image LoRA‑Trainings werden Sie:

Ein Z‑Image LoRA‑Training in AI Toolkit von Ostris (lokal oder in der Cloud) durchführen können.
Defaults wählen, die wirklich zum Z‑Image Base Inferenz‑Verhalten passen (Steps + CFG + Auflösung).
Die häufigsten Z‑Image Base Stolperfallen im Z‑Image LoRA‑Training vermeiden (Turbo‑Settings, „LoRA macht nichts“, Base↔Turbo‑Mismatch).
Checkpoints exportieren, die Sie sofort in Ihrer Inferenz‑UI verwenden können.

Dieser Artikel ist Teil der AI Toolkit LoRA‑Training‑Serie. Wenn Sie neu bei Ostris AI Toolkit sind, starten Sie mit der AI Toolkit LoRA‑Training‑Übersicht, bevor Sie in dieses Z‑Image LoRA‑Training einsteigen:

https://www.runcomfy.com/de/trainer/ai-toolkit/getting-started

Inhaltsverzeichnis

1. Z‑Image Überblick: was es kann (und wie es sich von Turbo unterscheidet)
2. Umgebungen: lokales AI Toolkit vs Cloud AI Toolkit auf RunComfy
3. Hardware‑ & VRAM‑Anforderungen für das Z‑Image Base LoRA‑Training
4. Datensatz für das Z‑Image Base LoRA‑Training erstellen
5. Schritt für Schritt: Z‑Image LoRA‑Training in AI Toolkit
6. Empfohlene Z‑Image LoRA‑Training‑Configs nach VRAM‑Klasse
7. Häufige Probleme beim Z‑Image (Base) LoRA‑Training und wie man sie behebt
8. Ihre Z‑Image Base LoRA nach dem Z‑Image LoRA‑Training verwenden

1. Z‑Image Überblick: was es kann (und wie es sich von Turbo unterscheidet)

1.1 Was „Z‑Image Base“ bedeutet

„Z‑Image Base“ bezeichnet den nicht‑destillierten Z‑Image‑Checkpoint. Praktisch heißt das:

Es erwartet mehr Sampling‑Schritte (denken Sie an ~30–50, nicht 8).
Es nutzt CFG und Negative Prompts effektiv.
Es ist das bessere Ziel für LoRA Fine‑Tuning (einmalig als Synonym) und für Z‑Image LoRA‑Training, wenn Sie maximale Kontrolle und Qualität wollen.

1.2 Base vs Turbo (die wichtige Trainings‑Implikation)

Ein häufiger Fehler im Z‑Image LoRA‑Training ist, Base (oder die Evaluation) wie Turbo zu behandeln.

Turbo‑Settings (8 Steps, wenig/kein CFG) lassen Base‑Outputs unterbacken wirken und können Sie glauben lassen, Ihr LoRA „funktioniert nicht“.
Base‑Settings (30–50 Steps + normales CFG) sind der richtige Weg, Checkpoints zu beurteilen.

Faustregel:

Wenn Sie eine Base‑LoRA trainiert haben, evaluieren Sie sie auf Base mit Base‑typischem Sampling.

2. Umgebungen: lokales AI Toolkit vs Cloud AI Toolkit auf RunComfy

Sie können dieses Z‑Image LoRA‑Training auf zwei Arten mit AI Toolkit durchführen:

Lokales AI Toolkit (Ihre eigene GPU)
Installieren Sie AI Toolkit aus dem GitHub‑Repo und starten Sie dann die Web‑UI. Lokales Z‑Image LoRA‑Training ist ideal, wenn Sie eine NVIDIA‑GPU haben, CUDA/Treiber verwalten können und ein dauerhaftes Setup für wiederholte LoRA‑Iterationen möchten.

https://github.com/ostris/ai-toolkit
Cloud AI Toolkit auf RunComfy (H100 / H200)
AI Toolkit läuft im Browser auf großen GPUs:

Keine Installationen (einfach UI öffnen)
Viel VRAM für höhere Auflösungs‑Buckets (1280 / 1536)
Persistenter Workspace für Datasets, Configs und vergangene Runs

Der Workflow im Z‑Image LoRA‑Training ist in beiden Umgebungen gleich; nur der GPU‑Ort ändert sich.

3. Hardware‑ & VRAM‑Anforderungen für das Z‑Image Base LoRA‑Training

Z‑Image kann für Inferenz auf relativ bescheidenen GPUs laufen, aber Z‑Image LoRA‑Training skaliert stark mit:

Auflösungs‑Bucket (768 vs 1024 vs 1536)
Quantisierung (float8)
LoRA‑Rank
Sampling‑Settings während des Trainings (Preview‑Auflösung + Preview‑Steps)

Ein praktischer Rahmen fürs Z‑Image LoRA‑Training:

12–16GB VRAM: machbar bei 512/768 mit vorsichtigen Settings
24GB VRAM: komfortabel für 1024 im Z‑Image Base LoRA‑Training
48GB+ VRAM: der einfachste Weg für 1280/1536‑Buckets und schnellere Iteration

Wenn Ihr Ziel typografie‑lastig ist oder Sie Produkt‑Fidelity brauchen, planen Sie höhere Auflösung ein und akzeptieren Sie, dass der VRAM‑Bedarf schnell steigt.

4. Datensatz für das Z‑Image Base LoRA‑Training erstellen

Z‑Image Base ist beim Dataset‑Format nicht „speziell“ – aber es ist empfindlich dafür, wie Sie Qualität evaluieren. Ihr Datensatz fürs Z‑Image LoRA‑Training sollte daher so gebaut sein, dass er das Inferenz‑Verhalten abbildet, das Sie später wollen (CFG + mehr Steps).

4.1 Ziel wählen (und Dataset‑Form)

Charakter / Ähnlichkeit: 15–50 Bilder
Mix aus Close‑ups + Mid‑Shots + Licht‑Varianz.
Stil: 30–200 Bilder
Maximieren Sie die Motiv‑Varianz, damit das Modell „Style‑Cues“ lernt, nicht eine Szene.
Produkt / Konzept: 20–80 Bilder
Konsistentes Framing und klare Captions für definierende Merkmale (Materialien, Label‑Text, Form).

4.2 Captions + Trigger (keep it simple)

Nutzen Sie einen Trigger, wenn Sie einen sauberen „On/Off“-Schalter wollen (empfohlen für Charakter/Produkt im Z‑Image LoRA‑Training).
Halten Sie Captions kurz und konsistent. Lange Captions erhöhen versehentliches Binding (Haarschnitt/Hintergrund werden „Teil des Triggers“).

Schnelle Templates

Charakter:
[trigger]

oder photo of [trigger], portrait, natural lighting
Stil:
in a [style] illustration style, soft shading, muted palette
Produkt:
product photo of [trigger], studio lighting, clean background

5. Schritt für Schritt: Z‑Image LoRA‑Training in AI Toolkit

Dieser Abschnitt ist so geschrieben, dass er zu den AI‑Toolkit‑UI‑Panels passt, die Sie sehen, wenn Sie einen neuen Z‑Image LoRA‑Training‑Job anlegen.

5.1 JOB‑Panel (Training Name, GPU ID, Trigger Word)

Training Name: ein beschreibender Run‑Name (z. B. zimage_base_character_v1)
GPU ID: wählen Sie Ihre GPU (lokal) oder lassen Sie Default (Cloud)
Trigger Word (optional, aber empfohlen für Charakter/Produkt im Z‑Image LoRA‑Training):
Beispiel: zimgAlice

5.2 MODEL‑Panel (Model Architecture, Name or Path, Options)

Model Architecture: wählen Sie Z‑Image
Name or Path: setzen Sie das Base‑Model‑Repo, typischerweise:
Tongyi-MAI/Z-Image
Options

Low VRAM: ON, wenn Sie ≤ 24GB haben
Layer Offloading: standardmäßig OFF; nur ON, wenn Sie weiterhin OOM haben, nachdem Sie Auflösung/Rank gesenkt haben

5.3 QUANTIZATION‑Panel (Transformer, Text Encoder)

Transformer: float8 (default) ist ein starker Default, um größere Buckets zu fassen.
Text Encoder: float8 (default), wenn Sie VRAM‑Spielraum brauchen.

Wenn Sie sehr viel VRAM haben, können Sie Quantisierung reduzieren – aber float8 ist fürs Z‑Image LoRA‑Training meist eine sichere Baseline.

5.4 TARGET‑Panel (Target Type, Linear Rank)

Target Type: LoRA
Linear Rank (praktische Defaults fürs Z‑Image LoRA‑Training)

16: Stil‑LoRAs, Low‑VRAM‑Runs
32: Charakter/Produkt‑LoRAs, höhere Fidelity
48+: nur, wenn Sie viel VRAM haben und sicher sind, dass Sie unterfitten

5.5 SAVE‑Panel (Data Type, Save Every, Max Step Saves to Keep)

Data Type: BF16
Save Every: 250 (genug Checkpoints, um den besten zu wählen)
Max Step Saves to Keep: 4 (verhindert Disk‑Bloat)

5.6 TRAINING‑Panel (Batch Size, Steps, Optimizer, LR, Timesteps)

Stabile Baseline fürs Z‑Image LoRA‑Training

Batch Size: 1
Gradient Accumulation: 1 (erhöhen, wenn Sie größere effektive Batch ohne VRAM wollen)
Steps: siehe unten (zielbasierte Bereiche)
Optimizer: AdamW8Bit
Learning Rate: 0.0001 (auf 0.00005 senken, wenn instabil)
Weight Decay: 0.0001
Timestep Type: Weighted
Timestep Bias: Balanced
Loss Type: Mean Squared Error
EMA: OFF für die meisten LoRA‑Runs

Steps: eine Z‑Image‑Base‑freundliche Guideline

Z‑Image Base toleriert im Z‑Image LoRA‑Training oft längeres Training als destillierte Turbo‑Modelle, aber Sie sollten stoppen, bevor Prompt‑Fidelity kollabiert.

Charakter / Ähnlichkeit: 3000–7000 Steps (Sweet Spot hängt von Dataset‑Größe ab)
Stil: 2000–6000 Steps
Produkt / Konzept: 2500–6500 Steps

Für einen schnellen Smoke‑Test: 1000–1500 Steps, Samples prüfen, dann auf einen Full‑Run gehen.

5.7 Text‑Encoder‑Optimierungen + Regularisierung (rechte Seite)

Unload TE: OFF lassen, außer Sie wollen bewusst Trigger‑only‑Verhalten und keine Captions
Cache Text Embeddings: nur aktivieren, wenn Sie statische Captions und kein Caption Dropout nutzen

Differential Output Preservation (DOP)

Falls Ihr UI‑Build es enthält:

Aktivieren Sie Differential Output Preservation, wenn Sie wollen, dass das LoRA „nur bei Prompt“ aktiviert
Wenn DOP ON ist, cachen Sie keine Text‑Embeddings (konzeptioneller Konflikt)

5.8 ADVANCED‑Panel

Do Differential Guidance: OFF lassen, außer Sie nutzen es ohnehin und wissen, was Sie tunen.

5.9 DATASETS‑Panel (Target Dataset, Caption Dropout, Cache Latents, Resolutions)

Verwenden Sie die Dataset‑Settings fürs Z‑Image LoRA‑Training so, wie Sie sie in der UI sehen:

Target Dataset: wählen Sie Ihr Dataset
Default Caption: optionales kurzes Template (oder leer lassen, wenn Sie pro Bild .txt nutzen)
Caption Dropout Rate: 0.05 (auf 0 setzen, wenn Sie Text‑Embeddings cachen)
Cache Latents: ON für Speed
Is Regularization: OFF für Ihr Haupt‑Dataset
Flip X / Flip Y: standardmäßig OFF (besonders bei Logos/Text)
Resolutions (der wichtigste Hebel im Z‑Image Base LoRA‑Training)

Low VRAM: 512 + 768
24GB: 768 + 1024 (oder nur 1024, wenn das Dataset sehr konsistent ist)
High VRAM: 1280 / 1536 für beste Produkt‑/Text‑Fidelity

5.10 SAMPLE‑Panel (hier zählt Base vs Turbo am meisten)

Das ist der #1‑Ort, an dem Leute Z‑Image Base im Z‑Image LoRA‑Training falsch konfigurieren.

Empfohlene Base‑Sampling‑Defaults

Sample Every: 250
Sampler: FlowMatch (passt zur Scheduler‑Familie)
Guidance Scale: 4 (typischer Base‑Bereich ist ~3–5; nach Geschmack anpassen)
Sample Steps: 30–50 (Start bei 30)
Width / Height: matcht Ihren Haupt‑Bucket (1024×1024 ist eine gute Baseline)
Fügen Sie eine kleine Prompt‑Liste hinzu, die abdeckt:

den Trigger (falls genutzt)
verschiedene Kompositionen
mindestens einen „harten“ Prompt, der Identität/Stil/Produkt‑Geometrie stresst

Optionaler Negative Prompt (Base unterstützt das sehr gut)

Nutzen Sie einen kurzen Negative‑Prompt für Previews, um Artefakte zu reduzieren, z. B.:

low quality, blurry, deformed, bad anatomy, watermark, text artifacts

5.11 Training starten & monitoren

Starten Sie den Job und beobachten Sie im Z‑Image LoRA‑Training:

Samples bei jedem Checkpoint‑Intervall (250 Steps)
Prompt‑Fidelity (werden Prompts noch respektiert?)
Overfit‑Signale (gleiches Gesicht/Texture überall, Hintergründe kollabieren)

Wählen Sie den Checkpoint, bei dem das LoRA stark ist, ohne zu einem Always‑On‑Filter zu werden.

6. Empfohlene Z‑Image LoRA‑Training‑Configs nach VRAM‑Klasse

Tier 1 — 12–16GB (knapper VRAM)

Low VRAM: ON
Quantization: float8 für Transformer + Text Encoder
Linear Rank: 16
Resolutions: 512 + 768
Sample Steps: 30 (Preview‑Size bei Bedarf auf 768 halten)
Steps: 2000–5000 je nach Dataset‑Größe

Tier 2 — 24GB (praktischste lokale Klasse)

Low VRAM: ON (später OFF testen, wenn stabil)
Quantization: float8
Linear Rank: 32 (Charakter/Produkt), 16–32 (Stil)
Resolutions: 768 + 1024 (oder nur 1024, wenn konsistent)
Sample Steps: 30–40
Steps: 3000–7000 je nach Ziel

Tier 3 — 48GB+ (oder Cloud H100/H200)

Low VRAM: OFF (optional)
Quantization: optional (float8 ist weiter ok)
Linear Rank: 32–48
Resolutions: 1024 + 1280 + 1536 (wenn Ihr Dataset es hergibt)
Sample Steps: 40–50 für beste Preview‑Qualität
Steps: gleiche zielbasierte Bereiche; Sie iterieren nur schneller

7. Häufige Probleme beim Z‑Image (Base) LoRA‑Training und wie man sie behebt

Das sind Z‑Image Base‑spezifische Probleme (keine generischen AI‑Toolkit‑Fehler).

„Base wirkt unterbacken / wenig Details“

Wahrscheinliche Ursache: zu wenige Steps und/oder zu niedrige Auflösung.

Fix

Sample‑Steps auf 40–50 erhöhen
Höheren Bucket (1280/1536) testen, wenn VRAM es erlaubt
Wenn Ihr Inferenz‑Workflow einen „shift“‑Parameter hat: einige Nutzer berichten von besserer Kohärenz mit mittleren shift‑Werten (z. B. ~4–6). Nutzen Sie das erst als Feintuning‑Knopf, nachdem Steps/CFG stimmen.

„Meine Base‑LoRA funktioniert auf Base, aber nicht auf Turbo“

Das ist in vielen Fällen erwartbar:

Turbo ist destilliert und verhält sich anders (v. a. bei CFG/Negatives und „wie stark LoRAs beißen“).

Fix

Wenn Sie Turbo deployen müssen, trainieren Sie in einem Turbo‑fokussierten Workflow, statt Base↔Turbo‑Transfer als 1:1 anzunehmen.
Für beste Ergebnisse: auf derselben Familie trainieren und deployen (Base→Base).

„Text/Logos sind inkonsistent“

Z‑Image Base kann gute Typografie – aber im Z‑Image LoRA‑Training ist es sensitiv für Auflösung und Sampling.

Fix

Bei 1024+ trainieren (und 1280/1536 erwägen, wenn möglich)
Für Evaluation 40–50 Sampling‑Steps nutzen
Flip X vermeiden, wenn Text wichtig ist
Das Key‑Text‑Feature konsistent captionen (nicht erwarten, dass der Trigger es „impliziert“)

8. Ihre Z‑Image Base LoRA nach dem Z‑Image LoRA‑Training verwenden

Run LoRA — öffnen Sie die Z‑Image Run‑LoRA‑Seite. Auf dieser Base‑Model‑Inferenz‑Seite können Sie ein LoRA‑Asset auswählen, das Sie auf RunComfy trainiert haben, oder eine LoRA‑Datei importieren, die Sie mit AI Toolkit trainiert haben, und dann Inferenz über Playground oder API ausführen. RunComfy nutzt dasselbe Base‑Model und die vollständige AI‑Toolkit‑Pipeline‑Definition aus Ihrer Training‑Config, sodass das, was Sie während des Trainings gesehen haben, auch in der Inferenz herauskommt – diese enge Training/Inferenz‑Ausrichtung hilft, Ergebnisse konsistent zu Ihren Trainings‑Samples zu halten. Sie können Ihr LoRA außerdem als dedizierten Endpoint deployen über die Deployments‑Seite

OstrisAI-Toolkit

New Training Job

Job

Model

Quantization

Target

Save

Training

Advanced

Datasets

Dataset 1

Sample

Z‑Image (Base) LoRA‑Training mit Ostris AI Toolkit

Inhaltsverzeichnis

1. Z‑Image Überblick: was es kann (und wie es sich von Turbo unterscheidet)

1.1 Was „Z‑Image Base“ bedeutet

1.2 Base vs Turbo (die wichtige Trainings‑Implikation)

2. Umgebungen: lokales AI Toolkit vs Cloud AI Toolkit auf RunComfy

3. Hardware‑ & VRAM‑Anforderungen für das Z‑Image Base LoRA‑Training

4. Datensatz für das Z‑Image Base LoRA‑Training erstellen

4.1 Ziel wählen (und Dataset‑Form)

4.2 Captions + Trigger (keep it simple)

5. Schritt für Schritt: Z‑Image LoRA‑Training in AI Toolkit

5.1 JOB‑Panel (Training Name, GPU ID, Trigger Word)

5.2 MODEL‑Panel (Model Architecture, Name or Path, Options)

5.3 QUANTIZATION‑Panel (Transformer, Text Encoder)

5.4 TARGET‑Panel (Target Type, Linear Rank)

5.5 SAVE‑Panel (Data Type, Save Every, Max Step Saves to Keep)

5.6 TRAINING‑Panel (Batch Size, Steps, Optimizer, LR, Timesteps)

5.7 Text‑Encoder‑Optimierungen + Regularisierung (rechte Seite)

5.8 ADVANCED‑Panel

5.9 DATASETS‑Panel (Target Dataset, Caption Dropout, Cache Latents, Resolutions)

5.10 SAMPLE‑Panel (hier zählt Base vs Turbo am meisten)

5.11 Training starten & monitoren

6. Empfohlene Z‑Image LoRA‑Training‑Configs nach VRAM‑Klasse

Tier 1 — 12–16GB (knapper VRAM)

Tier 2 — 24GB (praktischste lokale Klasse)

Tier 3 — 48GB+ (oder Cloud H100/H200)

7. Häufige Probleme beim Z‑Image (Base) LoRA‑Training und wie man sie behebt

„Base wirkt unterbacken / wenig Details“

„Meine Base‑LoRA funktioniert auf Base, aber nicht auf Turbo“

„Text/Logos sind inkonsistent“

8. Ihre Z‑Image Base LoRA nach dem Z‑Image LoRA‑Training verwenden

Weitere AI Toolkit LoRA‑Training‑Guides