Qwen-Image-2512 LoRA-Training Guide mit Ostris AI Toolkit

Qwen‑Image‑2512 (oft als Qwen 2512 bezeichnet) ist ein großes Text-zu-Bild-Basismodell, das sich mit kleinen Adaptern feinabstimmen lässt, um zuverlässig einen Charakter (Likeness), einen Stil oder ein Produkt/Konzept zu erlernen. Diese Anleitung zeigt dir, wie du praktische Qwen-Image-2512 LoRA-Training-Projekte mit Ostris AI Toolkit durchführst – mit stabilen Standardwerten und Lösungen für typische Probleme.

Am Ende dieser Anleitung zum Qwen-Image-2512 LoRA-Training wirst du in der Lage sein:

Die richtigen Standardeinstellungen für Charakter- vs. Stil- vs. Produkt-LoRAs beim Qwen 2512 LoRA-Training zu wählen.
VRAM-Anforderungen zu planen und zu entscheiden, wann ARA sinnvoll ist.
Datensätze, Beschriftungen und Trigger zu erstellen, die typische Fehlerquellen (Überanpassung/Bleed) vermeiden.
Einen kurzen Smoke Test durchzuführen und dann Schritte und Einstellungen sicher festzulegen.

Dieser Artikel gehört zur AI Toolkit LoRA-Trainingsreihe. Wenn du neu bei Ostris AI Toolkit bist, starte mit der AI Toolkit LoRA-Training Übersicht, bevor du dich in diesen Leitfaden zum Qwen-2512 LoRA trainieren vertiefst.

Inhaltsverzeichnis

1. Qwen‑Image‑2512 Überblick: Was dieses Text-zu-Bild-Modell kann
2. Umgebungsoptionen: Arbeiten in der AI Toolkit Training-Oberfläche
3. Hardware & VRAM-Anforderungen für Qwen-Image-2512 LoRA-Training
4. Einen Qwen‑Image‑2512 LoRA-Trainingsdatensatz erstellen
5. Schritt für Schritt: Qwen 2512 LoRA-Training im AI Toolkit
6. Empfohlene Qwen-Image-2512 LoRA-Training Konfigurationen nach VRAM-Stufe
7. Häufige Qwen-Image-2512 LoRA-Training Probleme und Lösungen
8. Dein Qwen‑Image‑2512 LoRA nach dem Training verwenden

1. Qwen‑Image‑2512 Überblick: Was dieses Text-zu-Bild-Modell kann

Was Qwen-Image-2512 LoRA-Training ist (und was „gut" bedeutet)

Beim Qwen-Image-2512 LoRA-Training ersetzt du nicht das Basismodell – du fügst einen kleinen Adapter hinzu, der es in Richtung einer bestimmten Identität, eines Stils oder eines Produktkonzepts anpasst.

Ein starkes LoRA hat drei Eigenschaften:

Stärke: Es verändert die Ausgaben deutlich, wenn es aktiv ist
Kontrolle: Es aktiviert sich nur, wenn du es möchtest
Generalisierung: Es funktioniert bei neuen Prompts, nicht nur bei deinen Trainingsbildern

Wähle dein Ziel: Charakter vs. Stil vs. Produkt/Konzept

Dein Ziel bestimmt die besten Standardwerte für Datensatzdesign und Trainingseinstellungen beim Qwen Image 2512 LoRA Training.

Charakter / Likeness

Am besten für: eine bestimmte Person, Charakter, Prominenten-Ähnlichkeit, konsistentes Gesicht/Identität
Hauptrisiken: Identitäts-Bleed (beeinflusst andere Personen), überkochte Gesichter, schnelle Überanpassung
Benötigt: engere Timestep-Strategie, sorgfältige Schritte, meist einen Trigger, oft DOP

Stil

Am besten für: einen Look/eine Note, Illustrationsstil, Beleuchtungsstil, Textursprache
Hauptrisiken: wird zu einem „Alles-Filter", verliert Prompt-Treue
Benötigt: mehr Varianz, oft weniger Wiederholungen/Bild als Charakter, Trigger optional

Produkt / Konzept

Am besten für: ein bestimmtes Produkt (Schuh, Flasche), Logo-tragende Verpackung, ein neues Objektkonzept
Hauptrisiken: Formdrift, inkonsistente Materialien, instabile Geometrie
Benötigt: konsistente Rahmung + saubere Beschriftungen; Trigger meist empfohlen

Wenn du unsicher bist, starte das Qwen-Image-2512 LoRA-Training als Smoke Test (kurzer Lauf), dann lege die finalen Schritte fest, sobald du siehst, wie schnell sich dein Datensatz „einprägt."

2. Umgebungsoptionen: Lokales AI Toolkit vs. Cloud AI Toolkit auf RunComfy

Für das Qwen-Image-2512 LoRA-Training kannst du die gleichen zwei Umgebungen wie bei anderen AI Toolkit LoRA-Workflows nutzen:

Lokales AI Toolkit auf deiner eigenen GPU
Cloud AI Toolkit auf RunComfy mit großen GPUs (H100 / H200)

Die Training-Oberfläche, Parameter und der Workflow sind in beiden Fällen identisch. Der einzige Unterschied ist, wo die GPU läuft und wie viel VRAM dir zur Verfügung steht.

2.1 Lokales AI Toolkit (deine eigene GPU)

Installiere AI Toolkit aus dem AI Toolkit GitHub Repository und starte dann die Web-Oberfläche. Lokales Training ist eine gute Wahl, wenn:

Du bereits eine NVIDIA GPU hast (typischerweise 24GB VRAM oder mehr für komfortables 1024er Training)
Du mit CUDA, Treibern, Festplattenspeicher und lang laufenden Jobs vertraut bist

2.2 Cloud AI Toolkit auf RunComfy (H100 / H200)

Mit dem Cloud AI Toolkit auf RunComfy läuft das AI-Toolkit Qwen-Image-2512 LoRA-Training vollständig im Browser:

Du installierst nichts lokal
Du öffnest einen Browser, meldest dich an und landest direkt in der AI Toolkit Training-Oberfläche
Du kannst große GPUs wie H100 (80GB) oder H200 (141GB) auswählen, wenn du einen Job startest
Du bekommst einen persistenten Workspace, in dem Datensätze, Konfigurationen und Checkpoints gespeichert werden und sitzungsübergreifend wiederverwendet werden können

Diese Umgebung ist besonders nützlich für das Qwen 2512 LoRA-Training, wenn:

Du schnellere Iteration bei 1024×1024 ohne aggressive Speichertricks möchtest
Du mit größeren LoRA-Rängen, mehr Buckets oder höheren Batch-Größen experimentieren möchtest
Du keine Zeit mit CUDA- oder Treiberproblemen verbringen möchtest

👉 Hier öffnen: Cloud AI Toolkit auf RunComfy

3. Hardware & VRAM-Anforderungen für Qwen-Image-2512 LoRA-Training

3.1 Hardware-Planung: VRAM-Stufen und wann ARA wichtig wird

Qwen 2512 ist groß. Für praktisches Qwen-Image-2512 LoRA-Training denke in Stufen:

24GB VRAM (häufig): machbar, aber du brauchst typischerweise Low-Bit-Quantisierung + ARA für 1024er Training
40–48GB VRAM: komfortables 1024er Training mit weniger Kompromissen
80GB+ VRAM: einfachstes Setup, schnellste Iteration, weniger Bedarf an Speicheroptimierung

Wenn du unter 24GB bist: Du kannst manchmal bei niedrigerer Auflösung (z.B. 768) mit aggressiven Speichertaktiken trainieren, aber erwarte langsamere Läufe und instabilere Stabilität.

3.2 ARA erklärt: Was es ist, wann man es nutzt und wie es das Training beeinflusst

Was ARA ist

ARA (Accuracy Recovery Adapter) ist ein Wiederherstellungsmechanismus für sehr niedrige Bit-Quantisierung (üblicherweise 3-Bit oder 4-Bit). Das Basismodell läuft quantisiert, um VRAM zu sparen, während ARA hilft, die durch Quantisierung verlorene Genauigkeit wiederherzustellen.

Wann ARA für Qwen 2512 verwenden

Verwende ARA, wenn du eines der folgenden möchtest:

Qwen 2512 bei 1024×1024 auf 24GB trainieren
Weniger OOM-Probleme
Stabile Konvergenz ohne schweres CPU-Offload

Wie ARA das Training beeinflusst (Kompromisse)

Vorteile

Macht 1024er Training auf Consumer-GPUs möglich
Verbessert oft die Stabilität im Vergleich zu „einfacher Low-Bit"-Quantisierung

Nachteile

Fügt zusätzliche bewegliche Teile hinzu (Tooling/Versionskompatibilität ist wichtig)
Bei Quantisierungsfehlern musst du möglicherweise den Quantisierungsmodus anpassen oder deine Umgebung aktualisieren

Praktische Anleitung für Qwen-Image-2512 LoRA-Training

Starte mit 3-Bit ARA auf 24GB
Bei Quantisierungsfehlern versuche 4-Bit ARA
Bei anhaltenden Problemen verwende temporär einen höherpräzisen Quantisierungsmodus, um den Rest deiner Pipeline zu validieren, dann kehre zu ARA zurück

4. Einen Qwen-Image-2512 LoRA-Training Datensatz erstellen

4.1 Datensatzdesign: Was du für jedes Ziel sammeln solltest

Die meisten Fehlschläge beim Qwen-Image-2512 LoRA-Training sind verkappte Datensatzfehler.

Universelle Regeln

Konvertiere alles zu RGB (vermeide Graustufen/CMYK)
Entferne defekte/beschädigte Bilder
Vermeide Fast-Duplikate, es sei denn, du möchtest absichtlich, dass diese Aufnahme dominiert
Halte die Auflösung wo möglich konsistent (oder verwende eine kleine Anzahl von Buckets)

Charakter-Datensatz (15–50 Bilder)

Ziele auf:

30–60% Nahaufnahmen / Kopf-und-Schulter
30–50% Mittelaufnahmen
10–20% Ganzkörper (optional, hilft aber bei Kleidung/Posen-Generalisierung)

Halte Beleuchtung und Hintergründe ausreichend variiert, damit „Identität" das konsistente Signal ist.

Stil-Datensatz (30–200 Bilder)

Ziele auf:

Breite Motivvielfalt (Menschen, Objekte, Umgebungen)
Variierte Komposition und Farbsituationen
Konsistente Stilhinweise (Pinsel, Schattierung, Palette, Filmkorn, etc.)

Qwen-Image-2512 LoRA-Training für Stile generalisiert besser, wenn der Stil der einzige konsistente Faktor ist.

Produkt / Konzept-Datensatz (20–80 Bilder)

Ziele auf:

Konsistente Winkel und Rahmung (Front/Seite/45-Grad)
Konsistente Produktskalierung im Bild (vermeide wilde Zoom-Unterschiede)
Mehrere Beleuchtungsbedingungen, wenn Material wichtig ist (matt vs. glänzend)
Saubere Hintergründe helfen am Anfang (komplexe Szenen kannst du später hinzufügen)

4.2 Beschriftungen & Trigger: Vorlagen für Charakter / Stil / Produkt

Du kannst Qwen 2512 mit nur Trigger oder mit kurzen konsistenten Beschriftungen trainieren.

4.2.1 Die wichtigste Beschriftungsregel

Wenn ein Merkmal in vielen Trainingsbildern erscheint, du es aber nie in den Beschriftungen erwähnst, kann das Modell lernen, dass der Trigger dieses Merkmal implizit bedeutet – es wird also versuchen, es jedes Mal zu reproduzieren, wenn du den Trigger verwendest.

Das ist ein häufiger Grund, warum ein LoRA einen Haarschnitt, ein Outfit, eine Hintergrundfarbe oder einen Kamerastil „erzwingt", wann immer es aktiviert ist.

4.2.2 Charakter-Beschriftungsvorlagen

Empfohlen: Verwende einen Trigger. Halte Beschriftungen kurz.

Nur Trigger:
[trigger]
Kurze Beschriftung:
portrait photo of [trigger], studio lighting, sharp focus

photo of [trigger], natural skin texture, realistic

Vermeide übermäßige Beschreibung von Gesichtsteilen (Augen, Nase, etc.). Lass das Modell die Identität aus den Bildern lernen.

4.2.3 Stil-Beschriftungsvorlagen

Trigger ist optional. Wenn du einen verwendest, hast du einen Ein/Aus-Schalter.

Ohne Trigger, kurze Beschriftung:
in a watercolor illustration style, soft edges, pastel palette
Trigger + kurze Beschriftung:
[trigger], watercolor illustration, pastel palette, soft edges

Für Stile sollten Beschriftungen Stilattribute beschreiben, nicht den Szeneninhalt.

4.2.4 Produkt/Konzept-Beschriftungsvorlagen

Trigger wird für Kontrolle dringend empfohlen.

Einfach:
product photo of [trigger], clean background, studio lighting
Wenn das Produkt definierende Merkmale hat:
product photo of [trigger], transparent bottle, blue label, studio lighting

Vermeide lange Beschriftungen. Für Produkte verbessert konsistente Formulierung die Geometriestabilität.

5. Schritt für Schritt: Qwen-Image-2512 LoRA-Training im AI Toolkit

Dieser Abschnitt folgt dem gleichen Ablauf wie die AI Toolkit Training-Oberfläche. Erstelle zuerst deine Datensätze, dann konfiguriere einen neuen Job Panel für Panel.

5.1 Schritt 0 – Wähle dein Ziel (Charakter vs. Stil vs. Produkt)

Bevor du Einstellungen anfasst, entscheide, was du trainierst. Dies bestimmt die besten Standardwerte für Beschriftungen, Schritte und Regularisierung.

Charakter / Likeness: stärkste Identitätskonsistenz (Gesicht/Erscheinung). Höchstes Risiko für Bleed und schnelle Überanpassung.
Stil: konsistenter visueller Look (Palette/Textur/Beleuchtung). Höchstes Risiko, ein „Alles-Filter" zu werden.
Produkt / Konzept: stabile Objektidentität und Geometrie. Höchstes Risiko für Form-/Materialdrift.

Wenn du unsicher bist, führe zuerst einen kurzen Smoke Test durch (siehe TRAINING + SAMPLE unten), dann lege die Schritte fest, sobald du siehst, wie schnell sich dein Datensatz „einprägt."

5.2 Schritt 1 – Datensätze im AI Toolkit erstellen

Öffne in der AI Toolkit-Oberfläche den Datasets-Tab.

Erstelle mindestens einen Datensatz (Beispielname):

my_dataset_2512

Lade deine Bilder in diesen Datensatz hoch.

Datensatz-Qualitätsregeln (alle Ziele)

Konvertiere alles zu RGB (vermeide Graustufen/CMYK).
Entferne defekte/beschädigte Dateien.
Vermeide Fast-Duplikate, es sei denn, du möchtest absichtlich, dass dieser Look/diese Pose dominiert.

Empfohlene Datensatzgrößen

Charakter: 15–50 Bilder
Stil: 30–200 Bilder (mehr Varianz hilft)
Produkt: 20–80 Bilder (konsistente Rahmung hilft)

5.3 Schritt 2 – Einen neuen Job erstellen

Öffne den New Job-Tab. Konfiguriere jedes Panel in der Reihenfolge, wie es erscheint.

5.3.1 JOB-Panel – Training Name, GPU ID, Trigger Word

Training Name
Wähle einen klaren Namen, den du später wiedererkennst (z.B. qwen_2512_character_v1, qwen_2512_style_v1, qwen_2512_product_v1).
GPU ID – bei einer lokalen Installation wähle die GPU auf deinem Rechner. Im Cloud AI Toolkit auf RunComfy lass GPU ID auf dem Standard. Der tatsächliche Maschinentyp (H100 / H200) wird später gewählt, wenn du den Job aus der Training Queue startest.
Trigger Word
Empfohlene Verwendung je nach Ziel:

Charakter: dringend empfohlen (gibt dir saubere Ein/Aus-Kontrolle und hilft Bleed zu verhindern).
Stil: optional (verwende es, wenn du einen „aufrufbaren Stil" statt immer-an möchtest).
Produkt: dringend empfohlen (hilft, das erlernte Konzept kontrollierbar zu halten).

Wenn du einen Trigger verwendest, können deine Beschriftungen einen Platzhalter wie [trigger] enthalten und konsistenten Vorlagen folgen (siehe unten).

5.3.2 MODEL-Panel – Model Architecture, Name or Path, Options

Model Architecture
Wähle Qwen-Image-2512.
Name or Path
Verwende Qwen/Qwen-Image-2512. In den meisten AI Toolkit Builds wird durch Auswahl von Qwen‑Image‑2512 dieser Wert automatisch ausgefüllt.

Wenn du es überschreibst, verwende das Hugging Face Repo-ID-Format: org-or-user/model-name (optional org-or-user/model-name@revision).
Options

Low VRAM: aktiviere dies für 24GB GPUs beim Qwen-2512 LoRA trainieren.
Layer Offloading: behandle dies als letzten Ausweg, wenn du nach Quantisierung, niedrigerem Rang und weniger Buckets immer noch OOM bekommst.

Offloading-Reihenfolge (Best Practice):

1) ARA + Low VRAM

2) Rang reduzieren

3) Auflösungs-Buckets reduzieren

4) Sampling-Frequenz/-Auflösung reduzieren

5) Dann Layer Offloading aktivieren

5.3.3 QUANTIZATION-Panel – Transformer, Text Encoder

Hier entscheidet sich, ob die meisten 24GB Qwen-Image-2512 LoRA-Training Läufe erfolgreich sind oder nicht.

24GB Baseline (empfohlen für 1024er Training)

Quantisiere den Transformer und verwende ARA (zuerst 3-Bit, 4-Bit wenn nötig).
Quantisiere den Text Encoder auf float8, wenn du zusätzlichen VRAM-Spielraum brauchst.

Große VRAM-GPUs
Du kannst die Quantisierung reduzieren oder deaktivieren, wenn das Training stabil und schnell genug ist.

Bei Quantisierungsfehlern (dtype/quantize Fehler) behandle es zunächst als Tooling-Kompatibilitätsproblem:

wechsle zwischen 3-Bit ↔ 4-Bit ARA,
aktualisiere AI Toolkit/Abhängigkeiten,
oder verwende temporär einen höherpräzisen Modus, um den Rest deines Job-Setups zu validieren, dann kehre zu ARA zurück.

5.3.4 TARGET-Panel – Target Type, Linear Rank

Target Type: wähle LoRA.
Linear Rank
Empfohlene Startwerte je nach Ziel:

Charakter: 32
Stil: 16–32
Produkt: 32

Allgemeine Regeln:

Bei OOM → reduziere zuerst den Rang, bevor du alles andere anfasst.
Bei Underfitting → stimme zuerst Timesteps/Steps/LR ab, dann erwäge, den Rang zu erhöhen.
Bei Overfitting → reduziere Wiederholungen/Schritte, reduziere Rang, füge Varianz hinzu, erwäge DOP.

5.3.5 SAVE-Panel – Data Type, Save Every, Max Step Saves to Keep

Data Type: BF16 (stabiler Standard).
Save Every: 250 (gute Checkpoint-Kadenz).
Max Step Saves to Keep: 4 (hält die Festplattennutzung unter Kontrolle).

5.3.6 TRAINING-Panel – Kern-Hyperparameter

Dies sind die Standardwerte, mit denen die meisten Läufe starten:

Batch Size: 1
Gradient Accumulation: 1
Optimizer: AdamW8Bit
Learning Rate: 0.0001
Weight Decay: 0.0001
Timestep Type: Weighted
Timestep Bias: Balanced
Loss Type: Mean Squared Error
Use EMA: AUS (für Qwen 2512 LoRAs)

Timestep Type Anleitung je nach Ziel

Charakter: Weighted ist eine sichere Baseline; wenn die Likeness nicht einrastet oder inkonsistent aussieht, probiere eine identitätsfreundlichere Timestep-Einstellung (verbessert oft den Charakter-Abdruck).
Stil: Weighted ist normalerweise in Ordnung; erhöhe die Varianz, bevor du die Schritte erhöhst.
Produkt: Weighted ist eine stabile Baseline; wenn die Geometrie driftet, reduziere zuerst Wiederholungen oder straffe Beschriftungen/Trigger.

Steps: Empfohlene Werte für Charakter vs. Stil vs. Produkt

Steps sollten keine einzelne magische Zahl sein. Ein zuverlässigerer Weg sind Wiederholungen pro Bild:

Wiederholungen ≈ (steps × batch_size × grad_accum) ÷ num_images
bei batch_size=1 und grad_accum=1: steps ≈ Wiederholungen × num_images

Wenn du die Gradient Accumulation auf 2 oder 4 erhöhst, reduziere die Steps proportional.

Charakter (Likeness) Wiederholungen pro Bild

Smoke Test: 30–50
Typischer Sweet Spot: 50–90
High-Likeness Push: 90–120 (achte auf Bleed)

Beispiele (batch=1, accum=1):

Bilder	30–50 Wdh.	50–90 Wdh.	90–120 Wdh.
15	450–750	750–1350	1350–1800
25	750–1250	1250–2250	2250–3000
40	1200–2000	2000–3600	3600–4800

Stil Wiederholungen pro Bild

Smoke Test: 15–30
Typischer Sweet Spot: 25–60
Obergrenze: 60–80 (nur mit großen, diversen Datensätzen)

Beispiele (batch=1, accum=1):

Bilder	15–30 Wdh.	25–60 Wdh.	60–80 Wdh.
30	450–900	750–1800	1800–2400
100	1500–3000	2500–6000	6000–8000

Produkt / Konzept Wiederholungen pro Bild

Smoke Test: 20–40
Typischer Sweet Spot: 30–70
High-Fidelity Push: 70–90 (nur wenn Form/Material noch underfittet)

Beispiele (batch=1, accum=1):

Bilder	20–40 Wdh.	30–70 Wdh.	70–90 Wdh.
20	400–800	600–1400	1400–1800
50	1000–2000	1500–3500	3500–4500
80	1600–3200	2400–5600	5600–7200

Text Encoder Optimierungen (rechte Seite von TRAINING)

Unload TE
Verwende nur für reine Trigger-Workflows, bei denen du den VRAM-Verbrauch minimieren möchtest und nicht auf Beschriftungen pro Bild angewiesen bist.
Cache Text Embeddings
Aktiviere nur wenn:

Beschriftungen statisch sind,
Caption Dropout AUS ist,
DOP AUS ist.

Wenn du Caption Dropout oder DOP verwendest, lass es AUS.

Regularisierung (rechte Seite von TRAINING)

Differential Output Preservation (DOP) kann helfen, Bleed zu verhindern.

Was DOP macht
Ermutigt das LoRA, sich wie ein kontrolliertes Delta zu verhalten:

starker Effekt wenn Trigger vorhanden,
minimaler Effekt wenn Trigger abwesend.

Wann DOP aktivieren

Charakter: normalerweise ja (besonders für sauberes Ein/Aus-Trigger-Verhalten).
Stil: optional (verwende es, wenn du einen aufrufbaren Stil möchtest).
Produkt: empfohlen, wenn die Produktidentität in alles überschwappt.

Wichtige Kompatibilitätsregel für Qwen-Image-2512 LoRA-Training

Wenn DOP AN ist, cache keine Text-Embeddings.

Blank Prompt Preservation

Lass es AUS, es sei denn, du hast einen bestimmten Grund, das Verhalten für leere Prompts zu erhalten.

5.3.7 ADVANCED-Panel – Geschwindigkeit & Stabilitätsoptionen

Do Differential Guidance
Optionaler Regler, um das „Lernsignal" zu erhöhen. Wenn du es aktivierst, starte konservativ (mittlerer Wert) und erhöhe nur, wenn das Lernen zu langsam erscheint.
Latent Caching
Im DATASETS-Bereich kannst du Cache Latents aktivieren (empfohlen für Geschwindigkeit, wenn du genug Festplattenspeicher hast und schnellere Iterationen möchtest).

5.3.8 DATASETS-Panel – Target Dataset, Default Caption, Settings, Resolutions

Innerhalb von Dataset 1:

Target Dataset
Wähle den Datensatz, den du hochgeladen hast (z.B. my_dataset_2512).
Default Caption
Wähle basierend auf deiner Beschriftungsstrategie:

nur Trigger: lass es leer oder nur [trigger]
kurze Beschriftungen: verwende eine konsistente Vorlage für den gesamten Datensatz

Beschriftungsvorlagen:

Charakter: portrait photo of [trigger], studio lighting, sharp focus
Stil: [trigger], watercolor illustration, pastel palette, soft edges (Trigger optional)
Produkt: product photo of [trigger], clean background, studio lighting

Wichtigste Beschriftungsregel

Wenn ein Merkmal in vielen Trainingsbildern erscheint, du es aber nie in Beschriftungen erwähnst, kann das Modell lernen, dass der Trigger dieses Merkmal implizit bedeutet – es wird also versuchen, es jedes Mal zu reproduzieren, wenn du den Trigger verwendest.

Caption Dropout Rate
0.05 ist ein üblicher Startwert, wenn du Text-Embeddings nicht cachst.

Wenn du Text-Embedding-Caching aktivierst, setze Dropout auf 0.
Settings

Cache Latents: empfohlen für Geschwindigkeit (besonders bei großen Datensätzen).
Is Regularization: verwende nur, wenn dieser Datensatz ein Regularisierungsdatensatz ist.
Flip X / Flip Y: standardmäßig AUS. Aktiviere nur, wenn Spiegelungen für dein Motiv/Produkt sicher sind (Hinweis: Spiegeln kann Text/Logos zerstören).

Resolutions
Starte einfach:

Charakter: nur 1024 (sauberer Abdruck), füge 768 später hinzu wenn nötig
Stil: 768 + 1024 wenn der Datensatz Größen mischt
Produkt: nur 1024 am Anfang, füge einen weiteren Bucket hinzu, sobald die Form stabil ist

5.3.9 SAMPLE-Panel – Trainingsvorschauen

Sampling ist dein Frühwarnsystem beim Qwen-Image-2512 LoRA-Training.

Empfohlene Standards:

Sample Every: 250
Sampler: FlowMatch (passend zum Training)
Guidance Scale: 4
Sample Steps: 25
Width/Height: passend zu deinem Haupt-Training-Bucket (oft 1024×1024)
Seed: 42
Walk Seed: optional (mehr Varianz in Vorschauen)

Frühe Abbruchsignale

Charakter: Likeness erreicht Peak, wird dann überkocht; Identitäts-Bleed beginnt; Prompt-Treue sinkt.
Stil: wird ein „Alles-Filter"; sich wiederholende Texturen erscheinen; Prompts werden nicht mehr respektiert.
Produkt: Geometrie verzerrt sich nach Verbesserung; Labels/Logos werden überassertiv; Materialien degradieren.

5.4 Schritt 3 – Training starten & überwachen

Nachdem du den Job konfiguriert hast, gehe zur Training Queue, wähle deinen Job und starte das Training.

Beobachte zwei Dinge:

VRAM-Nutzung (besonders bei 24GB GPUs)
Sample-Bilder (sie sagen dir, wann du stoppen sollst und welcher Checkpoint der beste ist)

Die meisten Benutzer erzielen bessere Qwen 2512 LoRA-Training Ergebnisse, indem sie den besten Checkpoint aus dem Sampling auswählen (oft früher), anstatt immer die maximalen Schritte zu beenden.

6. Empfohlene Qwen-Image-2512 LoRA-Training Konfigurationen nach VRAM-Stufe

Qwen 2512 ist groß. Für praktisches Qwen 2512 LoRA-Training denke in Stufen:

24GB VRAM (häufig): machbar, aber du brauchst typischerweise Low-Bit-Quantisierung + ARA für 1024er Training
40–48GB VRAM: komfortables 1024er Training mit weniger Kompromissen
80GB+ VRAM: einfachstes Setup, schnellste Iteration, weniger Bedarf an Speicheroptimierung

Wenn du unter 24GB bist: Du kannst manchmal bei niedrigerer Auflösung (z.B. 768) mit aggressiven Speichertaktiken trainieren, aber erwarte langsamere Läufe und instabilere Stabilität.

Verwende ARA, wenn du eines der folgenden möchtest:

Qwen 2512 bei 1024×1024 auf 24GB trainieren
Weniger OOM-Probleme
Stabile Konvergenz ohne schweres CPU-Offload

7. Häufige Qwen-Image-2512 LoRA-Training Probleme und Lösungen

7.1 Quantisierung schlägt beim Start fehl (ARA / dtype-Mismatch bei Qwen-Image-2512)

Symptome

Training stoppt sofort während des Starts.
Fehler wie „Failed to quantize … Expected dtype …".

Warum das passiert

Der gewählte ARA- oder Quantisierungsmodus ist nicht vollständig kompatibel mit dem aktuellen AI Toolkit Build oder der Umgebung.

Lösung (schnellste Reihenfolge)

Aktualisiere AI Toolkit und Abhängigkeiten auf eine Version, die bekanntermaßen Qwen-Image-2512 unterstützt.
Wechsle den ARA-Modus:

Wenn 3-Bit ARA fehlschlägt → versuche 4-Bit ARA.
Wenn 4-Bit ARA fehlschlägt → versuche 3-Bit ARA.

Verwende temporär einen höherpräzisen Quantisierungsmodus, um zu bestätigen, dass der Rest des Training-Setups funktioniert, dann wechsle zurück zu ARA.

7.2 Charakter-Identität wird generisch bei Batch Size > 1

Symptome

Frühe Samples sehen vielversprechend aus, aber das finale LoRA fühlt sich „durchschnittlich" an.
Der Charakter sieht nicht mehr wie eine bestimmte Person aus.

Warum das passiert

Größere Batches können beim Qwen-Image-2512 LoRA-Training für Charaktere Übergeneralisierung fördern.

Lösung

Bevorzuge Batch Size = 1 und Gradient Accumulation = 1.
Wenn du einen größeren effektiven Batch brauchst, erhöhe Gradient Accumulation statt Batch Size und beobachte die Samples genau.

7.3 Likeness „rastet nie ein" (falsches Timestep-Verhalten)

Symptome

Kleidung, Pose oder Vibe sind korrekt, aber das Gesicht oder die Identität ist inkonsistent.
Ergebnisse variieren stark zwischen Prompts.

Warum das passiert

Für realistische Charaktere reagiert Qwen-Image-2512 oft besser auf sigmoid-artiges Timestep-Verhalten als auf gewichtete Timesteps.

Lösung

Für Charakter (und oft Produkt) LoRAs wechsle Timestep Type zu sigmoid.
Bewerte Samples früh; warte nicht bis zum Ende des Trainings.

7.4 Gesichter werden „frittiert" oder wachsartig bei späteren Checkpoints

Symptome

Ein Checkpoint sieht großartig aus, aber spätere sehen überschärft, plastisch oder instabil aus.
Identitäts-Bleed nimmt schnell zu.

Warum das passiert

Qwen-Image-2512 LoRA-Training für Charaktere kann schnell degradieren, sobald du ungefähr ~100 Wiederholungen pro Bild überschreitest.

Lösung

Wähle einen früheren Checkpoint (oft die beste Lösung).
Reduziere die Gesamtwiederholungen/Schritte und bleibe näher am empfohlenen Bereich.
Wenn nötig, senke den LoRA-Rang oder füge mehr Datensatz-Varianz hinzu, bevor du die Schritte erhöhst.

7.5 Stil-LoRA ist inkonsistent oder wirkt wie ein „Alles-Filter"

Symptome

Manchmal erscheint der Stil, manchmal nicht.
Oder er überschreibt immer den Prompt-Inhalt.

Warum das passiert

Stil-LoRAs brauchen oft mehr Datensatz-Breite und längeres Gesamttraining als Charakter-LoRAs.

Lösung

Füge diversere Stil-Beispiele hinzu (Menschen, Objekte, Umgebungen).
Halte die Wiederholungen pro Bild vernünftig und erhöhe das Gesamtsignal über mehr Bilder statt extremer Wiederholungen.
Sample oft, um zu vermeiden, dass der Stil zu einem stumpfen globalen Filter wird.

8. Dein Qwen 2512 LoRA nach dem Training verwenden

Sobald das Training abgeschlossen ist, kannst du dein Qwen 2512 LoRA auf zwei einfache Arten verwenden:

Run LoRA – öffne die Qwen‑Image‑2512 Run LoRA Seite. Auf dieser Base‑Model‑Inference‑Seite kannst du entweder ein LoRA‑Asset auswählen, das du auf RunComfy trainiert hast, oder eine LoRA‑Datei importieren, die du mit AI Toolkit trainiert hast, und anschließend Inference über das Playground oder die API ausführen. RunComfy verwendet dasselbe Base Model und die vollständige AI‑Toolkit‑Pipeline‑Definition aus deiner Training‑Config, sodass du in der Inference genau das bekommst, was du im Training gesehen hast — diese enge Ausrichtung von Training und Inference hilft, die Ergebnisse konsistent mit deinen Trainings‑Samples zu halten.
ComfyUI Workflows – starte eine ComfyUI Instanz und baue entweder deinen eigenen Workflow oder lade einen wie Qwen Image 2512, füge einen LoRA-Loader-Knoten hinzu, setze dein LoRA ein und passe das LoRA-Gewicht und andere Einstellungen für detailliertere Kontrolle an.

Teste dein Qwen 2512 LoRA in der Inferenz

Charakter-Tests

Nahaufnahme-Portrait-Prompt
Mittelaufnahme-Prompt
Ganzkörper-Prompt

Stil-Tests

Mehrere Motivkategorien (Mensch/Objekt/Umgebung)

Produkt-Tests

Sauberer Studio-Prompt + ein komplexer Szenen-Prompt

OstrisAI-Toolkit

New Training Job

Job

Model

Quantization

Target

Save

Training

Advanced

Datasets

Dataset 1

Sample

Inhaltsverzeichnis

1. Qwen‑Image‑2512 Überblick: Was dieses Text-zu-Bild-Modell kann

Was Qwen-Image-2512 LoRA-Training ist (und was „gut" bedeutet)

Wähle dein Ziel: Charakter vs. Stil vs. Produkt/Konzept

Charakter / Likeness

Stil

Produkt / Konzept

2. Umgebungsoptionen: Lokales AI Toolkit vs. Cloud AI Toolkit auf RunComfy

2.1 Lokales AI Toolkit (deine eigene GPU)

2.2 Cloud AI Toolkit auf RunComfy (H100 / H200)

3. Hardware & VRAM-Anforderungen für Qwen-Image-2512 LoRA-Training

3.1 Hardware-Planung: VRAM-Stufen und wann ARA wichtig wird

3.2 ARA erklärt: Was es ist, wann man es nutzt und wie es das Training beeinflusst

Was ARA ist

Wann ARA für Qwen 2512 verwenden

Wie ARA das Training beeinflusst (Kompromisse)

4. Einen Qwen-Image-2512 LoRA-Training Datensatz erstellen

4.1 Datensatzdesign: Was du für jedes Ziel sammeln solltest

Universelle Regeln

Charakter-Datensatz (15–50 Bilder)

Stil-Datensatz (30–200 Bilder)

Produkt / Konzept-Datensatz (20–80 Bilder)

4.2 Beschriftungen & Trigger: Vorlagen für Charakter / Stil / Produkt

4.2.1 Die wichtigste Beschriftungsregel

4.2.2 Charakter-Beschriftungsvorlagen

4.2.3 Stil-Beschriftungsvorlagen

4.2.4 Produkt/Konzept-Beschriftungsvorlagen

5. Schritt für Schritt: Qwen-Image-2512 LoRA-Training im AI Toolkit

5.1 Schritt 0 – Wähle dein Ziel (Charakter vs. Stil vs. Produkt)

5.2 Schritt 1 – Datensätze im AI Toolkit erstellen

5.3 Schritt 2 – Einen neuen Job erstellen

5.3.1 JOB-Panel – Training Name, GPU ID, Trigger Word

5.3.2 MODEL-Panel – Model Architecture, Name or Path, Options

5.3.3 QUANTIZATION-Panel – Transformer, Text Encoder

5.3.4 TARGET-Panel – Target Type, Linear Rank

5.3.5 SAVE-Panel – Data Type, Save Every, Max Step Saves to Keep

5.3.6 TRAINING-Panel – Kern-Hyperparameter

Steps: Empfohlene Werte für Charakter vs. Stil vs. Produkt

Text Encoder Optimierungen (rechte Seite von TRAINING)

Regularisierung (rechte Seite von TRAINING)

5.3.7 ADVANCED-Panel – Geschwindigkeit & Stabilitätsoptionen

5.3.8 DATASETS-Panel – Target Dataset, Default Caption, Settings, Resolutions

5.3.9 SAMPLE-Panel – Trainingsvorschauen

5.4 Schritt 3 – Training starten & überwachen

6. Empfohlene Qwen-Image-2512 LoRA-Training Konfigurationen nach VRAM-Stufe

7. Häufige Qwen-Image-2512 LoRA-Training Probleme und Lösungen

7.1 Quantisierung schlägt beim Start fehl (ARA / dtype-Mismatch bei Qwen-Image-2512)

7.2 Charakter-Identität wird generisch bei Batch Size > 1

7.3 Likeness „rastet nie ein" (falsches Timestep-Verhalten)

7.4 Gesichter werden „frittiert" oder wachsartig bei späteren Checkpoints

7.5 Stil-LoRA ist inkonsistent oder wirkt wie ein „Alles-Filter"

8. Dein Qwen 2512 LoRA nach dem Training verwenden

Weitere AI Toolkit LoRA-Training Anleitungen