AI Toolkit LoRA Training Guides

Qwen 2512 LoRA Training (Qwen-Image-2512) mit Ostris AI Toolkit

Dieses Tutorial zeigt, wie du Qwen-Image-2512 LoRAs mit dem Ostris AI Toolkit trainierst. Es erklärt bewährte Defaults für Character-, Style- und Product/Concept-LoRAs, Dataset- & Trigger-Setup, wann ARA + Low VRAM (z.B. für 24GB GPUs) sinnvoll ist, wie du Samples während des Trainings prüfst und typische Probleme gezielt behebst.

Train Diffusion Models with Ostris AI Toolkit

Horizontal scrollen, um das vollständige Formular zu sehen

Ostris AI ToolkitOstrisAI-Toolkit

New Training Job

Job

Model

Quantization

Target

Save

Training

Datasets

Dataset 1

Sample

Qwen‑Image‑2512 (oft als Qwen 2512 bezeichnet) ist ein großes Text-zu-Bild-Basismodell, das sich mit kleinen Adaptern feinabstimmen lässt, um zuverlässig einen Charakter (Likeness), einen Stil oder ein Produkt/Konzept zu erlernen. Diese Anleitung zeigt dir, wie du praktische Qwen-Image-2512 LoRA-Training-Projekte mit Ostris AI Toolkit durchführst – mit stabilen Standardwerten und Lösungen für typische Probleme.

Am Ende dieser Anleitung zum Qwen-Image-2512 LoRA-Training wirst du in der Lage sein:

  • Die richtigen Standardeinstellungen für Charakter- vs. Stil- vs. Produkt-LoRAs beim Qwen 2512 LoRA-Training zu wählen.
  • VRAM-Anforderungen zu planen und zu entscheiden, wann ARA sinnvoll ist.
  • Datensätze, Beschriftungen und Trigger zu erstellen, die typische Fehlerquellen (Überanpassung/Bleed) vermeiden.
  • Einen kurzen Smoke Test durchzuführen und dann Schritte und Einstellungen sicher festzulegen.
Dieser Artikel gehört zur AI Toolkit LoRA-Trainingsreihe. Wenn du neu bei Ostris AI Toolkit bist, starte mit der AI Toolkit LoRA-Training Übersicht, bevor du dich in diesen Leitfaden zum Qwen-2512 LoRA trainieren vertiefst.

Inhaltsverzeichnis


1. Qwen‑Image‑2512 Überblick: Was dieses Text-zu-Bild-Modell kann

Was Qwen-Image-2512 LoRA-Training ist (und was „gut" bedeutet)

Beim Qwen-Image-2512 LoRA-Training ersetzt du nicht das Basismodell – du fügst einen kleinen Adapter hinzu, der es in Richtung einer bestimmten Identität, eines Stils oder eines Produktkonzepts anpasst.

Ein starkes LoRA hat drei Eigenschaften:

  • Stärke: Es verändert die Ausgaben deutlich, wenn es aktiv ist
  • Kontrolle: Es aktiviert sich nur, wenn du es möchtest
  • Generalisierung: Es funktioniert bei neuen Prompts, nicht nur bei deinen Trainingsbildern

Wähle dein Ziel: Charakter vs. Stil vs. Produkt/Konzept

Dein Ziel bestimmt die besten Standardwerte für Datensatzdesign und Trainingseinstellungen beim Qwen Image 2512 LoRA Training.

Charakter / Likeness

  • Am besten für: eine bestimmte Person, Charakter, Prominenten-Ähnlichkeit, konsistentes Gesicht/Identität
  • Hauptrisiken: Identitäts-Bleed (beeinflusst andere Personen), überkochte Gesichter, schnelle Überanpassung
  • Benötigt: engere Timestep-Strategie, sorgfältige Schritte, meist einen Trigger, oft DOP

Stil

  • Am besten für: einen Look/eine Note, Illustrationsstil, Beleuchtungsstil, Textursprache
  • Hauptrisiken: wird zu einem „Alles-Filter", verliert Prompt-Treue
  • Benötigt: mehr Varianz, oft weniger Wiederholungen/Bild als Charakter, Trigger optional

Produkt / Konzept

  • Am besten für: ein bestimmtes Produkt (Schuh, Flasche), Logo-tragende Verpackung, ein neues Objektkonzept
  • Hauptrisiken: Formdrift, inkonsistente Materialien, instabile Geometrie
  • Benötigt: konsistente Rahmung + saubere Beschriftungen; Trigger meist empfohlen
Wenn du unsicher bist, starte das Qwen-Image-2512 LoRA-Training als Smoke Test (kurzer Lauf), dann lege die finalen Schritte fest, sobald du siehst, wie schnell sich dein Datensatz „einprägt."

2. Umgebungsoptionen: Lokales AI Toolkit vs. Cloud AI Toolkit auf RunComfy

Für das Qwen-Image-2512 LoRA-Training kannst du die gleichen zwei Umgebungen wie bei anderen AI Toolkit LoRA-Workflows nutzen:

  • Lokales AI Toolkit auf deiner eigenen GPU
  • Cloud AI Toolkit auf RunComfy mit großen GPUs (H100 / H200)

Die Training-Oberfläche, Parameter und der Workflow sind in beiden Fällen identisch. Der einzige Unterschied ist, wo die GPU läuft und wie viel VRAM dir zur Verfügung steht.


2.1 Lokales AI Toolkit (deine eigene GPU)

Installiere AI Toolkit aus dem AI Toolkit GitHub Repository und starte dann die Web-Oberfläche. Lokales Training ist eine gute Wahl, wenn:

  • Du bereits eine NVIDIA GPU hast (typischerweise 24GB VRAM oder mehr für komfortables 1024er Training)
  • Du mit CUDA, Treibern, Festplattenspeicher und lang laufenden Jobs vertraut bist

2.2 Cloud AI Toolkit auf RunComfy (H100 / H200)

Mit dem Cloud AI Toolkit auf RunComfy läuft das AI-Toolkit Qwen-Image-2512 LoRA-Training vollständig im Browser:

  • Du installierst nichts lokal
  • Du öffnest einen Browser, meldest dich an und landest direkt in der AI Toolkit Training-Oberfläche
  • Du kannst große GPUs wie H100 (80GB) oder H200 (141GB) auswählen, wenn du einen Job startest
  • Du bekommst einen persistenten Workspace, in dem Datensätze, Konfigurationen und Checkpoints gespeichert werden und sitzungsübergreifend wiederverwendet werden können

Diese Umgebung ist besonders nützlich für das Qwen 2512 LoRA-Training, wenn:

  • Du schnellere Iteration bei 1024×1024 ohne aggressive Speichertricks möchtest
  • Du mit größeren LoRA-Rängen, mehr Buckets oder höheren Batch-Größen experimentieren möchtest
  • Du keine Zeit mit CUDA- oder Treiberproblemen verbringen möchtest

👉 Hier öffnen: Cloud AI Toolkit auf RunComfy


3. Hardware & VRAM-Anforderungen für Qwen-Image-2512 LoRA-Training

3.1 Hardware-Planung: VRAM-Stufen und wann ARA wichtig wird

Qwen 2512 ist groß. Für praktisches Qwen-Image-2512 LoRA-Training denke in Stufen:

  • 24GB VRAM (häufig): machbar, aber du brauchst typischerweise Low-Bit-Quantisierung + ARA für 1024er Training
  • 40–48GB VRAM: komfortables 1024er Training mit weniger Kompromissen
  • 80GB+ VRAM: einfachstes Setup, schnellste Iteration, weniger Bedarf an Speicheroptimierung

Wenn du unter 24GB bist: Du kannst manchmal bei niedrigerer Auflösung (z.B. 768) mit aggressiven Speichertaktiken trainieren, aber erwarte langsamere Läufe und instabilere Stabilität.


3.2 ARA erklärt: Was es ist, wann man es nutzt und wie es das Training beeinflusst

Was ARA ist

ARA (Accuracy Recovery Adapter) ist ein Wiederherstellungsmechanismus für sehr niedrige Bit-Quantisierung (üblicherweise 3-Bit oder 4-Bit). Das Basismodell läuft quantisiert, um VRAM zu sparen, während ARA hilft, die durch Quantisierung verlorene Genauigkeit wiederherzustellen.

Wann ARA für Qwen 2512 verwenden

Verwende ARA, wenn du eines der folgenden möchtest:

  • Qwen 2512 bei 1024×1024 auf 24GB trainieren
  • Weniger OOM-Probleme
  • Stabile Konvergenz ohne schweres CPU-Offload

Wie ARA das Training beeinflusst (Kompromisse)

Vorteile

  • Macht 1024er Training auf Consumer-GPUs möglich
  • Verbessert oft die Stabilität im Vergleich zu „einfacher Low-Bit"-Quantisierung

Nachteile

  • Fügt zusätzliche bewegliche Teile hinzu (Tooling/Versionskompatibilität ist wichtig)
  • Bei Quantisierungsfehlern musst du möglicherweise den Quantisierungsmodus anpassen oder deine Umgebung aktualisieren

Praktische Anleitung für Qwen-Image-2512 LoRA-Training

  • Starte mit 3-Bit ARA auf 24GB
  • Bei Quantisierungsfehlern versuche 4-Bit ARA
  • Bei anhaltenden Problemen verwende temporär einen höherpräzisen Quantisierungsmodus, um den Rest deiner Pipeline zu validieren, dann kehre zu ARA zurück

4. Einen Qwen-Image-2512 LoRA-Training Datensatz erstellen

4.1 Datensatzdesign: Was du für jedes Ziel sammeln solltest

Die meisten Fehlschläge beim Qwen-Image-2512 LoRA-Training sind verkappte Datensatzfehler.

Universelle Regeln

  • Konvertiere alles zu RGB (vermeide Graustufen/CMYK)
  • Entferne defekte/beschädigte Bilder
  • Vermeide Fast-Duplikate, es sei denn, du möchtest absichtlich, dass diese Aufnahme dominiert
  • Halte die Auflösung wo möglich konsistent (oder verwende eine kleine Anzahl von Buckets)

Charakter-Datensatz (15–50 Bilder)

Ziele auf:

  • 30–60% Nahaufnahmen / Kopf-und-Schulter
  • 30–50% Mittelaufnahmen
  • 10–20% Ganzkörper (optional, hilft aber bei Kleidung/Posen-Generalisierung)

Halte Beleuchtung und Hintergründe ausreichend variiert, damit „Identität" das konsistente Signal ist.

Stil-Datensatz (30–200 Bilder)

Ziele auf:

  • Breite Motivvielfalt (Menschen, Objekte, Umgebungen)
  • Variierte Komposition und Farbsituationen
  • Konsistente Stilhinweise (Pinsel, Schattierung, Palette, Filmkorn, etc.)

Qwen-Image-2512 LoRA-Training für Stile generalisiert besser, wenn der Stil der einzige konsistente Faktor ist.

Produkt / Konzept-Datensatz (20–80 Bilder)

Ziele auf:

  • Konsistente Winkel und Rahmung (Front/Seite/45-Grad)
  • Konsistente Produktskalierung im Bild (vermeide wilde Zoom-Unterschiede)
  • Mehrere Beleuchtungsbedingungen, wenn Material wichtig ist (matt vs. glänzend)
  • Saubere Hintergründe helfen am Anfang (komplexe Szenen kannst du später hinzufügen)

4.2 Beschriftungen & Trigger: Vorlagen für Charakter / Stil / Produkt

Du kannst Qwen 2512 mit nur Trigger oder mit kurzen konsistenten Beschriftungen trainieren.

4.2.1 Die wichtigste Beschriftungsregel

Wenn ein Merkmal in vielen Trainingsbildern erscheint, du es aber nie in den Beschriftungen erwähnst, kann das Modell lernen, dass der Trigger dieses Merkmal implizit bedeutet – es wird also versuchen, es jedes Mal zu reproduzieren, wenn du den Trigger verwendest.

Das ist ein häufiger Grund, warum ein LoRA einen Haarschnitt, ein Outfit, eine Hintergrundfarbe oder einen Kamerastil „erzwingt", wann immer es aktiviert ist.

4.2.2 Charakter-Beschriftungsvorlagen

Empfohlen: Verwende einen Trigger. Halte Beschriftungen kurz.

  • Nur Trigger:

    [trigger]

  • Kurze Beschriftung:

    portrait photo of [trigger], studio lighting, sharp focus

    photo of [trigger], natural skin texture, realistic

Vermeide übermäßige Beschreibung von Gesichtsteilen (Augen, Nase, etc.). Lass das Modell die Identität aus den Bildern lernen.

4.2.3 Stil-Beschriftungsvorlagen

Trigger ist optional. Wenn du einen verwendest, hast du einen Ein/Aus-Schalter.

  • Ohne Trigger, kurze Beschriftung:

    in a watercolor illustration style, soft edges, pastel palette

  • Trigger + kurze Beschriftung:

    [trigger], watercolor illustration, pastel palette, soft edges

Für Stile sollten Beschriftungen Stilattribute beschreiben, nicht den Szeneninhalt.

4.2.4 Produkt/Konzept-Beschriftungsvorlagen

Trigger wird für Kontrolle dringend empfohlen.

  • Einfach:

    product photo of [trigger], clean background, studio lighting

  • Wenn das Produkt definierende Merkmale hat:

    product photo of [trigger], transparent bottle, blue label, studio lighting

Vermeide lange Beschriftungen. Für Produkte verbessert konsistente Formulierung die Geometriestabilität.


5. Schritt für Schritt: Qwen-Image-2512 LoRA-Training im AI Toolkit

Dieser Abschnitt folgt dem gleichen Ablauf wie die AI Toolkit Training-Oberfläche. Erstelle zuerst deine Datensätze, dann konfiguriere einen neuen Job Panel für Panel.

5.1 Schritt 0 – Wähle dein Ziel (Charakter vs. Stil vs. Produkt)

Bevor du Einstellungen anfasst, entscheide, was du trainierst. Dies bestimmt die besten Standardwerte für Beschriftungen, Schritte und Regularisierung.

  • Charakter / Likeness: stärkste Identitätskonsistenz (Gesicht/Erscheinung). Höchstes Risiko für Bleed und schnelle Überanpassung.
  • Stil: konsistenter visueller Look (Palette/Textur/Beleuchtung). Höchstes Risiko, ein „Alles-Filter" zu werden.
  • Produkt / Konzept: stabile Objektidentität und Geometrie. Höchstes Risiko für Form-/Materialdrift.

Wenn du unsicher bist, führe zuerst einen kurzen Smoke Test durch (siehe TRAINING + SAMPLE unten), dann lege die Schritte fest, sobald du siehst, wie schnell sich dein Datensatz „einprägt."


5.2 Schritt 1 – Datensätze im AI Toolkit erstellen

Öffne in der AI Toolkit-Oberfläche den Datasets-Tab.

Erstelle mindestens einen Datensatz (Beispielname):

  • my_dataset_2512

Lade deine Bilder in diesen Datensatz hoch.

Datensatz-Qualitätsregeln (alle Ziele)

  • Konvertiere alles zu RGB (vermeide Graustufen/CMYK).
  • Entferne defekte/beschädigte Dateien.
  • Vermeide Fast-Duplikate, es sei denn, du möchtest absichtlich, dass dieser Look/diese Pose dominiert.

Empfohlene Datensatzgrößen

  • Charakter: 15–50 Bilder
  • Stil: 30–200 Bilder (mehr Varianz hilft)
  • Produkt: 20–80 Bilder (konsistente Rahmung hilft)

5.3 Schritt 2 – Einen neuen Job erstellen

Öffne den New Job-Tab. Konfiguriere jedes Panel in der Reihenfolge, wie es erscheint.


5.3.1 JOB-Panel – Training Name, GPU ID, Trigger Word

  • Training Name

    Wähle einen klaren Namen, den du später wiedererkennst (z.B. qwen_2512_character_v1, qwen_2512_style_v1, qwen_2512_product_v1).

  • GPU ID – bei einer lokalen Installation wähle die GPU auf deinem Rechner. Im Cloud AI Toolkit auf RunComfy lass GPU ID auf dem Standard. Der tatsächliche Maschinentyp (H100 / H200) wird später gewählt, wenn du den Job aus der Training Queue startest.
  • Trigger Word

    Empfohlene Verwendung je nach Ziel:

    • Charakter: dringend empfohlen (gibt dir saubere Ein/Aus-Kontrolle und hilft Bleed zu verhindern).
    • Stil: optional (verwende es, wenn du einen „aufrufbaren Stil" statt immer-an möchtest).
    • Produkt: dringend empfohlen (hilft, das erlernte Konzept kontrollierbar zu halten).

Wenn du einen Trigger verwendest, können deine Beschriftungen einen Platzhalter wie [trigger] enthalten und konsistenten Vorlagen folgen (siehe unten).


5.3.2 MODEL-Panel – Model Architecture, Name or Path, Options

  • Model Architecture

    Wähle Qwen-Image-2512.

  • Name or Path

    Verwende Qwen/Qwen-Image-2512. In den meisten AI Toolkit Builds wird durch Auswahl von Qwen‑Image‑2512 dieser Wert automatisch ausgefüllt.

    Wenn du es überschreibst, verwende das Hugging Face Repo-ID-Format: org-or-user/model-name (optional org-or-user/model-name@revision).

  • Options
    • Low VRAM: aktiviere dies für 24GB GPUs beim Qwen-2512 LoRA trainieren.
    • Layer Offloading: behandle dies als letzten Ausweg, wenn du nach Quantisierung, niedrigerem Rang und weniger Buckets immer noch OOM bekommst.

Offloading-Reihenfolge (Best Practice):

1) ARA + Low VRAM

2) Rang reduzieren

3) Auflösungs-Buckets reduzieren

4) Sampling-Frequenz/-Auflösung reduzieren

5) Dann Layer Offloading aktivieren


5.3.3 QUANTIZATION-Panel – Transformer, Text Encoder

Hier entscheidet sich, ob die meisten 24GB Qwen-Image-2512 LoRA-Training Läufe erfolgreich sind oder nicht.

  • 24GB Baseline (empfohlen für 1024er Training)
    • Quantisiere den Transformer und verwende ARA (zuerst 3-Bit, 4-Bit wenn nötig).
    • Quantisiere den Text Encoder auf float8, wenn du zusätzlichen VRAM-Spielraum brauchst.
  • Große VRAM-GPUs

    Du kannst die Quantisierung reduzieren oder deaktivieren, wenn das Training stabil und schnell genug ist.

Bei Quantisierungsfehlern (dtype/quantize Fehler) behandle es zunächst als Tooling-Kompatibilitätsproblem:

  • wechsle zwischen 3-Bit ↔ 4-Bit ARA,
  • aktualisiere AI Toolkit/Abhängigkeiten,
  • oder verwende temporär einen höherpräzisen Modus, um den Rest deines Job-Setups zu validieren, dann kehre zu ARA zurück.

5.3.4 TARGET-Panel – Target Type, Linear Rank

  • Target Type: wähle LoRA.
  • Linear Rank

    Empfohlene Startwerte je nach Ziel:

    • Charakter: 32
    • Stil: 16–32
    • Produkt: 32

Allgemeine Regeln:

  • Bei OOM → reduziere zuerst den Rang, bevor du alles andere anfasst.
  • Bei Underfitting → stimme zuerst Timesteps/Steps/LR ab, dann erwäge, den Rang zu erhöhen.
  • Bei Overfitting → reduziere Wiederholungen/Schritte, reduziere Rang, füge Varianz hinzu, erwäge DOP.

5.3.5 SAVE-Panel – Data Type, Save Every, Max Step Saves to Keep

  • Data Type: BF16 (stabiler Standard).
  • Save Every: 250 (gute Checkpoint-Kadenz).
  • Max Step Saves to Keep: 4 (hält die Festplattennutzung unter Kontrolle).

5.3.6 TRAINING-Panel – Kern-Hyperparameter

Dies sind die Standardwerte, mit denen die meisten Läufe starten:

  • Batch Size: 1
  • Gradient Accumulation: 1
  • Optimizer: AdamW8Bit
  • Learning Rate: 0.0001
  • Weight Decay: 0.0001
  • Timestep Type: Weighted
  • Timestep Bias: Balanced
  • Loss Type: Mean Squared Error
  • Use EMA: AUS (für Qwen 2512 LoRAs)

Timestep Type Anleitung je nach Ziel

  • Charakter: Weighted ist eine sichere Baseline; wenn die Likeness nicht einrastet oder inkonsistent aussieht, probiere eine identitätsfreundlichere Timestep-Einstellung (verbessert oft den Charakter-Abdruck).
  • Stil: Weighted ist normalerweise in Ordnung; erhöhe die Varianz, bevor du die Schritte erhöhst.
  • Produkt: Weighted ist eine stabile Baseline; wenn die Geometrie driftet, reduziere zuerst Wiederholungen oder straffe Beschriftungen/Trigger.
Steps: Empfohlene Werte für Charakter vs. Stil vs. Produkt

Steps sollten keine einzelne magische Zahl sein. Ein zuverlässigerer Weg sind Wiederholungen pro Bild:

  • Wiederholungen ≈ (steps × batch_size × grad_accum) ÷ num_images
  • bei batch_size=1 und grad_accum=1: steps ≈ Wiederholungen × num_images

Wenn du die Gradient Accumulation auf 2 oder 4 erhöhst, reduziere die Steps proportional.

Charakter (Likeness) Wiederholungen pro Bild

  • Smoke Test: 30–50
  • Typischer Sweet Spot: 50–90
  • High-Likeness Push: 90–120 (achte auf Bleed)

Beispiele (batch=1, accum=1):

Bilder 30–50 Wdh. 50–90 Wdh. 90–120 Wdh.
15 450–750 750–1350 1350–1800
25 750–1250 1250–2250 2250–3000
40 1200–2000 2000–3600 3600–4800

Stil Wiederholungen pro Bild

  • Smoke Test: 15–30
  • Typischer Sweet Spot: 25–60
  • Obergrenze: 60–80 (nur mit großen, diversen Datensätzen)

Beispiele (batch=1, accum=1):

Bilder 15–30 Wdh. 25–60 Wdh. 60–80 Wdh.
30 450–900 750–1800 1800–2400
100 1500–3000 2500–6000 6000–8000

Produkt / Konzept Wiederholungen pro Bild

  • Smoke Test: 20–40
  • Typischer Sweet Spot: 30–70
  • High-Fidelity Push: 70–90 (nur wenn Form/Material noch underfittet)

Beispiele (batch=1, accum=1):

Bilder 20–40 Wdh. 30–70 Wdh. 70–90 Wdh.
20 400–800 600–1400 1400–1800
50 1000–2000 1500–3500 3500–4500
80 1600–3200 2400–5600 5600–7200

Text Encoder Optimierungen (rechte Seite von TRAINING)
  • Unload TE

    Verwende nur für reine Trigger-Workflows, bei denen du den VRAM-Verbrauch minimieren möchtest und nicht auf Beschriftungen pro Bild angewiesen bist.

  • Cache Text Embeddings

    Aktiviere nur wenn:

    • Beschriftungen statisch sind,
    • Caption Dropout AUS ist,
    • DOP AUS ist.

Wenn du Caption Dropout oder DOP verwendest, lass es AUS.


Regularisierung (rechte Seite von TRAINING)

Differential Output Preservation (DOP) kann helfen, Bleed zu verhindern.

  • Was DOP macht

    Ermutigt das LoRA, sich wie ein kontrolliertes Delta zu verhalten:

    • starker Effekt wenn Trigger vorhanden,
    • minimaler Effekt wenn Trigger abwesend.
  • Wann DOP aktivieren
    • Charakter: normalerweise ja (besonders für sauberes Ein/Aus-Trigger-Verhalten).
    • Stil: optional (verwende es, wenn du einen aufrufbaren Stil möchtest).
    • Produkt: empfohlen, wenn die Produktidentität in alles überschwappt.

Wichtige Kompatibilitätsregel für Qwen-Image-2512 LoRA-Training

Wenn DOP AN ist, cache keine Text-Embeddings.

Blank Prompt Preservation

Lass es AUS, es sei denn, du hast einen bestimmten Grund, das Verhalten für leere Prompts zu erhalten.


5.3.7 ADVANCED-Panel – Geschwindigkeit & Stabilitätsoptionen

  • Do Differential Guidance

    Optionaler Regler, um das „Lernsignal" zu erhöhen. Wenn du es aktivierst, starte konservativ (mittlerer Wert) und erhöhe nur, wenn das Lernen zu langsam erscheint.

  • Latent Caching

    Im DATASETS-Bereich kannst du Cache Latents aktivieren (empfohlen für Geschwindigkeit, wenn du genug Festplattenspeicher hast und schnellere Iterationen möchtest).


5.3.8 DATASETS-Panel – Target Dataset, Default Caption, Settings, Resolutions

Innerhalb von Dataset 1:

  • Target Dataset

    Wähle den Datensatz, den du hochgeladen hast (z.B. my_dataset_2512).

  • Default Caption

    Wähle basierend auf deiner Beschriftungsstrategie:

    • nur Trigger: lass es leer oder nur [trigger]
    • kurze Beschriftungen: verwende eine konsistente Vorlage für den gesamten Datensatz

Beschriftungsvorlagen:

  • Charakter: portrait photo of [trigger], studio lighting, sharp focus
  • Stil: [trigger], watercolor illustration, pastel palette, soft edges (Trigger optional)
  • Produkt: product photo of [trigger], clean background, studio lighting

Wichtigste Beschriftungsregel

Wenn ein Merkmal in vielen Trainingsbildern erscheint, du es aber nie in Beschriftungen erwähnst, kann das Modell lernen, dass der Trigger dieses Merkmal implizit bedeutet – es wird also versuchen, es jedes Mal zu reproduzieren, wenn du den Trigger verwendest.

  • Caption Dropout Rate

    0.05 ist ein üblicher Startwert, wenn du Text-Embeddings nicht cachst.

    Wenn du Text-Embedding-Caching aktivierst, setze Dropout auf 0.

  • Settings
    • Cache Latents: empfohlen für Geschwindigkeit (besonders bei großen Datensätzen).
    • Is Regularization: verwende nur, wenn dieser Datensatz ein Regularisierungsdatensatz ist.
    • Flip X / Flip Y: standardmäßig AUS. Aktiviere nur, wenn Spiegelungen für dein Motiv/Produkt sicher sind (Hinweis: Spiegeln kann Text/Logos zerstören).
  • Resolutions

    Starte einfach:

    • Charakter: nur 1024 (sauberer Abdruck), füge 768 später hinzu wenn nötig
    • Stil: 768 + 1024 wenn der Datensatz Größen mischt
    • Produkt: nur 1024 am Anfang, füge einen weiteren Bucket hinzu, sobald die Form stabil ist

5.3.9 SAMPLE-Panel – Trainingsvorschauen

Sampling ist dein Frühwarnsystem beim Qwen-Image-2512 LoRA-Training.

Empfohlene Standards:

  • Sample Every: 250
  • Sampler: FlowMatch (passend zum Training)
  • Guidance Scale: 4
  • Sample Steps: 25
  • Width/Height: passend zu deinem Haupt-Training-Bucket (oft 1024×1024)
  • Seed: 42
  • Walk Seed: optional (mehr Varianz in Vorschauen)

Frühe Abbruchsignale

  • Charakter: Likeness erreicht Peak, wird dann überkocht; Identitäts-Bleed beginnt; Prompt-Treue sinkt.
  • Stil: wird ein „Alles-Filter"; sich wiederholende Texturen erscheinen; Prompts werden nicht mehr respektiert.
  • Produkt: Geometrie verzerrt sich nach Verbesserung; Labels/Logos werden überassertiv; Materialien degradieren.

5.4 Schritt 3 – Training starten & überwachen

Nachdem du den Job konfiguriert hast, gehe zur Training Queue, wähle deinen Job und starte das Training.

Beobachte zwei Dinge:

  • VRAM-Nutzung (besonders bei 24GB GPUs)
  • Sample-Bilder (sie sagen dir, wann du stoppen sollst und welcher Checkpoint der beste ist)

Die meisten Benutzer erzielen bessere Qwen 2512 LoRA-Training Ergebnisse, indem sie den besten Checkpoint aus dem Sampling auswählen (oft früher), anstatt immer die maximalen Schritte zu beenden.


6. Empfohlene Qwen-Image-2512 LoRA-Training Konfigurationen nach VRAM-Stufe

Qwen 2512 ist groß. Für praktisches Qwen 2512 LoRA-Training denke in Stufen:

  • 24GB VRAM (häufig): machbar, aber du brauchst typischerweise Low-Bit-Quantisierung + ARA für 1024er Training
  • 40–48GB VRAM: komfortables 1024er Training mit weniger Kompromissen
  • 80GB+ VRAM: einfachstes Setup, schnellste Iteration, weniger Bedarf an Speicheroptimierung

Wenn du unter 24GB bist: Du kannst manchmal bei niedrigerer Auflösung (z.B. 768) mit aggressiven Speichertaktiken trainieren, aber erwarte langsamere Läufe und instabilere Stabilität.

Verwende ARA, wenn du eines der folgenden möchtest:

  • Qwen 2512 bei 1024×1024 auf 24GB trainieren
  • Weniger OOM-Probleme
  • Stabile Konvergenz ohne schweres CPU-Offload

7. Häufige Qwen-Image-2512 LoRA-Training Probleme und Lösungen

7.1 Quantisierung schlägt beim Start fehl (ARA / dtype-Mismatch bei Qwen-Image-2512)

Symptome

  • Training stoppt sofort während des Starts.
  • Fehler wie „Failed to quantize … Expected dtype …".

Warum das passiert

  • Der gewählte ARA- oder Quantisierungsmodus ist nicht vollständig kompatibel mit dem aktuellen AI Toolkit Build oder der Umgebung.

Lösung (schnellste Reihenfolge)

  1. Aktualisiere AI Toolkit und Abhängigkeiten auf eine Version, die bekanntermaßen Qwen-Image-2512 unterstützt.
  2. Wechsle den ARA-Modus:
    • Wenn 3-Bit ARA fehlschlägt → versuche 4-Bit ARA.
    • Wenn 4-Bit ARA fehlschlägt → versuche 3-Bit ARA.
  3. Verwende temporär einen höherpräzisen Quantisierungsmodus, um zu bestätigen, dass der Rest des Training-Setups funktioniert, dann wechsle zurück zu ARA.

7.2 Charakter-Identität wird generisch bei Batch Size > 1

Symptome

  • Frühe Samples sehen vielversprechend aus, aber das finale LoRA fühlt sich „durchschnittlich" an.
  • Der Charakter sieht nicht mehr wie eine bestimmte Person aus.

Warum das passiert

  • Größere Batches können beim Qwen-Image-2512 LoRA-Training für Charaktere Übergeneralisierung fördern.

Lösung

  • Bevorzuge Batch Size = 1 und Gradient Accumulation = 1.
  • Wenn du einen größeren effektiven Batch brauchst, erhöhe Gradient Accumulation statt Batch Size und beobachte die Samples genau.

7.3 Likeness „rastet nie ein" (falsches Timestep-Verhalten)

Symptome

  • Kleidung, Pose oder Vibe sind korrekt, aber das Gesicht oder die Identität ist inkonsistent.
  • Ergebnisse variieren stark zwischen Prompts.

Warum das passiert

  • Für realistische Charaktere reagiert Qwen-Image-2512 oft besser auf sigmoid-artiges Timestep-Verhalten als auf gewichtete Timesteps.

Lösung

  • Für Charakter (und oft Produkt) LoRAs wechsle Timestep Type zu sigmoid.
  • Bewerte Samples früh; warte nicht bis zum Ende des Trainings.

7.4 Gesichter werden „frittiert" oder wachsartig bei späteren Checkpoints

Symptome

  • Ein Checkpoint sieht großartig aus, aber spätere sehen überschärft, plastisch oder instabil aus.
  • Identitäts-Bleed nimmt schnell zu.

Warum das passiert

  • Qwen-Image-2512 LoRA-Training für Charaktere kann schnell degradieren, sobald du ungefähr ~100 Wiederholungen pro Bild überschreitest.

Lösung

  1. Wähle einen früheren Checkpoint (oft die beste Lösung).
  2. Reduziere die Gesamtwiederholungen/Schritte und bleibe näher am empfohlenen Bereich.
  3. Wenn nötig, senke den LoRA-Rang oder füge mehr Datensatz-Varianz hinzu, bevor du die Schritte erhöhst.

7.5 Stil-LoRA ist inkonsistent oder wirkt wie ein „Alles-Filter"

Symptome

  • Manchmal erscheint der Stil, manchmal nicht.
  • Oder er überschreibt immer den Prompt-Inhalt.

Warum das passiert

  • Stil-LoRAs brauchen oft mehr Datensatz-Breite und längeres Gesamttraining als Charakter-LoRAs.

Lösung

  • Füge diversere Stil-Beispiele hinzu (Menschen, Objekte, Umgebungen).
  • Halte die Wiederholungen pro Bild vernünftig und erhöhe das Gesamtsignal über mehr Bilder statt extremer Wiederholungen.
  • Sample oft, um zu vermeiden, dass der Stil zu einem stumpfen globalen Filter wird.

8. Dein Qwen 2512 LoRA nach dem Training verwenden

Sobald das Training abgeschlossen ist, kannst du dein Qwen 2512 LoRA auf zwei einfache Arten verwenden:

  • Model Playground – öffne den Qwen‑Image‑2512 LoRA Playground und füge die URL deines trainierten LoRA ein, um schnell zu sehen, wie es sich auf dem Basismodell verhält.
  • ComfyUI Workflows – starte eine ComfyUI Instanz und baue entweder deinen eigenen Workflow oder lade einen wie Qwen Image 2512, füge einen LoRA-Loader-Knoten hinzu, setze dein LoRA ein und passe das LoRA-Gewicht und andere Einstellungen für detailliertere Kontrolle an.

Teste dein Qwen 2512 LoRA in der Inferenz

Charakter-Tests

  • Nahaufnahme-Portrait-Prompt
  • Mittelaufnahme-Prompt
  • Ganzkörper-Prompt

Stil-Tests

  • Mehrere Motivkategorien (Mensch/Objekt/Umgebung)

Produkt-Tests

  • Sauberer Studio-Prompt + ein komplexer Szenen-Prompt

Weitere AI Toolkit LoRA-Training Anleitungen

Ready to start training?