Qwen-Image-Edit-2509 LoRA-Training mit Ostris AI Toolkit

Qwen‑Image‑Edit‑2509 ist ein 20B Multi‑Image‑Bearbeitungsmodell, das bis zu drei Bilder gleichzeitig verarbeiten kann (Ziel, Steuerung und Design), um präzise, geometriebewusste Bearbeitungen durchzuführen. Diese Anleitung zeigt dir, wie du Qwen Edit 2509 LoRA trainieren kannst. Am Ende wirst du in der Lage sein:

Ein Qwen Edit 2509 LoRA trainieren für zuverlässige gezielte Bearbeitungsaufgaben (z.B. ein beliebiges Design auf ein Hemd drucken) mit AI Toolkit by Ostris.
Den gesamten Qwen-Edit-2509 LoRA Training Workflow entweder lokal (auch mit <10GB VRAM durch Layer Offloading) oder im Browser mit dem Cloud AI Toolkit auf RunComfy auf H100 / H200 (80GB / 141GB VRAM) ausführen.
Verstehen, warum wichtige Parameter für dieses Modell wichtig sind: die Optionen Match Target Res und Low VRAM, Transformer/Text Encoder Quantisierung, Layer Offloading, Cache Text Embeddings, Differential Output Preservation, Differential Guidance sowie Kernhyperparameter wie Batch Size, Steps und LoRA Rank.
Selbstbewusst Konfigurationen für deine eigenen Bearbeitungs-LoRAs anpassen (Relighting, Clothing Try-on, Skin, Objektersetzung…).

Wenn du nach dem neueren Checkpoint suchst und ein "Konsistenz-zuerst"-Bearbeitungsverhalten bevorzugst, siehe Qwen 2511 LoRA Training.

Dieser Artikel ist Teil der AI Toolkit LoRA Trainingsreihe. Wenn du neu bei Ostris AI Toolkit bist, beginne mit der AI Toolkit LoRA Training Übersicht, bevor du in diese Anleitung eintauchst.

Inhaltsverzeichnis

1. Qwen‑Image‑Edit‑2509 Übersicht: Was dieses Bearbeitungsmodell kann
2. Umgebungsoptionen: Lokales AI Toolkit vs Cloud AI Toolkit auf RunComfy
3. Hardware & VRAM Anforderungen um Qwen Edit 2509 LoRA trainieren zu können
4. Aufbau eines Qwen Edit 2509 LoRA Training Datensatzes
5. Schritt-für-Schritt: Qwen Edit 2509 LoRA trainieren im AI Toolkit
6. Empfohlene Konfigurationen zum Qwen Edit 2509 LoRA trainieren nach VRAM-Stufe
7. Häufige Probleme beim Qwen Edit 2509 LoRA trainieren und Lösungen
8. Verwendung deines Qwen Edit 2509 LoRA nach dem Training

1. Qwen‑Image‑Edit‑2509 Übersicht: Was dieses Bearbeitungsmodell kann

Qwen‑Image‑Edit‑2509 (oft abgekürzt als Qwen Edit 2509 oder Qwen Image Edit Plus) ist die September 2025 Iteration des Qwen‑Image‑Edit Modells. Es basiert auf der 20B Qwen‑Image Basis mit offiziellen Gewichten auf der Qwen‑Image‑Edit‑2509 Modellseite auf Hugging Face.

Im Vergleich zur ersten Qwen‑Image‑Edit Version fügt 2509 hinzu:

Multi-Image-Bearbeitung – das Modell kann 1–3 Eingabebilder gleichzeitig verarbeiten (z.B. Person + Kleidung + Pose oder Quellfoto + Lichtquellenreferenz).
Bildverkettungsverhalten – in den offiziellen Pipelines wird jedes Eingabebild auf etwa 1 Megapixel skaliert und dann zusammen verarbeitet. Das Modell sieht effektiv ein festes Pixelbudget, selbst wenn du mehrere Steuerungsbilder lieferst.
Bessere Text- und Detailbearbeitung – angetrieben von Qwen2.5-VL und einem dedizierten VAE, handhabt es kleine Texte, Logos und feine Details viel besser.

Typische LoRA-Anwendungsfälle, bei denen Leute bereits Qwen 2509 LoRA trainieren:

Clothing Try-on / Outfit Swap – Qwen‑Image‑Edit‑2509‑Clothing‑Tryon‑LoRA.
Relighting / Lichtverfeinerung – Qwen‑Image‑Edit‑2509‑Relight‑LoRA.
Multi-Effekt Stil- & Detailfusion – Qwen‑Image‑Edit‑2509‑Multi‑Effect‑Fusion‑LoRA.
Leichte Restaurierung plus Umwandlung von Weißhintergrundaufnahmen in vollständige Szenen – Qwen‑Image‑Edit‑2509‑White‑Film‑To‑Rendering‑LoRA.
Foto zu Anime Stilisierung – Qwen‑Image‑Edit‑2509‑Anime‑Stylization‑LoRA.
Romantische / Kuss-Pose Bearbeitung – Qwen‑Image‑Edit‑2509‑Passionate‑Kiss‑LoRA.
Karikatur / übertriebener Porträtstil – Qwen‑Image‑Edit‑2509‑Caricature‑LoRA.

Qwen‑Image‑Edit und Qwen‑Image teilen im Wesentlichen dieselbe Basis. Community-Tests zeigen, dass LoRAs, die auf Qwen‑Image trainiert wurden, mit Qwen‑Image‑Edit / 2509 kompatibel sind und umgekehrt, da die Adapter an demselben Backbone ansetzen.

2. Umgebungsoptionen: Lokales AI Toolkit vs Cloud AI Toolkit auf RunComfy

2.1 Lokales AI Toolkit (deine eigene GPU)

Installiere AI Toolkit aus dem AI Toolkit GitHub Repository, dann starte die Web UI. Lokales Training ist eine gute Wahl, wenn du bereits eine 24GB+ NVIDIA Karte hast, mit CUDA / Treibern / Speicherplatz vertraut bist und es nicht stört, das Training über Nacht laufen zu lassen.

2.2 Cloud AI Toolkit auf RunComfy (H100 / H200)

Mit dem Cloud AI Toolkit auf RunComfy läuft AI Toolkit vollständig in der Cloud:

Du musst nichts installieren – öffne einfach einen Browser, melde dich an und du bist in der AI Toolkit UI.
Du hast Zugang zu großen GPUs wie H100 (80GB) und H200 (141GB) für intensive Qwen Edit 2509 LoRA-Training Tutorial Aufgaben.
Du erhältst einen persistenten Workspace – Datensätze, Konfigurationen und vergangene Jobs bleiben an deinem Konto gebunden, sodass du jederzeit zurückkommen und iterieren kannst.

👉 Hier öffnen: Cloud AI Toolkit auf RunComfy

Der Rest dieses Tutorials funktioniert in beiden Umgebungen identisch; nur der Ort, an dem die GPU läuft, ist unterschiedlich.

3. Hardware & VRAM Anforderungen um Qwen Edit 2509 LoRA trainieren zu können

Qwen‑Image‑Edit‑2509 ist ein schweres Modell:

Das Basismodell hat etwa 20B Parameter.
Die Bearbeitungspipeline kann bis zu 3 × ~1MP Bilder gleichzeitig durch den Transformer führen.

In der Standard 32GB Beispielkonfiguration für 2509 (train_lora_qwen_image_edit_2509_32gb.yaml) berichten Benutzer ungefähr:

27–28,5GB VRAM für 1024×1024 Training.
25–26GB VRAM für 768×768 Training — immer noch kein Glück für 24GB.

Deshalb ist das offizielle Beispiel explizit eine 32GB Konfiguration. Aber mit 3-Bit ARA Quantisierung + Low VRAM Modus + Layer Offloading (RAMTorch) zeigt Ostris, dass man Qwen Edit 2509 LoRA trainieren kann mit nur ~8–9GB GPU VRAM, auf Kosten von hohem CPU RAM (60GB+) und langsamerem Training.

Stufe	Wo	Beispielhardware	Wie es aussieht
Niedriges VRAM (~10–12GB)	Lokal	RTX 3060 12GB, 4070, etc.	Du musst Quantisierung im QUANTIZATION Panel aktivieren (3-Bit ARA für das Basismodell) und aggressives Layer Offloading verwenden. Erwarte ~8–9GB GPU VRAM und 60GB+ CPU RAM, mit ~10–12s/Schritt auf einer mittleren CPU. Diese Anleitung (2 Steuerungsströme) trainiert komfortabel bis 1024×1024; behandle 1024² als deine praktische Maximalauflösung in dieser Stufe.
Knappes 24GB	Lokal	RTX 3090 / 4090 / 5090	24GB kann die Standard 32GB Qwen‑Edit LoRA Konfiguration bei 1024² mit 2 Steuerungen ohne Offloading nicht ausführen (Spitze bei ~24,7GB VRAM), du brauchst also immer noch Low VRAM Tricks wie 3-Bit ARA, Gradient Checkpointing und/oder teilweises Offloading. Behandle 768×768 als praktische Maximalauflösung mit 2 Steuerungen, es sei denn, du fügst etwas Offloading hinzu.
Komfortables 32GB	Lokal	RTX 4090 32GB, neuere Karten	Dies ist die Stufe, für die das offizielle `train_lora_qwen_image_edit_32gb.yaml` abgestimmt ist: 3-Bit ARA Quantisierung, 1024² Auflösungsbuckets, mittlerer LoRA Rang, kein Offloading. Mit 32GB kannst du 1024×1024 (mit 2–3 Steuerungsströmen) als normale Arbeitsauflösung behandeln.
Hohes VRAM (80–141GB)	Cloud AI Toolkit auf RunComfy	H100 80GB / H200 141GB	Du kannst Konfigurationen einfach halten (Quantisierung an, Offloading aus), größere Batches (4–8) verwenden und standardmäßig bei 1024×1024 trainieren ohne OOM-Sorgen. In dieser Stufe kannst du auch mit etwas höheren Auflösungen experimentieren (z.B. 1280–1536px), aber 1024² bleibt die sicherste, am besten getestete Zielgröße.

Auf einer 4090 mit vollständigem Offloading erreicht Ostris' Beispiel ~9GB VRAM und ~64GB CPU RAM, wobei ~5k Schritte etwa einen Tag dauern. Auf einer 5090 ohne Offload sind Iterationen etwa 2–3× schneller.

4. Aufbau eines Qwen Edit 2509 LoRA Training Datensatzes

Wir spiegeln das "Hemd-Design" Beispiel aus Ostris' Anleitung und verallgemeinern es, damit du es an andere Aufgaben anpassen kannst.

4.1 Drei logische Bildströme

Für ein Kleidungsdesign-LoRA soll das Modell lernen: Gegeben eine Person, die ein leeres Hemd trägt, und ein Designbild, dieses Design auf ihr Hemd drucken unter Beibehaltung von Pose, Beleuchtung und Falten.

Zielbilder (was du als Ergebnis willst) – eine Person, die ein Hemd mit bereits aufgedrucktem Design trägt. Dies sind die Ausgaben, die das Modell reproduzieren soll.
Steuerungsbilder (leere Hemden, dieselben Personen) – dieselben Subjekte und Posen wie die Ziele, aber ohne das Design (oder mit einem einfarbigen Hemd). Diese steuern Geometrie, Falten, Beleuchtung und Verdeckungen (Arme, Haare, Halsketten, etc.).
Designbilder – das Design selbst auf einem neutralen Hintergrund (grau, schwarz oder weiß). Du kannst einige Varianten (verschiedene Hintergrundfarben) hinzufügen, um die Robustheit zu erhöhen.

In Ostris' Beispiel reichten etwa 26 Triplets (Person + leeres Hemd + Design) aus, um sehr starke Leistung zu erzielen, einschließlich QR-Codes und komplexer Logos, die korrekt auf Stoff abgebildet werden. Für Produktions-LoRAs ist es ein guter Ausgangspunkt, mit 20–60 sorgfältig kuratierten Triplets (Ziel + Steuerung + Design) zu beginnen.

4.2 Auflösung & Seitenverhältnis

Qwen‑Image‑Edit‑2509:

Skaliert intern jedes Eingabebild auf etwa 1MP (z.B. 1024×1024 oder äquivalent).
Funktioniert am besten, wenn deine Trainingsbilder entweder quadratisch oder nahezu quadratisch sind (wir verwenden hier 1024×1024) oder ein konsistentes Seitenverhältnis haben (z.B. alle 3:4).

In diesem Tutorial nehmen wir quadratische Bilder an, damit Bucketing einfach ist:

Ziel-, Steuerungs- und Designbilder alle etwa 1024×1024. AI Toolkit wird je nach dem, was du im DATASETS Panel aktivierst, in 512 / 768 / 1024 Buckets einteilen.

4.3 Bildunterschriften

Für dieses Kleidungsdesign-LoRA verwenden wir keine Bildunterschriften pro Bild, nur eine einzige Standardunterschrift auf Datensatzebene: put this design on their shirt

Dies funktioniert, weil:

Die Semantik einfach und bei allen Samples identisch ist.
Die Steuerungs- und Designbilder die meisten interessanten Informationen tragen.

Für komplexere Bearbeitungs-LoRAs (wie "Beleuchten wie Studio-Randlicht" vs "Goldene Stunde") solltest du Bildunterschriften pro Bild verwenden, die die gewünschte Bearbeitung beschreiben.

5. Schritt-für-Schritt: Qwen Edit 2509 LoRA trainieren im AI Toolkit

5.1 Schritt 0 – Wähle, wo du AI Toolkit ausführen wirst

Du kannst AI Toolkit für dieses Tutorial auf zwei Arten ausführen:

Lokales AI Toolkit (deine eigene GPU) – installiere AI Toolkit, starte die Web UI und öffne sie lokal. Stelle sicher, dass du eine NVIDIA GPU mit mindestens 10–12GB VRAM hast (24GB+ bevorzugt) und genügend CPU RAM (idealerweise 64GB+, wenn du Layer Offloading planst).
Cloud AI Toolkit auf RunComfy – melde dich beim Cloud AI Toolkit auf RunComfy an. Du landest direkt in der AI Toolkit UI, die in der Cloud läuft. Wenn du einen Job aus der Training Queue startest, wählst du eine H100 (80GB) oder H200 (141GB) Maschine.

5.2 Schritt 1 – Erstelle Datensätze im AI Toolkit

Öffne in der AI Toolkit UI den Datasets Tab.

Erstelle drei Datensätze (Namen sind nur Beispiele):

shirt_target
shirt_control
shirt_design

Lade deine Bilder hoch, sodass jeder Datensatz eine klare Rolle hat:

shirt_target – 20–60 Fotos von Personen, die Hemden mit Designs tragen.
shirt_control – dieselben Personen und Posen ohne Designs (oder mit einem leeren Hemd).
shirt_design – quadratische Designbilder auf einfachen Hintergründen (grau, schwarz oder weiß).

Wenn du keine Bildunterschriften als .txt Dateien vorbereitet hast, lass die Bildunterschriften pro Bild vorerst leer. Wir fügen später eine einzelne Standardunterschrift auf Job-Ebene hinzu.

Wichtiger Paarungshinweis

Ziel- und Steuerungsbilder sollten möglichst der Reihe nach gepaart sein (dieselbe Person, dieselbe Pose). Um die Paarung stabil zu halten, verwende übereinstimmende Dateinamen über Ordner hinweg, damit die alphabetische Reihenfolge übereinstimmt, z.B.: shirt_target/img_0001.jpg, shirt_control/img_0001.jpg, shirt_design/img_0001.png. Jedes Zielbild sollte ein entsprechendes Steuerungs- und Designbild mit demselben Index haben.

5.3 Schritt 2 – Erstelle einen neuen Job

Öffne den New Job Tab. Lass uns jedes Panel in der Reihenfolge konfigurieren, in der sie erscheinen.

5.3.1 JOB Panel – Jobname, GPU, Trigger-Wort

Training Name – setze einen beschreibenden Namen, z.B. qwen_edit2509_shirt_lora_v1. Dies wird zum Jobnamen und zum Ordnernamen, in dem Checkpoints gespeichert werden.
GPU ID – bei einer lokalen Installation wähle die GPU auf deiner Maschine. Im Cloud AI Toolkit auf RunComfy lass GPU ID auf Standard. Der tatsächliche Maschinentyp (H100 / H200) wird später gewählt, wenn du den Job aus der Training Queue startest.
Trigger Word – gib den Ausdruck ein, den du zur Inferenzzeit eingeben möchtest, z.B.: put this design on their shirt. In deinen Datensatz-Bildunterschriften kannst du [trigger] als Platzhalter verwenden. AI Toolkit ersetzt [trigger] während des Trainings durch das Trigger-Wort. Ein klarer Trigger-Ausdruck gibt dir einen sauberen Ein/Aus-Schalter für das LoRA: Prompts, die ihn nicht enthalten, sollten nah am Basis-Qwen‑Image‑Edit‑2509 Verhalten bleiben, besonders wenn du auch Differential Output Preservation (DOP) aktivierst, wie später empfohlen.

5.3.2 MODEL Panel – Basismodell & VRAM Optionen

Model Architecture – wähle Qwen‑Image‑Edit‑2509.
Name or Path – die Hugging Face model id (repo id) für den Basis-Checkpoint, z.B.: Qwen/Qwen-Image-Edit-2509.
In den meisten AI Toolkit Builds wird die Auswahl von Qwen‑Image‑Edit‑2509 diesen Wert automatisch ausfüllen; lass es so, es sei denn, du hast einen Grund, es zu ändern.

Wenn du es überschreibst, verwende das Hugging Face repo id Format: org-or-user/model-name (optional org-or-user/model-name@revision).

In Options:

Low VRAM – schalte EIN für GPUs mit ≤ 24GB VRAM. Dies aktiviert zusätzliches Checkpointing und speichersparende Tricks innerhalb des Backbones, damit das große Qwen Modell leichter passt.
Match Target Res – schalte EIN für Qwen Edit 2509 LoRA trainieren Jobs. Dies skaliert Steuerungsbilder auf dieselbe Auflösungsstufe wie das Zielbild (z.B. 768×768 oder 1024×1024). Es hält die Bearbeitungsgeometrie ausgerichtet und vermeidet VRAM-Verschwendung bei überdimensionierten Steuerungsbildern.
Layer Offloading – behandle dies als Sicherheitsventil. Schalte es EIN auf sehr kleinen GPUs, wenn du nach dem Aktivieren von Low VRAM und Quantisierung immer noch CUDA OOM bekommst; dies wird einige Layer auf CPU RAM auslagern, auf Kosten langsamerer Schritte. Lass es AUS auf 24GB+ oder Cloud GPUs auf RunComfy für beste Geschwindigkeit.

5.3.3 QUANTIZATION Panel – Anpassung des großen Transformers

Qwen‑Image‑Edit‑2509 ist groß genug, dass Quantisierung fast immer eine gute Idee ist.

Transformer – setze auf float8 (default). In AI Toolkit entspricht dies typischerweise einer 3-Bit ARA Basis mit einem 8-Bit "Recovery" Adapter, sodass du VRAM-Nutzung nahe einem 3-Bit Modell erhältst bei Qualität nahe voller Präzision.
Text Encoder – setze ebenfalls auf float8 (default). Der Text Encoder ist groß, und ihn in fp8 auszuführen spart viel VRAM bei minimalem Qualitätsverlust.

Du musst ARA-Dateien nicht manuell in der UI konfigurieren; die Auswahl der float8 Optionen reicht aus.

5.3.4 TARGET Panel – LoRA Typ und Rang

Dieses Panel teilt AI Toolkit mit, dass du ein LoRA trainierst und wie viel Kapazität es haben soll.

Target Type – wähle LoRA.
Linear Rank – für Qwen Edit 2509 LoRA trainieren ist 32 ein starker Standard. Es ist ausdrucksstark genug für Verhaltensweisen wie "dieses Design auf ihr Hemd drucken", aber immer noch leicht zu trainieren und zu laden. Auf sehr kleinen GPUs kannst du auf 16 reduzieren; für komplexere Verhaltensweisen kannst du mit 48–64 experimentieren (beobachte bei höheren Rängen genau auf Overfitting).

5.3.5 SAVE Panel – Checkpoint-Typ & Frequenz

Data Type – wähle BF16. Qwen‑Image‑Edit‑2509 wird typischerweise in bfloat16 ausgeführt, und das Speichern von LoRA-Gewichten in BF16 hält sie kompatibel und vernünftig klein.
Save Every – 250 Schritte ist ein praktischer Standard; du erhältst alle 250 Trainingsschritte einen Checkpoint.
Max Step Saves to Keep – 4 behält die letzten vier Checkpoints und löscht automatisch ältere, damit deine Festplatte nicht volläuft.

5.3.6 TRAINING Panel – Kernhyperparameter

Das TRAINING Panel steuert, wie aggressiv wir Qwen‑Image‑Edit‑2509 feintunen.

Empfohlene Startwerte für ein Einzeldatensatz-LoRA (10–40 Bilder bei 768–1024px):

Batch Size – setze standardmäßig auf 1. Verwende 2 nur auf sehr großen GPUs (A100 / H100 / H200 Stufe).
Gradient Accumulation – beginne bei 1. Wenn du eine größere effektive Batchgröße ohne mehr VRAM willst, erhöhe dies auf 2–4. Effektive Batchgröße ist Batch Size × Gradient Accumulation.
Steps – verwende 2500–3000. Für das Hemd-Design Beispiel mit ~20–30 Triplets funktioniert 3000 gut. Wenn dein Datensatz winzig ist (<15 Bilder), erwäge 1500–2200, um Overfitting zu vermeiden.
Optimizer – wähle AdamW8Bit. 8-Bit Adam reduziert den Speicherbedarf drastisch und verhält sich wie Standard AdamW.
Learning Rate – setze 0.0001. Wenn das Training verrauscht oder instabil aussieht, reduziere auf 0.00005.
Weight Decay – setze 0.0001 als milde Regularisierung, damit das LoRA bei kleinen Datensätzen nicht zu weit abdriftet.
Timestep Type – setze auf Weighted. Dies gewichtet das Training in Richtung der Rauschstufen, die für Qwen‑Image‑Edit am wichtigsten sind.
Timestep Bias – setze auf Balanced, ein sicherer Standard, der weder sehr frühe noch sehr späte Timesteps überbewertet.
Loss Type – lass dies auf Mean Squared Error, die Standardwahl für Diffusions- / Rectified-Flow-Training.
EMA (Exponential Moving Average → Use EMA) – lass AUS für LoRAs. EMA ist nützlicher beim Training vollständiger Modelle.

5.3.7 Regularisierung & Text-Encoder Abschnitt (rechte Seite des TRAINING Panels)

Auf der rechten Seite des TRAINING Panels siehst du zwei wichtige Bereiche: Text Encoder Optimizations und Regularization.

Text Encoder Optimizations

Cache Text Embeddings – für Qwen‑Image‑Edit + Differential Output Preservation (DOP) muss dies AUS bleiben. DOP schreibt den Prompttext intern bei jedem Batch um, sodass gecachte Embeddings nicht mehr zu den echten Prompts passen würden. Wenn DOP AUS ist und deine Bildunterschriften statisch sind, kannst du Cache Text Embeddings EINschalten, um alle Bildunterschriften einmal zu kodieren, die Embeddings auf der Festplatte zu speichern und dann den Text Encoder aus dem VRAM zu befreien.
Unload Text Encoder (Unload TE) – dies ist ein spezieller Nur-Trigger-Modus. Wenn du ihn EINschaltest, cached AI Toolkit die Embeddings für dein Trigger Word und Sample Prompts einmal, entlädt den Text Encoder aus dem VRAM und ignoriert alle Datensatz-Bildunterschriften. Für Qwen‑Image‑Edit‑2509 LoRAs, die auf normale Bildunterschriften angewiesen sind (und besonders wenn Differential Output Preservation EIN ist), solltest du Unload TE AUS lassen.

Da Caption Dropout durch zufälliges Weglassen von Bildunterschriften während des Trainings implementiert wird, ist es auf frische Textkodierung bei jedem Schritt angewiesen. Wenn du Cache Text Embeddings aktivierst, solltest du Caption Dropout Rate = 0 im DATASETS Panel setzen (siehe unten), damit es keine Diskrepanz zwischen gecachten Embeddings und dem beabsichtigten Dropout-Verhalten gibt.

Regularization → Differential Output Preservation

Differential Output Preservation – schalte dies EIN für die meisten echten Projekte. Es ist entscheidend für Qwen‑Image‑Edit: Es lässt das Basismodell normal verhalten, wenn der Trigger-Ausdruck fehlt, und injiziert dein Verhalten nur, wenn der Trigger vorhanden ist.
DOP Loss Multiplier – lass dies anfangs bei 1. Du kannst es leicht erhöhen, wenn du siehst, dass zu viel Stil in Nicht-Trigger-Prompts durchsickert.
DOP Preservation Class – verwende ein neutrales Klassenwort, das beschreibt, was du am häufigsten bearbeitest. Für personenzentrierte Bearbeitungen ist person ein guter Standard; für reine Produktbearbeitungen verwende etwas wie product oder object.

Wie DOP mit deinen Bildunterschriften und dem Trigger-Wort zusammenhängt:

Angenommen, eine Bildunterschrift ist "[trigger] a person walking down the street, wearing the design on their shirt"
Mit Trigger Word = put this design on their shirt
Und DOP Preservation Class = person

AI Toolkit erstellt intern zwei Prompts:

put this design on their shirt a person walking down the street, wearing the design on their shirt – der LoRA-Pfad.
person a person walking down the street, wearing the design on their shirt – der Basismodell-Pfad.

Das LoRA wird nur auf dem Unterschied zwischen diesen beiden trainiert. Generierungen ohne den Trigger-Ausdruck bleiben viel näher am Vanilla Qwen‑Image‑Edit‑2509, weil DOP dieses Verhalten explizit bewahrt.

Blank Prompt Preservation – lass dies AUS, es sei denn, du hast einen sehr spezifischen Grund, das Verhalten für leere Prompts zu bewahren.

5.3.8 ADVANCED Panel – Differential Guidance

Do Differential Guidance – schalte dies EIN.
Differential Guidance Scale – beginne mit 3.

Differential Guidance ist ein AI Toolkit-spezifischer Trick, der das Fehlersignal skaliert, das das LoRA sieht. Eine größere Skalierung macht das "du liegst hier falsch" Signal lauter, sodass das LoRA normalerweise die gewünschte Änderung schneller lernt, ohne die Lernrate zu erhöhen.

Wenn Samples früh im Training instabil oder übermäßig "scharf" aussehen, reduziere auf 2. Wenn das Lernen sich sehr langsam anfühlt, kannst du später mit 4 experimentieren.

5.3.9 DATASETS Panel – Verknüpfung von Ziel-, Steuerungs- und Designbildern

Für Qwen Edit 2509 LoRA trainieren musst du mindestens einen Zieldatensatz und einen Steuerungsdatensatz bereitstellen.

Innerhalb von Dataset 1:

Target Dataset – wähle deinen Ausgabe / bearbeiteten Datensatz, d.h. Bilder, die "nach Anwendung des LoRA-Verhaltens" repräsentieren.
Control Dataset 1 – wähle den Datensatz mit deinen Eingabebildern (die Originalfotos, die du bearbeiten möchtest). Jede Datei sollte durch den Namen zu einem Zielbild passen (z.B. scene_001.png → scene_001.png).
Control Dataset 2 / 3 – diese sind optional. Für das Hemd-LoRA setze Control Dataset 2 auf shirt_design, damit das Modell das Logo oder Kunstwerk als zweiten Steuerungsstrom sieht. Lass Steuerungsslots leer, es sei denn, du hast zusätzliche Bedingungen wie Tiefenkarten oder Keypoints.
LoRA Weight – lass bei 1, es sei denn, du fügst mehr Datensätze hinzu. Wenn du mehr Datensätze hinzufügst, kannst du deren Einfluss hier neu ausbalancieren.
Default Caption – wenn deine Bilder bereits .txt Bildunterschriften haben, kannst du dies leer lassen. Sonst gib etwas wie:
"[trigger] put this design on their shirt, full‑body street photo" ein.

Denk daran: [trigger] wird durch das Trigger-Wort aus dem JOB Panel ersetzt.
Caption Dropout Rate – 0.05 ist ein guter Startwert, wenn du keine Text-Embeddings cachst; etwa jeder zwanzigste Schritt ignoriert die Bildunterschrift, damit das Modell nicht auf exakte Formulierungen überfittet. Wenn du planst, Cache Text Embeddings im TRAINING Panel EINzuschalten, setze Caption Dropout Rate = 0, weil Dropout das Neukodieren von Bildunterschriften bei jedem Schritt erfordert und mit gecachten Embeddings nicht korrekt funktioniert.
Settings → Cache Latents – schalte dies EIN. AI Toolkit kodiert jedes Zielbild einmal in VAE Latents und verwendet sie wieder, was den schweren VAE nach dem Caching aus der GPU entfernt und das Training erheblich beschleunigt.
Settings → Is Regularization – lass dies AUS für deinen Hauptdatensatz. Wenn du später einen zweiten Datensatz rein für Regularisierungsbilder hinzufügst (z.B. generische Personenfotos), würdest du dessen Is Regularization auf EIN setzen.
Flipping (Flip X / Flip Y) – für die meisten Personen- / Produkt-LoRAs lass beides AUS, es sei denn, du bist sicher, dass Spiegelungen für dein Motiv sicher sind (Flip X würde jeden Text auf Hemden spiegeln).
Resolutions – aktiviere die Buckets, bei denen Qwen‑Image‑Edit trainieren soll, z.B. 512, 768 und 1024. 768 ist ein Sweet Spot für viele Qwen LoRAs; das Hinzufügen von 512 und 1024 macht das Training robust gegenüber leichten Auflösungsänderungen.

Du kannst zusätzliche Datensätze mit Add Dataset hinzufügen (z.B. einen Regularisierungsdatensatz mit LoRA Weight < 1), aber ein einzelnes Dataset 1 mit einem Ziel- + einem oder zwei Steuerungssets reicht für die meisten "dieses Design auf ihr Hemd drucken" Anwendungsfälle.

5.3.10 SAMPLE Panel – Trainingsvorschauen

Das SAMPLE Panel steuert regelmäßige Vorschauen während des Trainings. Diese Samples beeinflussen den Trainingsverlust nicht; sie dienen nur der Überwachung.

Sample Every – setze auf 250, damit du alle 250 Schritte Vorschauen generierst, was gut zu deinem Checkpoint-Plan passt.
Width / Height – passe an deine Haupttrainingsauflösung an, z.B. 1024 × 1024 oder 768 × 1024, abhängig von deinem Datensatz.
Seed – wähle einen stabilen Seed wie 42. Du kannst Walk Seed aktivieren, wenn du möchtest, dass jeder Vorschau-Batch aufeinanderfolgende Seeds verwendet und mehr Vielfalt zeigt.
Sampler – wähle FlowMatch (oder den Standard Qwen Sampler in deinem Build). Dies sollte zum FlowMatch Scheduler passen, der in TRAINING verwendet wird.
Guidance Scale – setze 4 für Vorschauen. Bei der späteren Inferenz in ComfyUI oder anderen UIs wirst du normalerweise zwischen 3–6 experimentieren.
Sample Steps – etwa 25 Schritte ist ein guter Kompromiss zwischen Qualität und Geschwindigkeit für Vorschauen.
Advanced Sampling – du kannst Skip First Sample, Force First Sample und Disable Sampling alle AUS lassen. Schalte Disable Sampling nur EIN, wenn du debuggst oder maximale Geschwindigkeit ohne Vorschauen willst.
Sample Prompts – füge 4–8 Prompts hinzu, die realistische Anwendungsfälle für dein LoRA repräsentieren.

5.4 Schritt 3 – Starte Training & überwache

Nachdem du den Job konfiguriert hast, gehe zum Training Queue Tab, wähle deinen Job aus und mache ihn startbereit.

Klicke auf Start / Play und beobachte hauptsächlich zwei Dinge:

GPU VRAM / CPU RAM – besonders auf Low-VRAM Karten mit Layer Offloading, behalte die System-RAM-Nutzung im Auge.
Sample images – das Design sollte auf dem Hemd bleiben und Falten und Pose folgen. Wenn es anfängt, ins ganze Bild zu bluten oder Farben extrem werden, erwäge, früher zu stoppen oder die Gesamtschritte zu reduzieren.

6. Empfohlene Konfigurationen zum Qwen Edit 2509 LoRA trainieren nach VRAM-Stufe

Wenn du nur einen sicheren Standard für 24GB lokale GPUs und alle H100/H200 Cloud-Läufe willst, verwende die Einstellungen aus den Abschnitten 3–6: Low VRAM = EIN, Transformer/Text Encoder Quantisierung = float8, Batch Size = 1, LoRA Rank = 32, Resolutions = 512 / 768 / 1024, Differential Output Preservation = EIN, Cache Text Embeddings = AUS.

Unten sind nur die Einstellungen, die sich wirklich mit der Hardware ändern. Alles, was hier nicht erwähnt wird (Steps, Learning Rate, Optimizer, etc.), kann bei den früheren Empfehlungen bleiben.

Stufe 1 – Niedriges VRAM (~10–12GB lokal)

MODEL → Low VRAM: schalte EIN. Dies aktiviert zusätzliches Checkpointing und Shuffling, damit Qwen‑Image‑Edit‑2509 auf eine 10–12GB Karte passt.
MODEL → Layer Offloading: schalte EIN, wenn du immer noch CUDA OOM bekommst. Erwarte hohe CPU RAM Nutzung (≈60GB+) und langsamere Schritte, aber GPU VRAM kann auf etwa 8–9GB fallen.
QUANTIZATION → Transformer / Text Encoder: setze beide auf float8. In dieser Architektur, die Qwen 3-Bit ARA Adapter unter der Haube verwendet, ist float8 das praktische Minimum für stabile Qualität.
TRAINING → Batch Size: fixiere auf 1. Wenn du eine größere effektive Batchgröße willst, erhöhe Gradient Accumulation statt Batch Size.
DATASETS → Resolutions: aktiviere 512 und 768 als deine Hauptbuckets. Du kannst 1024 hinzufügen, wenn du langsamere, fragilere Läufe akzeptierst; behandle 1024×1024 mit zwei Steuerungsströmen als praktische Obergrenze in dieser Stufe.
TRAINING → Text Encoder Optimizations / Regularization: wenn du Differential Output Preservation selbst mit Low VRAM und Layer Offloading nicht unterbringst, schalte DOP AUS und Cache Text Embeddings EIN, damit Bildunterschriften nur einmal kodiert werden und der Text Encoder aus dem VRAM befreit wird. Du verlierst etwas Basismodell-Erhaltung, gewinnst aber mehrere GB Spielraum.

Stufe 2 – Knappes 24GB (3090 / 4090 / 5090-Klasse)

Was du im Vergleich zu Stufe 1 entspannen kannst:

MODEL → Low VRAM: behalte EIN für Sicherheit auf 24GB; sobald du weißt, dass deine Auflösung und Steuerungseinstellung bequem passt, kannst du experimentieren, es AUSzuschalten.
MODEL → Layer Offloading: normalerweise AUS. Aktiviere es nur, wenn du bei deiner gewählten Auflösung und Anzahl der Steuerungsströme immer noch OOM bekommst.
QUANTIZATION → Transformer / Text Encoder: behalte beide auf float8. Das Deaktivieren von Quantisierung in dieser Stufe hilft selten und verbrennt nur VRAM, das du für Auflösung oder Batchgröße ausgeben könntest.
TRAINING → Batch Size: 1 ist immer noch Standard. Batch Size 2 ist manchmal bei 768×768 mit zwei Steuerungen möglich, wenn Low VRAM EIN ist und Quantisierung EIN bleibt.
DATASETS → Resolutions: aktiviere 512, 768 und 1024. Betrachte 768 als dein "immer sicher" Bucket und 1024 als High-End Bucket, das möglicherweise Low VRAM und eventuell teilweises Offloading benötigt.
TRAINING → Text Encoder Optimizations / Regularization: du kannst normalerweise Differential Output Preservation EIN und Cache Text Embeddings AUS behalten, besonders wenn du hauptsächlich bei 768×768 trainierst. Wenn du unbedingt 1024×1024 auf einer 24GB Karte brauchst und nach anderen Anpassungen immer noch OOM bekommst, ist der nächste Hebel, DOP AUSzuschalten und Cache Text Embeddings EINzuschalten.

Stufe 3 – Komfortables 32GB+ lokal und Cloud H100/H200

Auf lokalen 32GB Karten und 80–141GB Cloud GPUs (H100 / H200) hörst du auf, gegen VRAM zu kämpfen und kannst die Konfiguration vereinfachen:

MODEL → Low VRAM: optional. Du kannst es auf 32GB+ lokalen GPUs und H100/H200 AUSschalten für etwas schnellere Schritte und einfachere Traces.
MODEL → Layer Offloading: behalte AUS. Alle Qwen‑Image‑Edit‑2509 Komponenten können auf der GPU resident bleiben.
QUANTIZATION → Transformer / Text Encoder: lass beide standardmäßig auf float8. Auf H100/H200 kannst du experimentieren, Text Encoder Quantisierung zu deaktivieren, aber es ist für gute Qualität nicht erforderlich und bietet wenig Vorteil im Vergleich zur Nutzung dieses VRAMs für Batchgröße oder Auflösung.
TRAINING → Batch Size: verwende 1–2 auf lokalen 32GB GPUs und 2–4 auf H100/H200 bei 1024×1024 mit zwei Steuerungsströmen.
TARGET → LoRA Rank: 32 ist ein komfortabler Standard. Du kannst 48–64 auf H100/H200 für sehr komplexe Verhaltensweisen (z.B. Multi-Effekt Bearbeitungs-LoRAs) ausprobieren, wenn du auf Overfitting achtest.
DATASETS → Resolutions: trainiere hauptsächlich bei 768 und 1024. Du kannst normalerweise 512 weglassen, es sei denn, du sorgst dich speziell um Niedrigauflösungs-Verhalten.
TRAINING → Text Encoder Optimizations / Regularization: lauf standardmäßig mit Differential Output Preservation EIN und Cache Text Embeddings AUS. VRAM reicht aus, um den Text Encoder resident zu halten, und du erhältst die sauberste Trennung zwischen "mit Trigger" und "ohne Trigger" Verhalten.

7. Häufige Probleme beim Qwen Edit 2509 LoRA trainieren und Lösungen

7.1 Fehlgepaarte Datensätze (falsche Reihenfolge / nicht übereinstimmende Personen)

Symptom: Designs erscheinen, aber an der falschen Stelle, auf der falschen Person oder verzerrt.

Überprüfe, ob Ziel- und Steuerungsdatensätze ausgerichtet sind: shirt_target/img_0001.jpg sollte mit shirt_control/img_0001.jpg und shirt_design/img_0001.png gepaart sein, und so weiter. Wenn du Bilder manuell mischst, halte die Dateinamen gepaart, damit die alphabetische Reihenfolge immer noch übereinstimmt.

7.2 VRAM OOM trotz Quantisierung

Wenn du mit einer kleinen Zielauflösung trainierst (z.B. 512×512), aber deine Steuerungsdatensätze immer noch 1024×1024 als höchstes Bucket verwenden und Match Target Res AUS ist, wird jeder Steuerungsstrom bei 1024×1024 kodiert, während das Ziel nur 512×512 ist. Mit zwei oder drei solcher Steuerungsströme wird die gesamte Latent-Größe viel größer als erwartet, und du kannst leicht CUDA OOM bekommen, selbst mit aktivierter Quantisierung.

Um dies zu beheben:

Schalte entweder Match Target Res EIN im MODEL Panel, damit alle Steuerungsbilder automatisch auf dasselbe Auflösungsbucket wie das Ziel skaliert werden (z.B. werden alle 512×512, wenn die Zielprobe 512×512 ist), oder
Behalte Match Target Res AUS, aber senke das höchste Auflösungsbucket für deine Steuerungsdatensätze auf das Ziel ab (lass 1024 weg und bleib bei 512/768).

Auf H100/H200 in der Cloud kannst du es dir leisten, 1024×1024 Buckets für sowohl Ziel als auch Steuerungen zu behalten und weniger auf diese Tricks angewiesen zu sein, aber die sicherste Regel ist: vermeide das Mischen von winzigen Zielen mit sehr großen Steuerungen, wenn Match Target Res deaktiviert ist.

7.3 Training konvergiert nie / sieht zufällig aus

Überprüfe Folgendes:

Im TRAINING Panel entsprechen der Noise Scheduler und die Timestep-Einstellungen immer noch FlowMatch. In der exportierten YAML solltest du noise_scheduler: "flowmatch" sehen, und im SAMPLE Panel sollte der Sampler auch auf FlowMatch gesetzt sein; wenn der Sampler einen anderen Scheduler verwendet, können Vorschauen wie reines Rauschen aussehen, selbst wenn das LoRA korrekt trainiert.
Die Learning Rate ist nicht zu hoch. 0.0001 ist ein sicherer Standard für Qwen Edit 2509 LoRA trainieren; wenn Vorschauen nach einigen hundert Schritten weiter oszillieren oder sehr instabil aussehen, reduziere auf 0.00005 und setze vom letzten guten Checkpoint fort.

7.4 LoRA überfittet (Design blutet überall)

Mögliche Lösungen:

Reduziere die Gesamt-Steps (z.B. von 5000 auf 3000).
Erwäge einen etwas niedrigeren LoRA Rank (16 statt 32).
Diversifiziere den Datensatz mit verschiedenen Personen, Posen und Beleuchtungen.
Stelle sicher, dass Differential Output Preservation aktiviert ist und erhöhe bei Bedarf den DOP Loss Multiplier etwas, damit das Basisverhalten stärker erhalten bleibt.

7.5 Umgebungshölle

Typische lokale Probleme sind CUDA-Versionsfehler, falsche PyTorch-Builds oder Treiber, die nicht zu deiner GPU / deinem Betriebssystem passen. Im Cloud AI Toolkit auf RunComfy verschwinden diese Probleme: AI Toolkit und Abhängigkeiten sind vorinstalliert, und du startest direkt von der UI mit Konfigurationen und Datensätzen.

Wenn du mehr Zeit mit dem Beheben von CUDA als mit dem Training verbringst, ist das normalerweise der Punkt, an dem es einfacher ist, diesen speziellen Job in die Cloud zu verlagern.

8. Verwendung deines Qwen Edit 2509 LoRA nach dem Training

Sobald das Training abgeschlossen ist, kannst du dein Qwen Edit 2509 LoRA auf zwei einfache Arten verwenden:

Model Playground – öffne den Qwen‑Image‑Edit‑2509 LoRA Playground und füge die URL deines trainierten LoRAs ein, um schnell zu sehen, wie es sich auf dem Basismodell verhält.
ComfyUI Workflows – starte eine ComfyUI Instanz und baue entweder deinen eigenen Workflow oder lade einen wie Qwen Edit 2509 MultipleAngles, tausche dein LoRA im LoRA-Loader-Knoten ein und passe LoRA-Gewicht und andere Einstellungen für detailliertere Kontrolle an.

OstrisAI-Toolkit

New Training Job

Job

Model

Quantization

Target

Save

Training

Advanced

Datasets

Dataset 1

Sample