Das Training eines LoRA auf FLUX.2 [dev] unterscheidet sich grundlegend vom Training älterer SD-Modelle. Wer erfolgreich FLUX.2-dev LoRA trainieren möchte, muss verstehen, dass FLUX.2 [dev] einen riesigen Rectified-Flow-Transformer mit 32B Parametern, einen 24B Mistral-Text-Encoder und einen hochwertigen Autoencoder kombiniert. Das Modell beherrscht Text-zu-Bild und Bildbearbeitung in einem einzigen Checkpoint. Diese Anleitung behandelt:
- Was FLUX.2 [dev] besonders macht
- Wie diese Designentscheidungen das FLUX.2 [dev] LoRA Training beeinflussen
- Wie Sie AI Toolkit für verschiedene Hardware-Konfigurationen einrichten
- Wie Sie Datensätze, Trigger und Parameter konfigurieren, um den gewünschten Stil / Charakter / Bearbeitungseffekt zu erzielen
Dieser Artikel ist Teil der AI Toolkit LoRA-Trainingsreihe. Wenn Sie neu bei Ostris AI Toolkit sind, beginnen Sie mit der AI Toolkit LoRA-Trainingsübersicht, bevor Sie in diese Anleitung zum FLUX.2-dev LoRA trainieren eintauchen.
Inhaltsverzeichnis
- 1. FLUX.2 [dev] für LoRA-Training verstehen
- 2. Welche Art von FLUX.2 LoRA trainieren Sie eigentlich?
- 3. FLUX.2-spezifische Details, die LoRA-Einstellungen beeinflussen
- 4. Hardware & VRAM-Anforderungen für FLUX.2 LoRA-Training
- 5. Datensätze für FLUX.2 LoRA gestalten
- 6. Schritt für Schritt: FLUX.2 dev LoRA-Training in AI Toolkit konfigurieren
- 7. FLUX.2 LoRA-Ergebnisse debuggen und Qualität verbessern
- 8. Ihr FLUX.2 LoRA in der Inferenz verwenden
1. FLUX.2 [dev] für LoRA-Training verstehen
Bevor Sie Regler bewegen, hilft es zu verstehen, was Sie feinabstimmen.
1.1 High-Level-Architektur
Aus der offiziellen FLUX.2-dev Model Card und der Black Forest Labs Ankündigung:
- Basismodell
FLUX.2 [dev]ist ein 32B-Parameter Rectified-Flow-Transformer (ein DiT-ähnliches latentes Flow-Modell), das von Grund auf trainiert wurde – keine Fortsetzung von FLUX.1. Es kombiniert Text-zu-Bild-Generierung und Bildbearbeitung (Einzelbild und Multi-Referenz) in einem einzigen Checkpoint. - Text-Encoder
FLUX.2 [dev] verwendet Mistral Small 3.1 / 3.2 – 24B als Vision-Language-Text-Encoder. Das sind weitere 24B Parameter zusätzlich zum 32B DiT. Bei normaler Präzision verschlingt allein dieser einen enormen Teil des VRAM und spielt eine zentrale Rolle im Modellverhalten.
- Autoencoder (VAE)
Das Modell verwendet einen neuen AutoencoderKLFlux2 mit 32 latenten Kanälen (FLUX.1 verwendete 16). Er ist für hochauflösende Bearbeitung und feine Texturerhaltung konzipiert, weshalb FLUX.2 scharfe 1024×1024-Bearbeitungen durchführen kann.
- Einheitliche Generierung + Bearbeitung
Dieselbe Architektur handhabt reine Text-zu-Bild-, Einzelbild-Bearbeitungs- und Multi-Referenz-Bearbeitungs-Aufgaben (bis zu etwa 10 Referenzbilder). Es gibt keinen separaten "Nur-Bearbeitung"-Zweig; alles ist ein Netzwerk.
- Guidance-destilliert
FLUX.2 [dev] ist ein guidance-destilliertes Modell: Es gibt keine klassische Classifier-Free-Guidance mit separaten "konditionierten" und "unkonditionierten" Durchläufen. Die "Guidance" ist in einen einzigen Forward-Pass eingebacken.
Was das für LoRA bedeutet:
- Der Kern-Transformer ist enorm.
Da FLUX.2 [dev] einen fusionierten, hochkapazitiven Transformer verwendet, muss der LoRA-Rang sorgfältig gewählt werden. Sehr niedrige Ränge (4–8) bewirken möglicherweise kaum etwas. Der VRAM-Druck wird vom Transformer und Text-Encoder dominiert.
- Der Text-Encoder ist schwer und zentral für das Verhalten.
Das ~24B Mistral VLM ist verantwortlich dafür, wie Prompts verstanden werden, wie Anweisungen befolgt werden und wie Bearbeitungsanweisungen interpretiert werden.
- Dieselben Gewichte handhaben T2I und Bearbeitung.
Wenn Sie ein LoRA zu stark pushen, riskieren Sie, sowohl Text-zu-Bild- als auch Bildbearbeitungs-Verhalten zu verändern. Differential Output Preservation (DOP) und sorgfältiges Captioning halten das LoRA an eine Trigger-Phrase gebunden.
- Guidance ist speziell, weil das Modell guidance-destilliert ist.
Sie trainieren normalerweise mit
guidance_scale = 1. Bei normaler Inferenz verwenden Sieguidance_scaleum 2–4.
2. Welche Art von FLUX.2 LoRA trainieren Sie eigentlich?
Bei FLUX.2 [dev] sollten Sie zuerst entscheiden, was der Adapter tun soll. Das Basismodell ist bereits stark bei Multi-Referenz-Bearbeitung und komplexer Prompt-Befolgung, sodass Sie nur ein LoRA benötigen, wenn Sie etwas Persistentes wollen, das das Basismodell nicht zuverlässig von selbst kann.
Häufige Ziele beim Flux2 dev LoRA trainieren:
- Stil-LoRA (T2I + Bearbeitung)
Bringen Sie FLUX.2 bei, einen bestimmten Malstil, Farbton oder Render-Look zu verwenden, wenn ein Trigger vorhanden ist.
- Charakter-/Identitäts-LoRA
Modellieren Sie eine bestimmte Person, einen Avatar, ein Maskottchen oder eine Produktlinie mit konsistenten Gesichtern/Merkmalen über viele Bilder hinweg.
- Objekt-/Requisiten-/Marken-LoRA
Erfassen Sie bestimmte Produkte, Logos, Requisiten oder Formen mit strikten Geometrie- oder Markenvorgaben.
- Anweisungs-/Bearbeitungs-LoRA
Ändern Sie Verhalten statt Stil: zum Beispiel "verwandle jedes Portrait in eine Aquarellskizze", "erstelle eine Blaupause-Version" oder strukturierte Bearbeitungsanweisungen mit Vorher/Nachher-Paaren.
Das Wissen, welches dieser Ziele Sie anstreben, hilft bei der Entscheidung über Datensatz, Rang, Differential Output Preservation und Guidance-Einstellungen.
3. FLUX.2-spezifische Details, die LoRA-Einstellungen beeinflussen
3.1 LoRA auf einem fusionierten Transformer (Rang-Skalierung)
FLUX.2 [dev] fusioniert Attention- und MLP-Projektionen in sehr breite Matrizen im Vergleich zu klassischem SD1.5/SDXL. Das bedeutet:
- Sehr niedrige Ränge (4–8) fühlen sich oft zu schwach an, da sie nur einen winzigen Unterraum in diesen riesigen Schichten besetzen können.
- Für Stil- oder Charakter-LoRAs auf FLUX.2 [dev] ist Rang 32 ein guter Standard, wenn VRAM es erlaubt.
- Bei knappem VRAM oder einfachem Stil können Sie Rang 8–16 und weniger Schritte verwenden.
- Für extrem komplexe Marken oder Identitäten mit vielen Ansichten kann Rang 32–64 helfen, aber Overfitting wird wahrscheinlicher.
Beim FLUX 2 dev LoRA-Training profitiert das Modell generell von etwas höheren Rängen als ältere Modelle, aber Sie zahlen dafür mit VRAM und Overfitting-Risiko.
3.2 Guidance-destilliertes Modell: Training bei guidance_scale = 1
Da FLUX.2 [dev] guidance-destilliert ist, gilt die übliche Stable-Diffusion-Intuition von "CFG 7–8" nicht.
- Training: setzen Sie
guidance_scale = 1. - Inferenz: eine
guidance_scaleim Bereich 2–4 funktioniert gut. - Niedrigere Werte (≈2) erzeugen lockerere, kreativere Ausgaben.
- Höhere Werte (≈3.5–4) sind wörtlicher und folgen dem Prompt genauer.
3.3 Der Text-Encoder ist riesig (und warum Embedding-Caching wichtig ist)
Der Mistral 24B VLM, der als FLUX.2s Text-Encoder verwendet wird, ist kein kleines Nebenmodul. Bei normaler Präzision sind es etwa 24GB an Parametern allein.
In AI Toolkit sind die üblichen Muster:
- Wenn Ihr Training-Setup eine feste Caption pro Bild verwendet und Sie nicht Differential Output Preservation oder On-the-fly-Prompt-Umschreibung verwenden: Aktivieren Sie Cache Text Embeddings, damit das Toolkit alle Captions einmal encodiert, die Embeddings cached und diese nicht jeden Schritt neu encodieren muss.
- Wenn Sie Differential Output Preservation (DOP) verwenden oder irgendetwas anderes, das Prompts jeden Schritt modifiziert: Sie können keine Text-Embeddings cachen.
Der Trade-off ist einfach: Embedding-Caching ist ein großer Gewinn für statische Captions, aber sobald Ihr Training auf sich ändernde Prompts zur Laufzeit angewiesen ist, müssen Sie das Caching deaktivieren.
3.4 Autoencoder und Auflösung
FLUX.2 verwendet einen dedizierten AutoencoderKLFlux2, der für 1024×1024+ Arbeit konzipiert ist:
- Er verwendet 32 latente Kanäle, was bessere Details und Bearbeitungstreue bietet als ältere 16-Kanal-VAEs, auf Kosten von mehr VRAM.
- In der Praxis erfasst das Training von FLUX.2 LoRAs bei 768–1024 Auflösung den größten Nutzen.
AI Toolkits Auflösungs-Buckets lassen Sie mehrere Auflösungen auflisten (zum Beispiel [768, 896, 1024]). Bilder werden automatisch in den nächsten Bucket skaliert.
4. Hardware & VRAM-Anforderungen für FLUX.2 LoRA-Training
FLUX.2 [dev] ist sehr speicherhungrig. Diffusers' Referenzkonfigurationen berichten, dass das Ausführen des vollständigen DiT + Text-Encoders in bf16 immer noch etwa 62 GB VRAM auf einem H100 benötigt. LoRA-Training ist schwerer als Inferenz, weil Sie auch Speicher für Gradienten und Optimizer-Zustände brauchen.
4.1 Empfohlene Einstellungen nach VRAM-Stufe
Stufe A — 16–24 GB GPU (z.B. 4070 Ti, 4080, 4090)
- Was realistisch ist
Auf dieser Stufe ist FLUX.2 dev LoRA Feinabstimmung möglich, aber eng. Sie sind meist auf kleine Stil- oder einfache Charakter-LoRAs bei etwa 896–1024 px auf der langen Seite beschränkt, mit Batch Size = 1 und aggressiven Speicherspareinstellungen.
- Wichtige UI-Einstellungen
Im MODEL-Panel: Low VRAM AN und Layer Offloading AN.
Im QUANTIZATION-Panel: Transformer auf
float8 (default)und Text Encoder auffloat8 (default).Im TRAINING-Panel: Batch Size = 1 und Gradient Accumulation bei Bedarf verwenden.
Im DATASETS-Panel: Hauptauflösung von 896–1024 bevorzugen.
Stufe B — 32–48 GB GPU (z.B. RTX 6000 Ada, A6000, einige A100)
- Was realistisch ist
Dies ist die erste Stufe, wo sich AI Toolkit FLUX.2 dev LoRA Training komfortabel anfühlt. Sie können produktionsreife Stil- und Charakter-LoRAs bei 1024×1024 trainieren, mit 20–60+ Bildern und 1000–3000 Schritten.
- Wichtige UI-Einstellungen
Im MODEL: Low VRAM AN standardmäßig; Layer Offloading AUS, es sei denn, Sie bekommen immer noch OOM.
Im QUANTIZATION: beide auf
float8 (default).Im TRAINING: Batch Size = 1–2, Steps ≈ 1000–3000, Learning Rate = 0.0001, Linear Rank = 32 als starker Standard.
Stufe C — 64–96+ GB GPU (z.B. H100, H200 auf RunComfy)
- Was realistisch ist
Hier haben Sie endlich Luft zum Atmen: 1024×1024 mit Batch Size = 2–4, größere oder mehrere Auflösungs-Buckets und Differential Output Preservation AN standardmäßig sind alle unkompliziert.
- Wichtige UI-Einstellungen
Im MODEL: Sie können Low VRAM AUS und Layer Offloading AUS lassen.
Im QUANTIZATION: Es ist immer noch effizient, beide in
float8 (default)zu halten.Im TRAINING: Batch Size = 2–4, Linear Rank = 32–64 und Differential Output Preservation AN.
4.2 Lokales AI Toolkit vs. Cloud AI Toolkit auf RunComfy
Sie können diesen FLUX.2 LoRA-Workflow auf zwei Arten ausführen:
- Lokal mit AI Toolkit – installieren Sie AI Toolkit vom AI Toolkit GitHub Repository und verwenden Sie Ihre eigene GPU.
- Cloud AI Toolkit auf RunComfy – öffnen Sie das Cloud AI Toolkit auf RunComfy und trainieren Sie auf H100 (80 GB) oder H200 (141 GB) GPUs ohne lokale Installation.
5. Datensätze für FLUX.2 LoRA gestalten
5.1 Wie viele Bilder?
Aus verfügbaren FLUX-Beispielen und ähnlichen LoRA-Trainings:
- Einfaches Stil-LoRA – etwa 15–30 kuratierte Bilder mit konsistentem Stil funktionieren meist gut.
- Charakter-/Identitäts-LoRA – etwa 20–60 Bilder mit klaren Ansichten, verschiedenen Winkeln und Beleuchtung.
- Bearbeitungs-/Anweisungs-LoRA – oft Paar-Datensätze mit 50–200 (Quelle, Ziel, Anweisung) Tripeln.
5.2 Captioning-Strategie: Was Sie nicht schreiben, zählt
Was Sie in der Caption nicht beschreiben, ist "frei" für das LoRA, um es an Ihren Trigger anzuhängen.
Für ein Stil-LoRA wollen Sie normalerweise:
- Captions, die beschreiben, was im Bild ist (Person, Pose, Szene, Objekte).
- Captions, die nicht Pinselführung, Farben, Medium oder Kompositionsstil beschreiben.
Für ein Charakter-LoRA:
- Verwenden Sie einen kurzen, einzigartigen Trigger (z.B.
midnight_tarot) und ein Klassenwort (person,woman,man,character, etc.). - Captions können Dinge sein wie
[trigger] a woman standing in a market,[trigger] a close-up portrait of a woman in a red jacket, usw.
5.3 Differential Output Preservation (DOP)
Differential Output Preservation ist eine Regularisierungsstrategie im AI Toolkit, die vergleicht:
- Die Basismodell-Ausgabe ohne LoRA, und
- Die Ausgabe mit aktivem LoRA,
und das LoRA bestraft, wenn es Dinge ändert, obwohl kein Trigger vorhanden ist.
In der Praxis:
- Sie wählen ein Trigger-Wort (zum Beispiel
midnight_tarot) und eine Preservation Class (zum Beispielphoto). - Captions werden mit einem Platzhalter
[trigger]geschrieben.
Zur Trainingszeit generiert AI Toolkit intern zwei Versionen jeder Caption:
midnight_tarot a woman sitting on a park bench...– dieser Pfad trainiert das LoRA.photo a woman sitting on a park bench...– dieser Pfad lehrt das Modell, was zu tun ist, wenn der Trigger fehlt.
6. Schritt für Schritt: FLUX.2 [dev] LoRA-Training in AI Toolkit konfigurieren
6.1 Einmalige Einrichtung
- Installieren Sie AI Toolkit vom GitHub Repository und starten Sie die UI (
npm run build_and_startimui/-Ordner). - Alternativ öffnen Sie das Cloud AI Toolkit auf RunComfy und starten Sie dort (keine lokale Installation nötig).
6.2 Bereiten Sie Ihren Datensatz im Toolkit vor
- Sammeln Sie Bilder für Ihren gewählten LoRA-Typ (Stil, Charakter, Objekt, Anweisung).
- Platzieren Sie sie in einem Ordner im AI Toolkit datasets-Verzeichnis, zum Beispiel:
/ai-toolkit/datasets/flux2_midnight_tarot/ - Fügen Sie
.txt-Caption-Dateien mit demselben Basisnamen wie jedes Bild hinzu. - Verwenden Sie
[trigger]in Captions, wo Ihr Trigger-Wort erscheinen soll.
6.3 Neuen Training-Job erstellen
In der AI Toolkit UI erstellen Sie einen neuen Job und konfigurieren jedes Panel wie folgt.
6.3.1 JOB-Panel – Name, GPU und Trigger-Wort
Im JOB-Panel:
- Training Name
Wählen Sie einen beschreibenden Namen, zum Beispiel
flux2_midnight_tarot_v1. - GPU ID
Bei einer lokalen Installation wählt dies Ihre physische GPU (typischerweise
0für eine Einzeln-GPU-Maschine).Auf dem Cloud AI Toolkit auf RunComfy lassen Sie dies als Standard.
- Trigger Word
Setzen Sie dies auf das tatsächliche Token, das Sie in Prompts eingeben möchten, zum Beispiel
midnight_tarot.
6.3.2 MODEL & QUANTIZATION-Panels – FLUX.2 Basismodell und Präzision
Im MODEL-Panel:
- Model Architecture
Wählen Sie die FLUX.2-Architektur.
- Name or Path
Dies ist die Hugging Face model id für den Basis-Checkpoint, zum Beispiel:
black-forest-labs/FLUX.2-dev.FLUX.2 [dev] ist ein gegatetes Hugging Face-Modell, also müssen Sie dessen Lizenz akzeptieren und
HF_TOKENin einer.env-Datei setzen. - Low VRAM
AN bei Stufe A und oft Stufe B.
AUS bei Stufe C (H100/H200).
- Layer Offloading
Aktivieren Sie dies bei Stufe A.
Bei Stufe B und C normalerweise AUS.
Im QUANTIZATION-Panel:
- Transformer
float8 (default)bei Stufe B und C. - Text Encoder
float8 (default), damit der 24B Mistral Text-Encoder in FP8 läuft.
6.3.3 TARGET-Panel – LoRA-Netzwerk-Einstellungen
Im TARGET-Panel:
- Target Type
Setzen Sie Target Type auf
LoRA. - Linear Rank
Verwenden Sie Linear Rank 32 als starken Standard für FLUX.2, da der fusionierte Transformer von etwas höheren Rängen profitiert.
6.3.4 TRAINING & SAVE-Panels – Kern-Hyperparameter und Text-Encoder-Handling
Im Training-Panel:
- Batch Size
Verwenden Sie
1auf 24–48GB GPUs.Verwenden Sie
2auf 64GB+ GPUs wie H100/H200. - Gradient Accumulation
Beginnen Sie mit
1.Erhöhen Sie auf
2–4, wenn VRAM knapp ist. - Steps
Als Baseline:
- Stil-LoRA, 15–30 Bilder: 800–2000 Schritte.
- Charakter-LoRA, 30–60 Bilder: 1000–2500 Schritte.
- Anweisungs-/Bearbeitungs-LoRA mit 100+ Beispielen: 1500–3000 Schritte.
- Optimizer
Verwenden Sie einen 8-Bit-Optimizer wie
AdamW8Bit. - Learning Rate
Beginnen Sie mit
0.0001.Bei Overshooting oder instabilen Samples auf
0.00005senken. - Weight Decay
Behalten Sie
0.0001. - Timestep Type
weightedverwendet AI Toolkits FLUX-optimierten Schedule und ist der empfohlene Standard.sigmoidkonzentriert sich noch stärker auf die Mitte des Schedules.- Timestep Bias
Balancedhält beide Regionen vertreten und ist die sicherste Wahl.- Loss Type
- Behalten Sie
Mean Squared Error. - EMA
Lassen Sie Use EMA AUS für LoRAs.
- Text Encoder Optimizations
- Wenn Sie nicht Differential Output Preservation verwenden und Ihre Captions statisch sind:
Cache Text Embeddings: ANUnload TE: AUS- Wenn Sie DOP oder etwas verwenden, das Prompts jeden Batch ändert:
- Beide AUS.
Im SAVE-Panel:
- Data Type
BF16. - Save Every und Max Step Saves to Keep
Verwenden Sie Standards wie
Save Every = 250Schritte undMax Step Saves = 4.
6.3.5 Regularization & Advanced – Differential Output Preservation und Differential Guidance
Regularization-Panel – Differential Output Preservation (DOP)
Wenn Sie das Verhalten des Basismodells erhalten möchten, wenn Ihr Trigger nicht vorhanden ist, aktivieren Sie Differential Output Preservation.
Im Regularization-Panel:
- Differential Output Preservation AN.
- Trigger auf dasselbe Trigger-Wort setzen, z.B.
midnight_tarot. - Preservation Class auf ein neutrales Wort wie
photo.
Im Training → Text Encoder Optimizations-Bereich:
- Mit DOP AN: Cache Text Embeddings AUS und Unload TE AUS.
Advanced-Panel – Differential Guidance
Im Advanced-Panel:
- Do Differential Guidance – aktiviert ein experimentelles Trainingsziel, das die Lücke zwischen der Vorhersage des Modells und dem Ground-Truth übertreibt.
- Differential Guidance Scale – kontrolliert, wie stark dieser "Overshoot" ist.
Praktische Empfehlungen
- Für die meisten FLUX.2 LoRAs ist es sicher, Do Differential Guidance AN zu schalten mit einer Differential Guidance Scale von
3. - Bei instabilen Samples senken Sie die Scale auf
2oder1oder reduzieren Sie die Learning Rate.
6.3.6 DATASETS-Panel – Datensätze anhängen und Latents cachen
Im DATASETS-Panel klicken Sie auf Add Dataset.
Für ein einfaches Stil- oder Charakter-LoRA:
- Target Dataset
Wählen Sie den zuvor erstellten Datensatz, z.B.
flux2_midnight_tarot. - Default Caption
Wenn Sie keine per-Bild
.txt-Dateien erstellt haben, geben Sie einen Standard ein wie: [trigger] a portrait of a person - Caption Dropout Rate
Ein Wert um
0.05ist ein guter Standard wenn Cache Text Embeddings AUS ist.Bei Cache Text Embeddings AN setzen Sie dies auf 0.
- Settings → Cache Latents
AN. Der VAE encodiert jedes Trainingsbild einmal.
- Settings → Is Regularization
AUS für Ihren Hauptdatensatz.
- Resolutions
- Auf 16–24GB: beginnen Sie mit
768und optional896. - Auf 32–48GB: verwenden Sie
[768, 896, 1024]. - Auf 64GB+: Sie können einen etwas höheren Bucket hinzufügen.
- Augmentations (X/Y flip)
Horizontaler Flip kann für manche Stil-LoRAs nützlich sein, ist aber oft fragwürdig für Gesichter.
6.4 Vorschau-Sampling-Konfiguration
Im SAMPLE-Panel:
- Sample Every
Sample Every = 250Schritte. - Sampler
Verwenden Sie den von Ihrer FLUX.2-Vorlage empfohlenen Sampler.
- Width / Height
Wählen Sie eine Auflösung, die zu Ihren Training-Buckets passt, z.B.
768×768oder768×1024. - Guidance Scale
guidance_scale = 1für Training-Vorschauen. - Sample Steps
Etwa 25 Schritte reichen normalerweise für die Überwachung.
- Seed / Walk Seed
Fixieren Sie einen Seed (z.B.
42) für konsistente Vergleiche. - Prompts
Fügen Sie 2–4 repräsentative Prompts hinzu.
7. FLUX.2 LoRA-Ergebnisse debuggen und Qualität verbessern
7.1 "GatedRepoError / 401 beim Herunterladen von FLUX.2-dev"
Wenn Sie einen Fehler wie diesen sehen:
GatedRepoError (401): Cannot access gated repo ... black-forest-labs/FLUX.2-dev ...
Bedeutet das normalerweise, dass das FLUX.2-dev Basismodell ein gegatetes Hugging Face Repo ist und der Trainer es ohne Authentifizierung nicht herunterladen kann.
Fix (einmalige Zugangsbestätigung + Token):
- Modellbedingungen akzeptieren / Zugang bekommen (einmalig)
- Melden Sie sich bei Hugging Face an.
- Öffnen Sie
https://huggingface.co/black-forest-labs/FLUX.2-dev - Klicken Sie auf Agree and access repository.
- Hugging Face Access Token erstellen
- Öffnen Sie
https://huggingface.co/settings/tokens - Klicken Sie auf New token
- Setzen Sie die Token-Rolle auf Read
- Token in den Trainer-Einstellungen hinzufügen
- Öffnen Sie die Trainer Settings-Seite.
- Finden Sie Hugging Face Token.
- Fügen Sie Ihr
hf_...Token ein und speichern. - Job neu starten
7.2 "Nichts ändert sich nach 1000+ Schritten"
Checkliste:
- Ist das LoRA tatsächlich beim Sampling angewendet?
Stellen Sie sicher, dass das LoRA am richtigen FLUX.2 Basismodell angehängt ist.
- Linear Rank zu niedrig für den fusionierten Transformer
Wenn Sie Linear Rank nur auf 4–8 gesetzt haben, kann die Wirkung sehr klein sein. Versuchen Sie
Linear Rank = 16–32. - Learning Rate zu niedrig
Beginnen Sie mit
0.0001. - Captions beschreiben den Stil statt des Inhalts
Wenn jede Caption etwas wie "watercolor, soft pastel strokes..." sagt, bleibt nichts für den Trigger übrig.
7.3 "Mein LoRA hat das Basismodell überschrieben"
Symptome:
- Selbst ohne Trigger sehen Ausgaben bereits wie Ihr LoRA-Stil aus.
Fixes:
- Differential Output Preservation einschalten
Trigger und Preservation Class wie oben beschrieben konfigurieren.
- Training-Schritte reduzieren
Für viele Stil-LoRAs bei Rang 32 reichen 800–1500 Schritte.
- Rang oder Learning Rate senken
Versuchen Sie
Linear Rank = 16undLearning Rate = 0.000075mit aktivem DOP.
7.4 "CUDA out of memory" oder Training hängt
Üblicher Überlebensplan:
- Auflösung senken
Von 1024 → 896 oder 768 auf der langen Seite.
- Gradient Checkpointing und Accumulation aktivieren/erhöhen
- Aggressive Quantisierung
FP8 oder sogar 4-Bit für den Transformer.
- Latent-Caching verwenden
Cache Latents aktivieren.
- Bei sehr knappem VRAM DOP vermeiden
Stattdessen:
- Kleiner, ausgewogener Datensatz.
- Weniger Training-Schritte mit frühem Stoppen.
- Job auf größere GPU verschieben
Migrieren Sie denselben AI Toolkit Job zu RunComfys H100/H200 Templates.
8. Ihr FLUX.2 LoRA in der Inferenz verwenden
Sobald das Training abgeschlossen ist, können Sie Ihr FLUX.2 LoRA auf zwei einfache Arten verwenden:
- Run LoRA – öffnen Sie die FLUX.2 Run LoRA Seite. Auf dieser Base‑Model‑Inference‑Seite können Sie entweder ein LoRA‑Asset auswählen, das Sie auf RunComfy trainiert haben, oder eine LoRA‑Datei importieren, die Sie mit AI Toolkit trainiert haben, und anschließend Inference über das Playground oder die API ausführen. RunComfy verwendet dasselbe Base Model und die vollständige AI‑Toolkit‑Pipeline‑Definition aus Ihrer Training‑Config, sodass Sie in der Inference genau das bekommen, was Sie im Training gesehen haben — diese enge Ausrichtung von Training und Inference hilft, die Ergebnisse konsistent mit Ihren Trainings‑Samples zu halten.
- ComfyUI Workflows – starten Sie eine ComfyUI-Instanz und laden Sie einen Workflow wie Flux 2 Dev, fügen Sie Ihr LoRA im LoRA-Loader-Node hinzu.
Weitere AI Toolkit LoRA-Training-Anleitungen
- Z-Image Turbo LoRA-Training mit AI Toolkit (8-Schritt Turbo)
- LTX-2 LoRA-Training mit AI Toolkit
- Qwen-Image-Edit-2511 LoRA-Training mit AI Toolkit (Multi-Image-Bearbeitung)
- Qwen-Image-Edit-2509 LoRA-Training mit AI Toolkit (Multi-Image-Bearbeitung)
- Wan 2.2 I2V 14B Bild-zu-Video LoRA-Training
- Wan 2.2 T2V 14B Text-zu-Video LoRA-Training
- Qwen Image 2512 LoRA-Training
Ready to start training?

