AI Toolkit LoRA Training Guides

FLUX.2 [dev] LoRA Training Guide mit Ostris AI Toolkit

Dieser Guide zeigt Schritt für Schritt, wie du FLUX.2 [dev] mit LoRA im Ostris AI Toolkit fein-tunst. Du lernst, was FLUX.2 besonders macht, wie Dual-Transformer und Text-Encoder Rank- und VRAM-Bedarf beeinflussen, wie du Datensätze und Trainingsconfigs aufsetzt und welche Quantisierungseinstellungen von 24GB GPUs bis H100/H200 sinnvoll sind.

Train Diffusion Models with Ostris AI Toolkit

Horizontal scrollen, um das vollständige Formular zu sehen

Ostris AI ToolkitOstrisAI-Toolkit

New Training Job

Job

Model

Use a Hugging Face repo ID (e.g. owner/model-name).
⚠️ full URLs, .safetensors files, and local files are not supported.

Quantization

Target

Save

Training

Datasets

Dataset 1

Sample

Das Training eines LoRA auf FLUX.2 [dev] unterscheidet sich grundlegend vom Training älterer SD-Modelle. Wer erfolgreich FLUX.2-dev LoRA trainieren möchte, muss verstehen, dass FLUX.2 [dev] einen riesigen Rectified-Flow-Transformer mit 32B Parametern, einen 24B Mistral-Text-Encoder und einen hochwertigen Autoencoder kombiniert. Das Modell beherrscht Text-zu-Bild und Bildbearbeitung in einem einzigen Checkpoint. Diese Anleitung behandelt:

  • Was FLUX.2 [dev] besonders macht
  • Wie diese Designentscheidungen das FLUX.2 [dev] LoRA Training beeinflussen
  • Wie Sie AI Toolkit für verschiedene Hardware-Konfigurationen einrichten
  • Wie Sie Datensätze, Trigger und Parameter konfigurieren, um den gewünschten Stil / Charakter / Bearbeitungseffekt zu erzielen

Dieser Artikel ist Teil der AI Toolkit LoRA-Trainingsreihe. Wenn Sie neu bei Ostris AI Toolkit sind, beginnen Sie mit der AI Toolkit LoRA-Trainingsübersicht, bevor Sie in diese Anleitung zum FLUX.2-dev LoRA trainieren eintauchen.

Inhaltsverzeichnis


1. FLUX.2 [dev] für LoRA-Training verstehen

Bevor Sie Regler bewegen, hilft es zu verstehen, was Sie feinabstimmen.

1.1 High-Level-Architektur

Aus der offiziellen FLUX.2-dev Model Card und der Black Forest Labs Ankündigung:

  • Basismodell

    FLUX.2 [dev] ist ein 32B-Parameter Rectified-Flow-Transformer (ein DiT-ähnliches latentes Flow-Modell), das von Grund auf trainiert wurde – keine Fortsetzung von FLUX.1. Es kombiniert Text-zu-Bild-Generierung und Bildbearbeitung (Einzelbild und Multi-Referenz) in einem einzigen Checkpoint.

  • Text-Encoder

    FLUX.2 [dev] verwendet Mistral Small 3.1 / 3.2 – 24B als Vision-Language-Text-Encoder. Das sind weitere 24B Parameter zusätzlich zum 32B DiT. Bei normaler Präzision verschlingt allein dieser einen enormen Teil des VRAM und spielt eine zentrale Rolle im Modellverhalten.

  • Autoencoder (VAE)

    Das Modell verwendet einen neuen AutoencoderKLFlux2 mit 32 latenten Kanälen (FLUX.1 verwendete 16). Er ist für hochauflösende Bearbeitung und feine Texturerhaltung konzipiert, weshalb FLUX.2 scharfe 1024×1024-Bearbeitungen durchführen kann.

  • Einheitliche Generierung + Bearbeitung

    Dieselbe Architektur handhabt reine Text-zu-Bild-, Einzelbild-Bearbeitungs- und Multi-Referenz-Bearbeitungs-Aufgaben (bis zu etwa 10 Referenzbilder). Es gibt keinen separaten "Nur-Bearbeitung"-Zweig; alles ist ein Netzwerk.

  • Guidance-destilliert

    FLUX.2 [dev] ist ein guidance-destilliertes Modell: Es gibt keine klassische Classifier-Free-Guidance mit separaten "konditionierten" und "unkonditionierten" Durchläufen. Die "Guidance" ist in einen einzigen Forward-Pass eingebacken.

Was das für LoRA bedeutet:

  1. Der Kern-Transformer ist enorm.

    Da FLUX.2 [dev] einen fusionierten, hochkapazitiven Transformer verwendet, muss der LoRA-Rang sorgfältig gewählt werden. Sehr niedrige Ränge (4–8) bewirken möglicherweise kaum etwas. Der VRAM-Druck wird vom Transformer und Text-Encoder dominiert.

  2. Der Text-Encoder ist schwer und zentral für das Verhalten.

    Das ~24B Mistral VLM ist verantwortlich dafür, wie Prompts verstanden werden, wie Anweisungen befolgt werden und wie Bearbeitungsanweisungen interpretiert werden.

  3. Dieselben Gewichte handhaben T2I und Bearbeitung.

    Wenn Sie ein LoRA zu stark pushen, riskieren Sie, sowohl Text-zu-Bild- als auch Bildbearbeitungs-Verhalten zu verändern. Differential Output Preservation (DOP) und sorgfältiges Captioning halten das LoRA an eine Trigger-Phrase gebunden.

  4. Guidance ist speziell, weil das Modell guidance-destilliert ist.

    Sie trainieren normalerweise mit guidance_scale = 1. Bei normaler Inferenz verwenden Sie guidance_scale um 2–4.


2. Welche Art von FLUX.2 LoRA trainieren Sie eigentlich?

Bei FLUX.2 [dev] sollten Sie zuerst entscheiden, was der Adapter tun soll. Das Basismodell ist bereits stark bei Multi-Referenz-Bearbeitung und komplexer Prompt-Befolgung, sodass Sie nur ein LoRA benötigen, wenn Sie etwas Persistentes wollen, das das Basismodell nicht zuverlässig von selbst kann.

Häufige Ziele beim Flux2 dev LoRA trainieren:

  1. Stil-LoRA (T2I + Bearbeitung)

    Bringen Sie FLUX.2 bei, einen bestimmten Malstil, Farbton oder Render-Look zu verwenden, wenn ein Trigger vorhanden ist.

  2. Charakter-/Identitäts-LoRA

    Modellieren Sie eine bestimmte Person, einen Avatar, ein Maskottchen oder eine Produktlinie mit konsistenten Gesichtern/Merkmalen über viele Bilder hinweg.

  3. Objekt-/Requisiten-/Marken-LoRA

    Erfassen Sie bestimmte Produkte, Logos, Requisiten oder Formen mit strikten Geometrie- oder Markenvorgaben.

  4. Anweisungs-/Bearbeitungs-LoRA

    Ändern Sie Verhalten statt Stil: zum Beispiel "verwandle jedes Portrait in eine Aquarellskizze", "erstelle eine Blaupause-Version" oder strukturierte Bearbeitungsanweisungen mit Vorher/Nachher-Paaren.

Das Wissen, welches dieser Ziele Sie anstreben, hilft bei der Entscheidung über Datensatz, Rang, Differential Output Preservation und Guidance-Einstellungen.


3. FLUX.2-spezifische Details, die LoRA-Einstellungen beeinflussen

3.1 LoRA auf einem fusionierten Transformer (Rang-Skalierung)

FLUX.2 [dev] fusioniert Attention- und MLP-Projektionen in sehr breite Matrizen im Vergleich zu klassischem SD1.5/SDXL. Das bedeutet:

  • Sehr niedrige Ränge (4–8) fühlen sich oft zu schwach an, da sie nur einen winzigen Unterraum in diesen riesigen Schichten besetzen können.
  • Für Stil- oder Charakter-LoRAs auf FLUX.2 [dev] ist Rang 32 ein guter Standard, wenn VRAM es erlaubt.
  • Bei knappem VRAM oder einfachem Stil können Sie Rang 8–16 und weniger Schritte verwenden.
  • Für extrem komplexe Marken oder Identitäten mit vielen Ansichten kann Rang 32–64 helfen, aber Overfitting wird wahrscheinlicher.

Beim FLUX 2 dev LoRA-Training profitiert das Modell generell von etwas höheren Rängen als ältere Modelle, aber Sie zahlen dafür mit VRAM und Overfitting-Risiko.


3.2 Guidance-destilliertes Modell: Training bei guidance_scale = 1

Da FLUX.2 [dev] guidance-destilliert ist, gilt die übliche Stable-Diffusion-Intuition von "CFG 7–8" nicht.

  • Training: setzen Sie guidance_scale = 1.
  • Inferenz: eine guidance_scale im Bereich 2–4 funktioniert gut.
    • Niedrigere Werte (≈2) erzeugen lockerere, kreativere Ausgaben.
    • Höhere Werte (≈3.5–4) sind wörtlicher und folgen dem Prompt genauer.

3.3 Der Text-Encoder ist riesig (und warum Embedding-Caching wichtig ist)

Der Mistral 24B VLM, der als FLUX.2s Text-Encoder verwendet wird, ist kein kleines Nebenmodul. Bei normaler Präzision sind es etwa 24GB an Parametern allein.

In AI Toolkit sind die üblichen Muster:

  • Wenn Ihr Training-Setup eine feste Caption pro Bild verwendet und Sie nicht Differential Output Preservation oder On-the-fly-Prompt-Umschreibung verwenden: Aktivieren Sie Cache Text Embeddings, damit das Toolkit alle Captions einmal encodiert, die Embeddings cached und diese nicht jeden Schritt neu encodieren muss.
  • Wenn Sie Differential Output Preservation (DOP) verwenden oder irgendetwas anderes, das Prompts jeden Schritt modifiziert: Sie können keine Text-Embeddings cachen.

Der Trade-off ist einfach: Embedding-Caching ist ein großer Gewinn für statische Captions, aber sobald Ihr Training auf sich ändernde Prompts zur Laufzeit angewiesen ist, müssen Sie das Caching deaktivieren.


3.4 Autoencoder und Auflösung

FLUX.2 verwendet einen dedizierten AutoencoderKLFlux2, der für 1024×1024+ Arbeit konzipiert ist:

  • Er verwendet 32 latente Kanäle, was bessere Details und Bearbeitungstreue bietet als ältere 16-Kanal-VAEs, auf Kosten von mehr VRAM.
  • In der Praxis erfasst das Training von FLUX.2 LoRAs bei 768–1024 Auflösung den größten Nutzen.

AI Toolkits Auflösungs-Buckets lassen Sie mehrere Auflösungen auflisten (zum Beispiel [768, 896, 1024]). Bilder werden automatisch in den nächsten Bucket skaliert.


4. Hardware & VRAM-Anforderungen für FLUX.2 LoRA-Training

FLUX.2 [dev] ist sehr speicherhungrig. Diffusers' Referenzkonfigurationen berichten, dass das Ausführen des vollständigen DiT + Text-Encoders in bf16 immer noch etwa 62 GB VRAM auf einem H100 benötigt. LoRA-Training ist schwerer als Inferenz, weil Sie auch Speicher für Gradienten und Optimizer-Zustände brauchen.

4.1 Empfohlene Einstellungen nach VRAM-Stufe

Stufe A — 16–24 GB GPU (z.B. 4070 Ti, 4080, 4090)

  • Was realistisch ist

    Auf dieser Stufe ist FLUX.2 dev LoRA Feinabstimmung möglich, aber eng. Sie sind meist auf kleine Stil- oder einfache Charakter-LoRAs bei etwa 896–1024 px auf der langen Seite beschränkt, mit Batch Size = 1 und aggressiven Speicherspareinstellungen.

  • Wichtige UI-Einstellungen

    Im MODEL-Panel: Low VRAM AN und Layer Offloading AN.

    Im QUANTIZATION-Panel: Transformer auf float8 (default) und Text Encoder auf float8 (default).

    Im TRAINING-Panel: Batch Size = 1 und Gradient Accumulation bei Bedarf verwenden.

    Im DATASETS-Panel: Hauptauflösung von 896–1024 bevorzugen.

Stufe B — 32–48 GB GPU (z.B. RTX 6000 Ada, A6000, einige A100)

  • Was realistisch ist

    Dies ist die erste Stufe, wo sich AI Toolkit FLUX.2 dev LoRA Training komfortabel anfühlt. Sie können produktionsreife Stil- und Charakter-LoRAs bei 1024×1024 trainieren, mit 20–60+ Bildern und 1000–3000 Schritten.

  • Wichtige UI-Einstellungen

    Im MODEL: Low VRAM AN standardmäßig; Layer Offloading AUS, es sei denn, Sie bekommen immer noch OOM.

    Im QUANTIZATION: beide auf float8 (default).

    Im TRAINING: Batch Size = 1–2, Steps ≈ 1000–3000, Learning Rate = 0.0001, Linear Rank = 32 als starker Standard.

Stufe C — 64–96+ GB GPU (z.B. H100, H200 auf RunComfy)

  • Was realistisch ist

    Hier haben Sie endlich Luft zum Atmen: 1024×1024 mit Batch Size = 2–4, größere oder mehrere Auflösungs-Buckets und Differential Output Preservation AN standardmäßig sind alle unkompliziert.

  • Wichtige UI-Einstellungen

    Im MODEL: Sie können Low VRAM AUS und Layer Offloading AUS lassen.

    Im QUANTIZATION: Es ist immer noch effizient, beide in float8 (default) zu halten.

    Im TRAINING: Batch Size = 2–4, Linear Rank = 32–64 und Differential Output Preservation AN.


4.2 Lokales AI Toolkit vs. Cloud AI Toolkit auf RunComfy

Sie können diesen FLUX.2 LoRA-Workflow auf zwei Arten ausführen:

  • Lokal mit AI Toolkit – installieren Sie AI Toolkit vom AI Toolkit GitHub Repository und verwenden Sie Ihre eigene GPU.
  • Cloud AI Toolkit auf RunComfy – öffnen Sie das Cloud AI Toolkit auf RunComfy und trainieren Sie auf H100 (80 GB) oder H200 (141 GB) GPUs ohne lokale Installation.

5. Datensätze für FLUX.2 LoRA gestalten

5.1 Wie viele Bilder?

Aus verfügbaren FLUX-Beispielen und ähnlichen LoRA-Trainings:

  • Einfaches Stil-LoRA – etwa 15–30 kuratierte Bilder mit konsistentem Stil funktionieren meist gut.
  • Charakter-/Identitäts-LoRA – etwa 20–60 Bilder mit klaren Ansichten, verschiedenen Winkeln und Beleuchtung.
  • Bearbeitungs-/Anweisungs-LoRA – oft Paar-Datensätze mit 50–200 (Quelle, Ziel, Anweisung) Tripeln.

5.2 Captioning-Strategie: Was Sie nicht schreiben, zählt

Was Sie in der Caption nicht beschreiben, ist "frei" für das LoRA, um es an Ihren Trigger anzuhängen.

Für ein Stil-LoRA wollen Sie normalerweise:

  • Captions, die beschreiben, was im Bild ist (Person, Pose, Szene, Objekte).
  • Captions, die nicht Pinselführung, Farben, Medium oder Kompositionsstil beschreiben.

Für ein Charakter-LoRA:

  • Verwenden Sie einen kurzen, einzigartigen Trigger (z.B. midnight_tarot) und ein Klassenwort (person, woman, man, character, etc.).
  • Captions können Dinge sein wie [trigger] a woman standing in a market, [trigger] a close-up portrait of a woman in a red jacket, usw.

5.3 Differential Output Preservation (DOP)

Differential Output Preservation ist eine Regularisierungsstrategie im AI Toolkit, die vergleicht:

  • Die Basismodell-Ausgabe ohne LoRA, und
  • Die Ausgabe mit aktivem LoRA,

und das LoRA bestraft, wenn es Dinge ändert, obwohl kein Trigger vorhanden ist.

In der Praxis:

  • Sie wählen ein Trigger-Wort (zum Beispiel midnight_tarot) und eine Preservation Class (zum Beispiel photo).
  • Captions werden mit einem Platzhalter [trigger] geschrieben.

Zur Trainingszeit generiert AI Toolkit intern zwei Versionen jeder Caption:

  • midnight_tarot a woman sitting on a park bench... – dieser Pfad trainiert das LoRA.
  • photo a woman sitting on a park bench... – dieser Pfad lehrt das Modell, was zu tun ist, wenn der Trigger fehlt.

6. Schritt für Schritt: FLUX.2 [dev] LoRA-Training in AI Toolkit konfigurieren

6.1 Einmalige Einrichtung

6.2 Bereiten Sie Ihren Datensatz im Toolkit vor

  • Sammeln Sie Bilder für Ihren gewählten LoRA-Typ (Stil, Charakter, Objekt, Anweisung).
  • Platzieren Sie sie in einem Ordner im AI Toolkit datasets-Verzeichnis, zum Beispiel: /ai-toolkit/datasets/flux2_midnight_tarot/
  • Fügen Sie .txt-Caption-Dateien mit demselben Basisnamen wie jedes Bild hinzu.
  • Verwenden Sie [trigger] in Captions, wo Ihr Trigger-Wort erscheinen soll.

6.3 Neuen Training-Job erstellen

In der AI Toolkit UI erstellen Sie einen neuen Job und konfigurieren jedes Panel wie folgt.

6.3.1 JOB-Panel – Name, GPU und Trigger-Wort

Im JOB-Panel:

  • Training Name

    Wählen Sie einen beschreibenden Namen, zum Beispiel flux2_midnight_tarot_v1.

  • GPU ID

    Bei einer lokalen Installation wählt dies Ihre physische GPU (typischerweise 0 für eine Einzeln-GPU-Maschine).

    Auf dem Cloud AI Toolkit auf RunComfy lassen Sie dies als Standard.

  • Trigger Word

    Setzen Sie dies auf das tatsächliche Token, das Sie in Prompts eingeben möchten, zum Beispiel midnight_tarot.


6.3.2 MODEL & QUANTIZATION-Panels – FLUX.2 Basismodell und Präzision

Im MODEL-Panel:

  • Model Architecture

    Wählen Sie die FLUX.2-Architektur.

  • Name or Path

    Dies ist die Hugging Face model id für den Basis-Checkpoint, zum Beispiel: black-forest-labs/FLUX.2-dev.

    FLUX.2 [dev] ist ein gegatetes Hugging Face-Modell, also müssen Sie dessen Lizenz akzeptieren und HF_TOKEN in einer .env-Datei setzen.

  • Low VRAM

    AN bei Stufe A und oft Stufe B.

    AUS bei Stufe C (H100/H200).

  • Layer Offloading

    Aktivieren Sie dies bei Stufe A.

    Bei Stufe B und C normalerweise AUS.

Im QUANTIZATION-Panel:

  • Transformer

    float8 (default) bei Stufe B und C.

  • Text Encoder

    float8 (default), damit der 24B Mistral Text-Encoder in FP8 läuft.


6.3.3 TARGET-Panel – LoRA-Netzwerk-Einstellungen

Im TARGET-Panel:

  • Target Type

    Setzen Sie Target Type auf LoRA.

  • Linear Rank

    Verwenden Sie Linear Rank 32 als starken Standard für FLUX.2, da der fusionierte Transformer von etwas höheren Rängen profitiert.


6.3.4 TRAINING & SAVE-Panels – Kern-Hyperparameter und Text-Encoder-Handling

Im Training-Panel:

  • Batch Size

    Verwenden Sie 1 auf 24–48GB GPUs.

    Verwenden Sie 2 auf 64GB+ GPUs wie H100/H200.

  • Gradient Accumulation

    Beginnen Sie mit 1.

    Erhöhen Sie auf 2–4, wenn VRAM knapp ist.

  • Steps

    Als Baseline:

    • Stil-LoRA, 15–30 Bilder: 800–2000 Schritte.
    • Charakter-LoRA, 30–60 Bilder: 1000–2500 Schritte.
    • Anweisungs-/Bearbeitungs-LoRA mit 100+ Beispielen: 1500–3000 Schritte.
  • Optimizer

    Verwenden Sie einen 8-Bit-Optimizer wie AdamW8Bit.

  • Learning Rate

    Beginnen Sie mit 0.0001.

    Bei Overshooting oder instabilen Samples auf 0.00005 senken.

  • Weight Decay

    Behalten Sie 0.0001.

  • Timestep Type
    • weighted verwendet AI Toolkits FLUX-optimierten Schedule und ist der empfohlene Standard.
    • sigmoid konzentriert sich noch stärker auf die Mitte des Schedules.
  • Timestep Bias
    • Balanced hält beide Regionen vertreten und ist die sicherste Wahl.
  • Loss Type
    • Behalten Sie Mean Squared Error.
  • EMA

    Lassen Sie Use EMA AUS für LoRAs.

  • Text Encoder Optimizations
    • Wenn Sie nicht Differential Output Preservation verwenden und Ihre Captions statisch sind:
      • Cache Text Embeddings: AN
      • Unload TE: AUS
    • Wenn Sie DOP oder etwas verwenden, das Prompts jeden Batch ändert:
      • Beide AUS.

Im SAVE-Panel:

  • Data Type

    BF16.

  • Save Every und Max Step Saves to Keep

    Verwenden Sie Standards wie Save Every = 250 Schritte und Max Step Saves = 4.


6.3.5 Regularization & Advanced – Differential Output Preservation und Differential Guidance

Regularization-Panel – Differential Output Preservation (DOP)

Wenn Sie das Verhalten des Basismodells erhalten möchten, wenn Ihr Trigger nicht vorhanden ist, aktivieren Sie Differential Output Preservation.

Im Regularization-Panel:

  • Differential Output Preservation AN.
  • Trigger auf dasselbe Trigger-Wort setzen, z.B. midnight_tarot.
  • Preservation Class auf ein neutrales Wort wie photo.

Im Training → Text Encoder Optimizations-Bereich:

  • Mit DOP AN: Cache Text Embeddings AUS und Unload TE AUS.

Advanced-Panel – Differential Guidance

Im Advanced-Panel:

  • Do Differential Guidance – aktiviert ein experimentelles Trainingsziel, das die Lücke zwischen der Vorhersage des Modells und dem Ground-Truth übertreibt.
  • Differential Guidance Scale – kontrolliert, wie stark dieser "Overshoot" ist.

Praktische Empfehlungen

  • Für die meisten FLUX.2 LoRAs ist es sicher, Do Differential Guidance AN zu schalten mit einer Differential Guidance Scale von 3.
  • Bei instabilen Samples senken Sie die Scale auf 2 oder 1 oder reduzieren Sie die Learning Rate.

6.3.6 DATASETS-Panel – Datensätze anhängen und Latents cachen

Im DATASETS-Panel klicken Sie auf Add Dataset.

Für ein einfaches Stil- oder Charakter-LoRA:

  • Target Dataset

    Wählen Sie den zuvor erstellten Datensatz, z.B. flux2_midnight_tarot.

  • Default Caption

    Wenn Sie keine per-Bild .txt-Dateien erstellt haben, geben Sie einen Standard ein wie: [trigger] a portrait of a person

  • Caption Dropout Rate

    Ein Wert um 0.05 ist ein guter Standard wenn Cache Text Embeddings AUS ist.

    Bei Cache Text Embeddings AN setzen Sie dies auf 0.

  • Settings → Cache Latents

    AN. Der VAE encodiert jedes Trainingsbild einmal.

  • Settings → Is Regularization

    AUS für Ihren Hauptdatensatz.

  • Resolutions
    • Auf 16–24GB: beginnen Sie mit 768 und optional 896.
    • Auf 32–48GB: verwenden Sie [768, 896, 1024].
    • Auf 64GB+: Sie können einen etwas höheren Bucket hinzufügen.
  • Augmentations (X/Y flip)

    Horizontaler Flip kann für manche Stil-LoRAs nützlich sein, ist aber oft fragwürdig für Gesichter.


6.4 Vorschau-Sampling-Konfiguration

Im SAMPLE-Panel:

  • Sample Every

    Sample Every = 250 Schritte.

  • Sampler

    Verwenden Sie den von Ihrer FLUX.2-Vorlage empfohlenen Sampler.

  • Width / Height

    Wählen Sie eine Auflösung, die zu Ihren Training-Buckets passt, z.B. 768×768 oder 768×1024.

  • Guidance Scale

    guidance_scale = 1 für Training-Vorschauen.

  • Sample Steps

    Etwa 25 Schritte reichen normalerweise für die Überwachung.

  • Seed / Walk Seed

    Fixieren Sie einen Seed (z.B. 42) für konsistente Vergleiche.

  • Prompts

    Fügen Sie 2–4 repräsentative Prompts hinzu.


7. FLUX.2 LoRA-Ergebnisse debuggen und Qualität verbessern

7.1 "GatedRepoError / 401 beim Herunterladen von FLUX.2-dev"

Wenn Sie einen Fehler wie diesen sehen:

GatedRepoError (401): Cannot access gated repo ... black-forest-labs/FLUX.2-dev ...

Bedeutet das normalerweise, dass das FLUX.2-dev Basismodell ein gegatetes Hugging Face Repo ist und der Trainer es ohne Authentifizierung nicht herunterladen kann.

Fix (einmalige Zugangsbestätigung + Token):

  1. Modellbedingungen akzeptieren / Zugang bekommen (einmalig)
    • Melden Sie sich bei Hugging Face an.
    • Öffnen Sie https://huggingface.co/black-forest-labs/FLUX.2-dev
    • Klicken Sie auf Agree and access repository.
  2. Hugging Face Access Token erstellen
    • Öffnen Sie https://huggingface.co/settings/tokens
    • Klicken Sie auf New token
    • Setzen Sie die Token-Rolle auf Read
  3. Token in den Trainer-Einstellungen hinzufügen
    • Öffnen Sie die Trainer Settings-Seite.
    • Finden Sie Hugging Face Token.
    • Fügen Sie Ihr hf_... Token ein und speichern.
  4. Job neu starten

7.2 "Nichts ändert sich nach 1000+ Schritten"

Checkliste:

  1. Ist das LoRA tatsächlich beim Sampling angewendet?

    Stellen Sie sicher, dass das LoRA am richtigen FLUX.2 Basismodell angehängt ist.

  2. Linear Rank zu niedrig für den fusionierten Transformer

    Wenn Sie Linear Rank nur auf 4–8 gesetzt haben, kann die Wirkung sehr klein sein. Versuchen Sie Linear Rank = 16–32.

  3. Learning Rate zu niedrig

    Beginnen Sie mit 0.0001.

  4. Captions beschreiben den Stil statt des Inhalts

    Wenn jede Caption etwas wie "watercolor, soft pastel strokes..." sagt, bleibt nichts für den Trigger übrig.


7.3 "Mein LoRA hat das Basismodell überschrieben"

Symptome:

  • Selbst ohne Trigger sehen Ausgaben bereits wie Ihr LoRA-Stil aus.

Fixes:

  1. Differential Output Preservation einschalten

    Trigger und Preservation Class wie oben beschrieben konfigurieren.

  2. Training-Schritte reduzieren

    Für viele Stil-LoRAs bei Rang 32 reichen 800–1500 Schritte.

  3. Rang oder Learning Rate senken

    Versuchen Sie Linear Rank = 16 und Learning Rate = 0.000075 mit aktivem DOP.


7.4 "CUDA out of memory" oder Training hängt

Üblicher Überlebensplan:

  1. Auflösung senken

    Von 1024 → 896 oder 768 auf der langen Seite.

  2. Gradient Checkpointing und Accumulation aktivieren/erhöhen
  3. Aggressive Quantisierung

    FP8 oder sogar 4-Bit für den Transformer.

  4. Latent-Caching verwenden

    Cache Latents aktivieren.

  5. Bei sehr knappem VRAM DOP vermeiden

    Stattdessen:

    • Kleiner, ausgewogener Datensatz.
    • Weniger Training-Schritte mit frühem Stoppen.
  6. Job auf größere GPU verschieben

    Migrieren Sie denselben AI Toolkit Job zu RunComfys H100/H200 Templates.


8. Ihr FLUX.2 LoRA in der Inferenz verwenden

Sobald das Training abgeschlossen ist, können Sie Ihr FLUX.2 LoRA auf zwei einfache Arten verwenden:

  • Run LoRA – öffnen Sie die FLUX.2 Run LoRA Seite. Auf dieser Base‑Model‑Inference‑Seite können Sie entweder ein LoRA‑Asset auswählen, das Sie auf RunComfy trainiert haben, oder eine LoRA‑Datei importieren, die Sie mit AI Toolkit trainiert haben, und anschließend Inference über das Playground oder die API ausführen. RunComfy verwendet dasselbe Base Model und die vollständige AI‑Toolkit‑Pipeline‑Definition aus Ihrer Training‑Config, sodass Sie in der Inference genau das bekommen, was Sie im Training gesehen haben — diese enge Ausrichtung von Training und Inference hilft, die Ergebnisse konsistent mit Ihren Trainings‑Samples zu halten.
  • ComfyUI Workflows – starten Sie eine ComfyUI-Instanz und laden Sie einen Workflow wie Flux 2 Dev, fügen Sie Ihr LoRA im LoRA-Loader-Node hinzu.

Weitere AI Toolkit LoRA-Training-Anleitungen

Ready to start training?