AI Toolkit LoRA-Training Guides

AI Toolkit Sichere Startwerte zur Vermeidung von OOM

Preflight-Leitfaden für AI Toolkit Jobs: Prüfen Sie Batch Size, Auflösungen, Frames, Gradient Checkpointing und Preview-Sampling, bevor Sie einen Job erstellen, damit Ihr erster Lauf eher erfolgreich ist.

Diffusionsmodelle mit Ostris AI Toolkit trainieren

OOM im AI Toolkit vermeiden: Sichere Startwerte für den ersten erfolgreichen Lauf

Diese Seite beschreibt nicht das Setup für maximale Geschwindigkeit.

Es ist das Setup für den ersten erfolgreichen Lauf.

Wenn Sie damit aufhören möchten, Retries zu verschwenden, OOMs zu reduzieren und schneller zu einem brauchbaren Training zu kommen, starten Sie hier.

Die Regel ist einfach:

Erst Stabilität beweisen. Dann auf Geschwindigkeit optimieren.

Wofür dieser Leitfaden gedacht ist

Verwenden Sie diese Seite, wenn:

  • Sie gerade einen neuen AI-Toolkit-Job anlegen
  • Sie sicherere Starteinstellungen möchten
  • Sie lieber einen stabilen ersten Lauf haben wollen, als Stunden mit OOM-Debugging zu verbringen
  • Sie eine praktische „Keine-riskanten-Einstellungen-zum-Start"-Checkliste brauchen

Wenn Sie bereits den Fehler CUDA out of memory sehen, gehen Sie zu:


60-Sekunden-OOM-Preflight-Checkliste

Bevor Sie auf Create Job klicken:

  • Batch Size konservativ halten
  • ✅ In Datasets mit konservativen Resolutions starten
  • ✅ In Sample die Vorschau günstiger halten als Ihr endgültiges Ziel
  • ✅ Auf Show Advanced klicken und sicherstellen, dass gradient_checkpointing: true
  • ✅ Für Video mit konservativer Num Frames starten
  • ✅ Modellspezifische Low-Memory-Features nur nutzen, wenn der Modell-Leitfaden sie empfiehlt
  • Nicht mehrere riskante Änderungen im ersten Lauf ausprobieren

RunComfy hilft hierbei auch auf Produktebene. Wenn Sie einen Trainingsjob speichern, prüft RunComfy, ob Ihre aktuellen Einstellungen Hochrisiko-Kombinationen enthalten — zum Beispiel übertrieben aggressive Batch Size, Frames, Auflösung oder zu frühes Deaktivieren von Speicherspar-Defaults. Ziel ist es, riskante Konfigurationen vor dem Verbrauch von GPU-Zeit und Budget zu erkennen.

Das ersetzt kein modellspezifisches Urteil, bietet aber einen sichereren Ausgangspunkt.


1) Die wichtigste Denkweise-Änderung

Die meisten gescheiterten ersten Läufe scheitern nicht an einer „schlechten Learning Rate".

Sie scheitern an:

  • zu hoher Auflösung
  • zu vielen Frames
  • zu großer Batch
  • zu teurem Vorschau-Sampling
  • zu frühem Abschalten von Speicherspar-Defaults

Ihr erster erfolgreicher Lauf sollte daher bewusst langweilig aussehen.

Das ist gut so.


2) Sichere Starteinstellungen für Bildmodelle

FLUX-dev / Flex-ähnliche große Bildmodelle

Guter erster Lauf

  • Batch Size: 1
  • Gradient Checkpointing: AN
  • Datasets > Resolutions: mit 512 + 768 starten
  • 1024 erst nach Stabilität hinzufügen
  • Sample: Vorschau moderat halten oder Sampling vorübergehend deaktivieren

Nicht hier starten

  • GC AUS
  • Batch Size ≥ 8
  • aggressives Multi-Bucket-Hochauflösungs-Setup im ersten Lauf
  • häufige, aufwendige Vorschauen

Z-Image

Guter erster Lauf

  • Batch Size: erst konservativ
  • Gradient Checkpointing: AN
  • Resolutions: 768 + 1024 ist ein sichereres erstes Ziel als direkt zum größten Bucket
  • Vorschauen vernünftig halten

Nicht hier starten

  • GC AUS mit größerer Batch
  • direkt mit dem größten Bucket starten
  • hohe Batch mit hoher Auflösung mischen, bevor Stabilität bewiesen ist

Qwen Image Edit

Guter erster Lauf

  • Batch Size: 1
  • Gradient Checkpointing: AN
  • mit einem kleineren oder einfacheren Bucket-Mix starten
  • Vorschaukosten kontrolliert halten
  • den vorgesehenen Low-Memory-Pfad des Modells nutzen, wenn der Leitfaden es empfiehlt

Nicht hier starten

  • GC AUS
  • größere Batch im ersten Lauf
  • teure 1024-Vorschauen plus schwere Konditionierung plus häufige Sample-Generierung
  • zufällige Text-Encoder-Experimente, bevor die Basis-Pipeline stabil ist

3) Sichere Starteinstellungen für Videomodelle

Wan 2.2 14B

Guter erster Lauf

  • Batch Size: 1
  • Datasets > Num Frames: 21 oder 41
  • Datasets > Resolutions: mit 512 starten
  • 768 erst nach einem stabilen Lauf hinzufügen
  • Vorschau-Videos konservativ halten

Nicht hier starten

  • 81 Frames + Batch Size 2
  • lange Vorschau-Videos während des Trainings
  • große Buckets plus lange Clips, bevor Stabilität bewiesen ist

LTX-2

Guter erster Lauf

  • Batch Size: 1
  • Num Frames: 49 oder 81
  • Resolution: 512
  • Vorschaukosten unter Kontrolle halten

Nicht hier starten

  • 121 Frames + Batch Size 4
  • größere Buckets vor einem bewiesenen stabilen Lauf
  • Annahme, dass Batch-Gewohnheiten von Bildmodellen auf Video übertragbar sind

4) Sicherere Vorschau-Einstellungen als die meisten Nutzer starten

Viele „Training-OOM"-Fälle sind eigentlich Vorschau-OOM.

Verwenden Sie daher für den ersten Lauf günstigeres Sampling als Sie glauben zu brauchen.

Im Sample-Panel

Bevorzugen Sie:

  • niedrigere Width / Height
  • niedrigere Sample Steps
  • selteneres Sample Every
  • Disable Sampling AN, wenn Ihr einziges Ziel der Stabilitätsnachweis ist

Sobald der Lauf stabil ist, können Sie die Vorschauen wieder aufwerten.


5) Was in Show Advanced zu prüfen ist

Die Standard-UI deckt viele wichtige Regler ab, aber der sicherste Preflight-Check ist immer noch der erweiterte YAML.

Prüfen Sie zuerst:

train:
  batch_size: 1
  gradient_checkpointing: true
  disable_sampling: false

model:
  low_vram: false

sample:
  width: 1024
  height: 1024
  sample_steps: 25
  guidance_scale: 4
  num_frames: 1

datasets:
  - resolution: [512, 768, 1024]
    num_frames: 1

Für einen sichereren ersten Lauf sind die am häufigsten reduzierten Werte:

  • batch_size
  • resolution
  • num_frames
  • sample.width
  • sample.height
  • sample.sample_steps

Und das, was am häufigsten aktiviert bleiben muss:

  • gradient_checkpointing: true

6) „Nicht hier starten"-Kombinationen

Genau diese Erstwahl-Kombinationen erzeugen vermeidbare OOMs:

Riskante Kombination Warum es riskant ist
Gradient Checkpointing = AUS bei großen Bildmodellen einfacher Weg, VRAM-Spielraum sofort zu verlieren
FLUX-ähnliches Bildmodell + Batch Size 8+ Hochrisiko-Erstlauf, besonders mit reicheren Buckets
Wan 2.2 + 81 Frames + Batch Size 2 klassisches Video-Speicher-Spike-Territorium
LTX-2 + 121 Frames + Batch Size 4 extrem schwere Erstlauf-Kombination
teure 1024-Vorschauen in kurzen Abständen Vorschau-OOM, selbst wenn Training fast passt
mehrere riskante Änderungen gleichzeitig Sie wissen nicht, was den Fehler wirklich verursacht hat

7) Ein sehr praktisches Erstlauf-Rezept

Wenn Sie nur eine Regel wollen:

Für Bildmodelle

  1. Batch Size = 1
  2. gradient_checkpointing: true
  3. nur die kleineren / mittleren Buckets zuerst
  4. günstige oder keine Vorschau
  5. beweisen, dass der Job läuft

Für Videomodelle

  1. Batch Size = 1
  2. konservative Num Frames
  3. 512 zuerst
  4. günstige Vorschau
  5. beweisen, dass der Job läuft

Das ist der schnellste Weg zu einem echten erfolgreichen Lauf.


8) Wann hochskalieren

Erst nach einem stabilen Lauf hochskalieren.

Gute Reihenfolge:

  1. dieselben Speichereinstellungen beibehalten
  2. Steps erhöhen
  3. Vorschauqualität verbessern
  4. einen größeren Bucket hinzufügen
  5. mehr Frames hinzufügen (Video)
  6. erst dann eine größere Batch testen

Eine Variable auf einmal.


9) Wenn der Job trotzdem OOM hat

Gehen Sie direkt zum Runtime-Fix-Guide:

Diese Seite ist für Jobs, die bereits fehlgeschlagen sind.

Diese Seite hier ist dafür da, den Fehler von vornherein zu vermeiden.


Einzeiler-Zusammenfassung

Das beste Erstlauf-Preset für AI Toolkit ist eines, das leicht konservativ, klar stabil und einfach hochzuskalieren ist.

Sicher starten.

Einen erfolgreichen Lauf schaffen.

Dann optimieren.


Verwandte Leitfäden

Bereit zum Starten des Trainings?