OOM im AI Toolkit vermeiden: Sichere Startwerte für den ersten erfolgreichen Lauf
Diese Seite beschreibt nicht das Setup für maximale Geschwindigkeit.
Es ist das Setup für den ersten erfolgreichen Lauf.
Wenn Sie damit aufhören möchten, Retries zu verschwenden, OOMs zu reduzieren und schneller zu einem brauchbaren Training zu kommen, starten Sie hier.
Die Regel ist einfach:
Erst Stabilität beweisen. Dann auf Geschwindigkeit optimieren.
Wofür dieser Leitfaden gedacht ist
Verwenden Sie diese Seite, wenn:
- Sie gerade einen neuen AI-Toolkit-Job anlegen
- Sie sicherere Starteinstellungen möchten
- Sie lieber einen stabilen ersten Lauf haben wollen, als Stunden mit OOM-Debugging zu verbringen
- Sie eine praktische „Keine-riskanten-Einstellungen-zum-Start"-Checkliste brauchen
Wenn Sie bereits den Fehler CUDA out of memory sehen, gehen Sie zu:
60-Sekunden-OOM-Preflight-Checkliste
Bevor Sie auf Create Job klicken:
- ✅ Batch Size konservativ halten
- ✅ In Datasets mit konservativen Resolutions starten
- ✅ In Sample die Vorschau günstiger halten als Ihr endgültiges Ziel
- ✅ Auf Show Advanced klicken und sicherstellen, dass
gradient_checkpointing: true - ✅ Für Video mit konservativer Num Frames starten
- ✅ Modellspezifische Low-Memory-Features nur nutzen, wenn der Modell-Leitfaden sie empfiehlt
- ✅ Nicht mehrere riskante Änderungen im ersten Lauf ausprobieren
RunComfy hilft hierbei auch auf Produktebene. Wenn Sie einen Trainingsjob speichern, prüft RunComfy, ob Ihre aktuellen Einstellungen Hochrisiko-Kombinationen enthalten — zum Beispiel übertrieben aggressive Batch Size, Frames, Auflösung oder zu frühes Deaktivieren von Speicherspar-Defaults. Ziel ist es, riskante Konfigurationen vor dem Verbrauch von GPU-Zeit und Budget zu erkennen.
Das ersetzt kein modellspezifisches Urteil, bietet aber einen sichereren Ausgangspunkt.
1) Die wichtigste Denkweise-Änderung
Die meisten gescheiterten ersten Läufe scheitern nicht an einer „schlechten Learning Rate".
Sie scheitern an:
- zu hoher Auflösung
- zu vielen Frames
- zu großer Batch
- zu teurem Vorschau-Sampling
- zu frühem Abschalten von Speicherspar-Defaults
Ihr erster erfolgreicher Lauf sollte daher bewusst langweilig aussehen.
Das ist gut so.
2) Sichere Starteinstellungen für Bildmodelle
FLUX-dev / Flex-ähnliche große Bildmodelle
Guter erster Lauf
- Batch Size:
1 - Gradient Checkpointing:
AN - Datasets > Resolutions: mit
512 + 768starten 1024erst nach Stabilität hinzufügen- Sample: Vorschau moderat halten oder Sampling vorübergehend deaktivieren
Nicht hier starten
- GC AUS
- Batch Size ≥ 8
- aggressives Multi-Bucket-Hochauflösungs-Setup im ersten Lauf
- häufige, aufwendige Vorschauen
Z-Image
Guter erster Lauf
- Batch Size: erst konservativ
- Gradient Checkpointing:
AN - Resolutions:
768 + 1024ist ein sichereres erstes Ziel als direkt zum größten Bucket - Vorschauen vernünftig halten
Nicht hier starten
- GC AUS mit größerer Batch
- direkt mit dem größten Bucket starten
- hohe Batch mit hoher Auflösung mischen, bevor Stabilität bewiesen ist
Qwen Image Edit
Guter erster Lauf
- Batch Size:
1 - Gradient Checkpointing:
AN - mit einem kleineren oder einfacheren Bucket-Mix starten
- Vorschaukosten kontrolliert halten
- den vorgesehenen Low-Memory-Pfad des Modells nutzen, wenn der Leitfaden es empfiehlt
Nicht hier starten
- GC AUS
- größere Batch im ersten Lauf
- teure 1024-Vorschauen plus schwere Konditionierung plus häufige Sample-Generierung
- zufällige Text-Encoder-Experimente, bevor die Basis-Pipeline stabil ist
3) Sichere Starteinstellungen für Videomodelle
Wan 2.2 14B
Guter erster Lauf
- Batch Size:
1 - Datasets > Num Frames:
21oder41 - Datasets > Resolutions: mit
512starten 768erst nach einem stabilen Lauf hinzufügen- Vorschau-Videos konservativ halten
Nicht hier starten
- 81 Frames + Batch Size 2
- lange Vorschau-Videos während des Trainings
- große Buckets plus lange Clips, bevor Stabilität bewiesen ist
LTX-2
Guter erster Lauf
- Batch Size:
1 - Num Frames:
49oder81 - Resolution:
512 - Vorschaukosten unter Kontrolle halten
Nicht hier starten
- 121 Frames + Batch Size 4
- größere Buckets vor einem bewiesenen stabilen Lauf
- Annahme, dass Batch-Gewohnheiten von Bildmodellen auf Video übertragbar sind
4) Sicherere Vorschau-Einstellungen als die meisten Nutzer starten
Viele „Training-OOM"-Fälle sind eigentlich Vorschau-OOM.
Verwenden Sie daher für den ersten Lauf günstigeres Sampling als Sie glauben zu brauchen.
Im Sample-Panel
Bevorzugen Sie:
- niedrigere Width / Height
- niedrigere Sample Steps
- selteneres Sample Every
- Disable Sampling AN, wenn Ihr einziges Ziel der Stabilitätsnachweis ist
Sobald der Lauf stabil ist, können Sie die Vorschauen wieder aufwerten.
5) Was in Show Advanced zu prüfen ist
Die Standard-UI deckt viele wichtige Regler ab, aber der sicherste Preflight-Check ist immer noch der erweiterte YAML.
Prüfen Sie zuerst:
train:
batch_size: 1
gradient_checkpointing: true
disable_sampling: false
model:
low_vram: false
sample:
width: 1024
height: 1024
sample_steps: 25
guidance_scale: 4
num_frames: 1
datasets:
- resolution: [512, 768, 1024]
num_frames: 1
Für einen sichereren ersten Lauf sind die am häufigsten reduzierten Werte:
batch_sizeresolutionnum_framessample.widthsample.heightsample.sample_steps
Und das, was am häufigsten aktiviert bleiben muss:
gradient_checkpointing: true
6) „Nicht hier starten"-Kombinationen
Genau diese Erstwahl-Kombinationen erzeugen vermeidbare OOMs:
| Riskante Kombination | Warum es riskant ist |
|---|---|
| Gradient Checkpointing = AUS bei großen Bildmodellen | einfacher Weg, VRAM-Spielraum sofort zu verlieren |
| FLUX-ähnliches Bildmodell + Batch Size 8+ | Hochrisiko-Erstlauf, besonders mit reicheren Buckets |
| Wan 2.2 + 81 Frames + Batch Size 2 | klassisches Video-Speicher-Spike-Territorium |
| LTX-2 + 121 Frames + Batch Size 4 | extrem schwere Erstlauf-Kombination |
| teure 1024-Vorschauen in kurzen Abständen | Vorschau-OOM, selbst wenn Training fast passt |
| mehrere riskante Änderungen gleichzeitig | Sie wissen nicht, was den Fehler wirklich verursacht hat |
7) Ein sehr praktisches Erstlauf-Rezept
Wenn Sie nur eine Regel wollen:
Für Bildmodelle
- Batch Size = 1
gradient_checkpointing: true- nur die kleineren / mittleren Buckets zuerst
- günstige oder keine Vorschau
- beweisen, dass der Job läuft
Für Videomodelle
- Batch Size = 1
- konservative Num Frames
512zuerst- günstige Vorschau
- beweisen, dass der Job läuft
Das ist der schnellste Weg zu einem echten erfolgreichen Lauf.
8) Wann hochskalieren
Erst nach einem stabilen Lauf hochskalieren.
Gute Reihenfolge:
- dieselben Speichereinstellungen beibehalten
- Steps erhöhen
- Vorschauqualität verbessern
- einen größeren Bucket hinzufügen
- mehr Frames hinzufügen (Video)
- erst dann eine größere Batch testen
Eine Variable auf einmal.
9) Wenn der Job trotzdem OOM hat
Gehen Sie direkt zum Runtime-Fix-Guide:
Diese Seite ist für Jobs, die bereits fehlgeschlagen sind.
Diese Seite hier ist dafür da, den Fehler von vornherein zu vermeiden.
Einzeiler-Zusammenfassung
Das beste Erstlauf-Preset für AI Toolkit ist eines, das leicht konservativ, klar stabil und einfach hochzuskalieren ist.
Sicher starten.
Einen erfolgreichen Lauf schaffen.
Dann optimieren.
Verwandte Leitfäden
Bereit zum Starten des Trainings?
