AI Toolkit で OOM を避ける方法:最初の学習を成功させる安全な設定
このページは「最速セットアップ」ではありません。
最初の学習を成功させるためのセットアップです。
リトライの無駄を減らし、OOM を少なくして、使える学習にもっと早く到達したいなら、ここから始めてください。
ルールはシンプルです:
まず安定性を証明する。速度の最適化はその後。
このガイドの対象
以下の場合に使ってください:
- 新しい AI Toolkit ジョブを作成しようとしている
- より安全な初期設定がほしい
- OOM デバッグに何時間もかけるより、安定した最初の学習がほしい
- 「危険な設定で始めない」ための実践的チェックリストがほしい
すでに CUDA out of memory エラーが出ている場合は、こちらへ:
60秒 OOM プリフライトチェックリスト
Create Job をクリックする前に:
- ✅ Batch Size を控えめに設定
- ✅ Datasets で控えめな Resolution から開始
- ✅ Sample でプレビューを最終目標より軽くしておく
- ✅ Show Advanced をクリックして
gradient_checkpointing: trueを確認 - ✅ 動画の場合、控えめな Num Frames で開始
- ✅ モデル固有の低メモリ機能はモデルガイドが推奨する場合のみ使用
- ✅ 最初の学習で複数のリスクある変更を試さない
RunComfy はプロダクトレベルでもサポートします。学習ジョブを保存すると、現在の設定に高リスクな組み合わせが含まれていないかチェックします — 例えば過剰な batch size、frames、resolution、またはメモリ節約デフォルトの早すぎる無効化など。GPU 時間と予算を消費する前にリスクのある設定を検出することが目的です。
モデル固有の判断を置き換えるものではありませんが、より安全な出発点を提供します。
1) 最も重要なマインドセットの転換
ほとんどの失敗した最初の学習は、「悪い learning rate」が原因ではありません。
原因は:
- 高すぎる解像度
- 多すぎるフレーム
- 大きすぎるバッチ
- 高コストなプレビューサンプリング
- メモリ節約デフォルトの早すぎる無効化
最初の成功する学習は、意図的に地味であるべきです。
それで良いのです。
2) 画像モデルの安全な初期設定
FLUX-dev / Flex 系大型画像モデル
良い最初の学習
- Batch Size:
1 - Gradient Checkpointing:
オン - Datasets > Resolutions:
512 + 768から開始 - 安定してから
1024を追加 - Sample: プレビューを控えめにするか、一時的にサンプリングを無効化
ここから始めないこと
- GC オフ
- Batch Size ≥ 8
- 最初の学習でアグレッシブなマルチバケット高解像度設定
- 短い間隔での重いプレビュー
Z-Image
良い最初の学習
- Batch Size: まず控えめに
- Gradient Checkpointing:
オン - Resolutions: 最大バケットにいきなり行くより
768 + 1024が安全な最初の目標 - プレビューを合理的に保つ
ここから始めないこと
- 大きなバッチで GC オフ
- 最大バケットからいきなり開始
- 安定性を証明する前に高バッチと高解像度を組み合わせる
Qwen Image Edit
良い最初の学習
- Batch Size:
1 - Gradient Checkpointing:
オン - より小さい or シンプルなバケットミックスから開始
- プレビューコストを制御
- モデルガイドが推奨する場合はモデルの低メモリパスを使用
ここから始めないこと
- GC オフ
- 最初の学習で大きなバッチ
- 高コストな 1024 プレビュー + 重い条件付け + 頻繁なサンプル生成
- 基本パイプラインが安定する前のランダムなテキストエンコーダー実験
3) 動画モデルの安全な初期設定
Wan 2.2 14B
良い最初の学習
- Batch Size:
1 - Datasets > Num Frames:
21or41 - Datasets > Resolutions:
512から開始 - 安定した学習の後にのみ
768を追加 - プレビュー動画を控えめに保つ
ここから始めないこと
- 81 フレーム + Batch Size 2
- 学習中の長いプレビュー動画
- 安定性を証明する前の大きなバケット + 長いクリップ
LTX-2
良い最初の学習
- Batch Size:
1 - Num Frames:
49or81 - Resolution:
512 - プレビューコストを制御下に保つ
ここから始めないこと
- 121 フレーム + Batch Size 4
- 安定した学習が証明される前の大きなバケット
- 画像モデルのバッチ習慣が動画にそのまま適用できるという仮定
4) ほとんどのユーザーの初期設定より安全なプレビュー設定
「学習 OOM」の多くは実際にはプレビュー OOM です。
最初の学習では、必要と思うより軽いサンプリングを使ってください。
Sample パネルで
以下を推奨:
- より低い Width / Height
- より低い Sample Steps
- より少ない頻度の Sample Every
- 安定性の証明だけが目的なら Disable Sampling をオン
学習が安定したら、プレビューをリッチにし直せます。
5) Show Advanced で確認すべきこと
標準 UI は多くの重要な設定をカバーしていますが、最も安全なプリフライトチェックはアドバンスド YAML です。
まず以下を確認:
train:
batch_size: 1
gradient_checkpointing: true
disable_sampling: false
model:
low_vram: false
sample:
width: 1024
height: 1024
sample_steps: 25
guidance_scale: 4
num_frames: 1
datasets:
- resolution: [512, 768, 1024]
num_frames: 1
より安全な最初の学習のために、最も頻繁に下げる項目:
batch_sizeresolutionnum_framessample.widthsample.heightsample.sample_steps
最も頻繁に有効のままにすべき項目:
gradient_checkpointing: true
6) 「ここから始めない」組み合わせ
以下は、回避可能な OOM を生む典型的な最初の学習の選択です:
| リスクある組み合わせ | なぜリスクか |
|---|---|
| 大型画像モデルで Gradient Checkpointing = オフ | VRAM 余裕を即座に失う簡単な方法 |
| FLUX 系画像モデル + Batch Size 8+ | 特にリッチなバケットで高リスクの初回学習 |
| Wan 2.2 + 81 フレーム + Batch Size 2 | 動画メモリスパイクの典型的な領域 |
| LTX-2 + 121 フレーム + Batch Size 4 | 初回学習として極めて重い組み合わせ |
| 短い間隔での高コストな 1024 プレビュー | 学習がほぼ収まっていてもプレビュー OOM |
| 複数のリスクある変更を同時に追加 | 何が実際に失敗の原因か分からなくなる |
7) 非常に実践的な初回学習レシピ
ルールが1つだけ欲しいなら:
画像モデル向け
- Batch Size = 1
gradient_checkpointing: true- まず小 / 中バケットのみ
- 軽いプレビューまたはプレビューなし
- ジョブが動くことを証明
動画モデル向け
- Batch Size = 1
- 控えめな Num Frames
- まず
512 - 軽いプレビュー
- ジョブが動くことを証明
これが本当の成功する学習への最速パスです。
8) いつスケールアップするか
安定した学習の後にのみスケールアップしてください。
良い順序:
- 同じメモリ設定を維持
- Steps を増やす
- プレビュー品質を改善
- より大きなバケットを追加
- より多くのフレームを追加(動画)
- それからやっと大きなバッチをテスト
一度に1つの変数だけ。
9) それでも OOM が出る場合
ランタイム修正ガイドに直接進んでください:
そちらのページはすでに失敗したジョブ向けです。
このページは失敗をそもそも防ぐためのものです。
まとめ(一行)
AI Toolkit の最良の初回学習プリセットは、少し控えめで、明確に安定していて、後から簡単にスケールアップできるものです。
安全に始める。
成功する学習を1回得る。
それから最適化する。
関連ガイド
トレーニングを開始する準備はできましたか?
