Как избежать OOM в AI Toolkit: безопасные настройки для первого успешного запуска
Эта страница — не настройка «максимальной скорости».
Это настройка для первого успешного запуска.
Если ваша цель — перестать тратить попытки, сократить OOM и быстрее получить рабочее обучение, начните здесь.
Правило простое:
Сначала докажите стабильность. Потом оптимизируйте скорость.
Для чего это руководство
Используйте эту страницу, если:
- вы собираетесь создать новое задание в AI Toolkit
- хотите более безопасные начальные настройки
- предпочитаете стабильный первый запуск вместо часов отладки OOM
- нужен практичный чеклист «не начинайте с опасных настроек»
Если вы уже видите ошибку CUDA out of memory, перейдите к:
60-секундный чеклист перед запуском
Перед нажатием Create Job:
- ✅ Держите Batch Size консервативным
- ✅ В Datasets начните с консервативных Resolution
- ✅ В Sample держите превью дешевле вашей конечной цели
- ✅ Нажмите Show Advanced и убедитесь, что
gradient_checkpointing: true - ✅ Для видео начните с консервативного Num Frames
- ✅ Используйте модель-специфичные функции экономии памяти только если руководство модели рекомендует
- ✅ Не пробуйте несколько рискованных изменений в первом запуске
RunComfy также помогает на уровне продукта. При сохранении задания RunComfy проверяет, содержат ли ваши настройки высокорисковые комбинации — например, чрезмерный batch size, frames, resolution или преждевременное отключение настроек экономии памяти. Цель — обнаружить рискованные конфигурации до того, как они потратят GPU-время и бюджет.
Это не заменяет модель-специфичную оценку, но даёт более безопасную отправную точку.
1) Самый важный сдвиг мышления
Большинство неудачных первых запусков проваливаются не из-за «плохого learning rate».
Причины:
- слишком высокое разрешение
- слишком много кадров
- слишком большой batch
- слишком дорогое сэмплирование превью
- преждевременное отключение настроек экономии памяти
Поэтому ваш первый успешный запуск должен выглядеть намеренно скучно.
Это хорошо.
2) Безопасные стартовые настройки для моделей изображений
FLUX-dev / крупные модели типа Flex
Хороший первый запуск
- Batch Size:
1 - Gradient Checkpointing:
Включён - Datasets > Resolutions: начать с
512 + 768 - добавить
1024только после подтверждения стабильности - Sample: превью умеренное или временно отключить сэмплирование
Не начинайте отсюда
- GC выключен
- Batch Size ≥ 8
- агрессивная мультибакетная высокоразрешённая настройка в первом запуске
- частые тяжёлые превью
Z-Image
Хороший первый запуск
- Batch Size: сначала консервативный
- Gradient Checkpointing:
Включён - Resolutions:
768 + 1024— более безопасная первая цель, чем сразу к самому большому бакету - превью разумные
Не начинайте отсюда
- GC выключен с большим batch
- сразу с самого большого бакета
- смешивание большого batch с высоким разрешением до подтверждения стабильности
Qwen Image Edit
Хороший первый запуск
- Batch Size:
1 - Gradient Checkpointing:
Включён - начать с меньшего или простого набора бакетов
- контролировать стоимость превью
- использовать путь экономии памяти модели, если руководство рекомендует
Не начинайте отсюда
- GC выключен
- большой batch в первом запуске
- дорогие превью 1024 + тяжёлое кондиционирование + частая генерация сэмплов
- произвольные эксперименты с text-encoder до стабилизации базового пайплайна
3) Безопасные стартовые настройки для видеомоделей
Wan 2.2 14B
Хороший первый запуск
- Batch Size:
1 - Datasets > Num Frames:
21или41 - Datasets > Resolutions: начать с
512 - добавить
768только после стабильного запуска - превью-видео консервативные
Не начинайте отсюда
- 81 кадр + Batch Size 2
- длинные превью-видео во время обучения
- большие бакеты + длинные клипы до подтверждения стабильности
LTX-2
Хороший первый запуск
- Batch Size:
1 - Num Frames:
49или81 - Resolution:
512 - контролировать стоимость превью
Не начинайте отсюда
- 121 кадр + Batch Size 4
- большие бакеты до доказанного стабильного запуска
- предположение, что привычки batch из моделей изображений переносятся на видео
4) Более безопасные настройки превью, чем у большинства
Многие «OOM обучения» на самом деле — OOM превью.
Для первого запуска используйте более дешёвое сэмплирование, чем вам кажется нужным.
В панели Sample
Предпочтительно:
- ниже Width / Height
- ниже Sample Steps
- реже Sample Every
- Disable Sampling включён, если единственная цель — доказать стабильность
Когда запуск стабилен, можно снова обогатить превью.
5) Что проверить в Show Advanced
Стандартный UI покрывает многие важные настройки, но самая надёжная предполётная проверка — это расширенный YAML.
Проверьте сначала:
train:
batch_size: 1
gradient_checkpointing: true
disable_sampling: false
model:
low_vram: false
sample:
width: 1024
height: 1024
sample_steps: 25
guidance_scale: 4
num_frames: 1
datasets:
- resolution: [512, 768, 1024]
num_frames: 1
Для более безопасного первого запуска чаще всего уменьшают:
batch_sizeresolutionnum_framessample.widthsample.heightsample.sample_steps
И чаще всего оставляют включённым:
gradient_checkpointing: true
6) Комбинации «не начинайте отсюда»
Именно эти выборы первого запуска создают избежимые OOM:
| Рискованная комбинация | Почему рискованно |
|---|---|
| Gradient Checkpointing = выключен на больших моделях изображений | лёгкий способ потерять запас VRAM сразу |
| Модель типа FLUX + Batch Size 8+ | высокорисковый первый запуск, особенно с богатыми бакетами |
| Wan 2.2 + 81 кадр + Batch Size 2 | классическая территория пика видеопамяти |
| LTX-2 + 121 кадр + Batch Size 4 | крайне тяжёлая комбинация для первого запуска |
| дорогие превью 1024 через короткие интервалы | OOM превью, даже если обучение почти помещается |
| несколько рискованных изменений одновременно | не узнаете, что реально вызвало сбой |
7) Очень практичный рецепт первого запуска
Если нужно одно правило:
Для моделей изображений
- Batch Size = 1
gradient_checkpointing: true- сначала только маленькие / средние бакеты
- дешёвое превью или без превью
- доказать, что задание запускается
Для видеомоделей
- Batch Size = 1
- консервативный Num Frames
- сначала
512 - дешёвое превью
- доказать, что задание запускается
Это самый быстрый путь к реальному успешному запуску.
8) Когда масштабировать
Масштабируйте только после одного стабильного запуска.
Хороший порядок:
- сохранить те же настройки памяти
- увеличить Steps
- улучшить качество превью
- добавить больший бакет
- добавить больше кадров (видео)
- только потом тестировать больший batch
Одна переменная за раз.
9) Если задание всё равно OOM
Перейдите сразу к руководству по исправлению:
Та страница — для заданий, которые уже провалились.
Эта страница — чтобы избежать провала с самого начала.
Итог одной строкой
Лучший пресет первого запуска для AI Toolkit — слегка консервативный, явно стабильный и легко масштабируемый потом.
Начните безопасно.
Получите один успешный запуск.
Потом оптимизируйте.
Связанные руководства
Готовы начать обучение?
