Руководства по обучению LoRA с AI Toolkit

Безопасные стартовые настройки AI Toolkit для предотвращения OOM

Руководство по предварительной проверке заданий AI Toolkit: проверьте batch size, разрешения, кадры, gradient checkpointing и превью-сэмплирование перед созданием задания, чтобы первый запуск с большей вероятностью завершился успешно.

Обучайте диффузионные модели с Ostris AI Toolkit

Как избежать OOM в AI Toolkit: безопасные настройки для первого успешного запуска

Эта страница — не настройка «максимальной скорости».

Это настройка для первого успешного запуска.

Если ваша цель — перестать тратить попытки, сократить OOM и быстрее получить рабочее обучение, начните здесь.

Правило простое:

Сначала докажите стабильность. Потом оптимизируйте скорость.

Для чего это руководство

Используйте эту страницу, если:

  • вы собираетесь создать новое задание в AI Toolkit
  • хотите более безопасные начальные настройки
  • предпочитаете стабильный первый запуск вместо часов отладки OOM
  • нужен практичный чеклист «не начинайте с опасных настроек»

Если вы уже видите ошибку CUDA out of memory, перейдите к:


60-секундный чеклист перед запуском

Перед нажатием Create Job:

  • ✅ Держите Batch Size консервативным
  • ✅ В Datasets начните с консервативных Resolution
  • ✅ В Sample держите превью дешевле вашей конечной цели
  • ✅ Нажмите Show Advanced и убедитесь, что gradient_checkpointing: true
  • ✅ Для видео начните с консервативного Num Frames
  • ✅ Используйте модель-специфичные функции экономии памяти только если руководство модели рекомендует
  • Не пробуйте несколько рискованных изменений в первом запуске

RunComfy также помогает на уровне продукта. При сохранении задания RunComfy проверяет, содержат ли ваши настройки высокорисковые комбинации — например, чрезмерный batch size, frames, resolution или преждевременное отключение настроек экономии памяти. Цель — обнаружить рискованные конфигурации до того, как они потратят GPU-время и бюджет.

Это не заменяет модель-специфичную оценку, но даёт более безопасную отправную точку.


1) Самый важный сдвиг мышления

Большинство неудачных первых запусков проваливаются не из-за «плохого learning rate».

Причины:

  • слишком высокое разрешение
  • слишком много кадров
  • слишком большой batch
  • слишком дорогое сэмплирование превью
  • преждевременное отключение настроек экономии памяти

Поэтому ваш первый успешный запуск должен выглядеть намеренно скучно.

Это хорошо.


2) Безопасные стартовые настройки для моделей изображений

FLUX-dev / крупные модели типа Flex

Хороший первый запуск

  • Batch Size: 1
  • Gradient Checkpointing: Включён
  • Datasets > Resolutions: начать с 512 + 768
  • добавить 1024 только после подтверждения стабильности
  • Sample: превью умеренное или временно отключить сэмплирование

Не начинайте отсюда

  • GC выключен
  • Batch Size ≥ 8
  • агрессивная мультибакетная высокоразрешённая настройка в первом запуске
  • частые тяжёлые превью

Z-Image

Хороший первый запуск

  • Batch Size: сначала консервативный
  • Gradient Checkpointing: Включён
  • Resolutions: 768 + 1024 — более безопасная первая цель, чем сразу к самому большому бакету
  • превью разумные

Не начинайте отсюда

  • GC выключен с большим batch
  • сразу с самого большого бакета
  • смешивание большого batch с высоким разрешением до подтверждения стабильности

Qwen Image Edit

Хороший первый запуск

  • Batch Size: 1
  • Gradient Checkpointing: Включён
  • начать с меньшего или простого набора бакетов
  • контролировать стоимость превью
  • использовать путь экономии памяти модели, если руководство рекомендует

Не начинайте отсюда

  • GC выключен
  • большой batch в первом запуске
  • дорогие превью 1024 + тяжёлое кондиционирование + частая генерация сэмплов
  • произвольные эксперименты с text-encoder до стабилизации базового пайплайна

3) Безопасные стартовые настройки для видеомоделей

Wan 2.2 14B

Хороший первый запуск

  • Batch Size: 1
  • Datasets > Num Frames: 21 или 41
  • Datasets > Resolutions: начать с 512
  • добавить 768 только после стабильного запуска
  • превью-видео консервативные

Не начинайте отсюда

  • 81 кадр + Batch Size 2
  • длинные превью-видео во время обучения
  • большие бакеты + длинные клипы до подтверждения стабильности

LTX-2

Хороший первый запуск

  • Batch Size: 1
  • Num Frames: 49 или 81
  • Resolution: 512
  • контролировать стоимость превью

Не начинайте отсюда

  • 121 кадр + Batch Size 4
  • большие бакеты до доказанного стабильного запуска
  • предположение, что привычки batch из моделей изображений переносятся на видео

4) Более безопасные настройки превью, чем у большинства

Многие «OOM обучения» на самом деле — OOM превью.

Для первого запуска используйте более дешёвое сэмплирование, чем вам кажется нужным.

В панели Sample

Предпочтительно:

  • ниже Width / Height
  • ниже Sample Steps
  • реже Sample Every
  • Disable Sampling включён, если единственная цель — доказать стабильность

Когда запуск стабилен, можно снова обогатить превью.


5) Что проверить в Show Advanced

Стандартный UI покрывает многие важные настройки, но самая надёжная предполётная проверка — это расширенный YAML.

Проверьте сначала:

train:
  batch_size: 1
  gradient_checkpointing: true
  disable_sampling: false

model:
  low_vram: false

sample:
  width: 1024
  height: 1024
  sample_steps: 25
  guidance_scale: 4
  num_frames: 1

datasets:
  - resolution: [512, 768, 1024]
    num_frames: 1

Для более безопасного первого запуска чаще всего уменьшают:

  • batch_size
  • resolution
  • num_frames
  • sample.width
  • sample.height
  • sample.sample_steps

И чаще всего оставляют включённым:

  • gradient_checkpointing: true

6) Комбинации «не начинайте отсюда»

Именно эти выборы первого запуска создают избежимые OOM:

Рискованная комбинация Почему рискованно
Gradient Checkpointing = выключен на больших моделях изображений лёгкий способ потерять запас VRAM сразу
Модель типа FLUX + Batch Size 8+ высокорисковый первый запуск, особенно с богатыми бакетами
Wan 2.2 + 81 кадр + Batch Size 2 классическая территория пика видеопамяти
LTX-2 + 121 кадр + Batch Size 4 крайне тяжёлая комбинация для первого запуска
дорогие превью 1024 через короткие интервалы OOM превью, даже если обучение почти помещается
несколько рискованных изменений одновременно не узнаете, что реально вызвало сбой

7) Очень практичный рецепт первого запуска

Если нужно одно правило:

Для моделей изображений

  1. Batch Size = 1
  2. gradient_checkpointing: true
  3. сначала только маленькие / средние бакеты
  4. дешёвое превью или без превью
  5. доказать, что задание запускается

Для видеомоделей

  1. Batch Size = 1
  2. консервативный Num Frames
  3. сначала 512
  4. дешёвое превью
  5. доказать, что задание запускается

Это самый быстрый путь к реальному успешному запуску.


8) Когда масштабировать

Масштабируйте только после одного стабильного запуска.

Хороший порядок:

  1. сохранить те же настройки памяти
  2. увеличить Steps
  3. улучшить качество превью
  4. добавить больший бакет
  5. добавить больше кадров (видео)
  6. только потом тестировать больший batch

Одна переменная за раз.


9) Если задание всё равно OOM

Перейдите сразу к руководству по исправлению:

Та страница — для заданий, которые уже провалились.

Эта страница — чтобы избежать провала с самого начала.


Итог одной строкой

Лучший пресет первого запуска для AI Toolkit — слегка консервативный, явно стабильный и легко масштабируемый потом.

Начните безопасно.

Получите один успешный запуск.

Потом оптимизируйте.


Связанные руководства

Готовы начать обучение?