Руководства по обучению LoRA с AI Toolkit

Исправление OOM видео Wan 2.2 и LTX-2 в AI Toolkit

Практическое руководство по стабилизации обучения видео LoRA Wan 2.2 и LTX-2 в AI Toolkit: настройка кадров, batch size, разрешения и превью для избежания пограничных конфигураций памяти.

Обучайте диффузионные модели с Ostris AI Toolkit

Wan 2.2 / LTX-2 руководство по OOM: безопасные кадры, Batch Size и разрешение в AI Toolkit

При обучении видео LoRA OOM обычно вызван не одной плохой настройкой.

Обычно это комбинация:

  • слишком много кадров
  • слишком большой бакет разрешения
  • слишком большой batch
  • слишком дорогое превью-сэмплирование

Поэтому видео-OOM кажется непоследовательным: один запуск работает, следующий падает, хотя «ничего важного не менялось.»

Это руководство даёт практический бюджет памяти для Wan 2.2 и LTX-2 в RunComfy AI Toolkit.


Быстрый чеклист (начните здесь)

  • Для Wan 2.2 начните с Batch Size = 1 и 21–41 кадров
  • Для LTX-2 начните с Batch Size = 1 и 49 или 81 кадров
  • В Datasets уменьшайте Num Frames прежде, чем трогать LR
  • В Datasets уберите самый высокий бакет Resolution первым
  • В Sample держите превью-видео дешевле вашего бюджета обучения
  • Если в логе Bus error / out of shared memory — это не то же самое, что CUDA OOM

1) Сначала: определите, какая у вас проблема с памятью

CUDA OOM

Это руководство для ошибок вроде:

CUDA out of memory

OOM during training step ...

Tried to allocate ...

Крэш Shared-memory / DataLoader

Если ваш лог говорит:

Bus error

out of shared memory

DataLoader worker is killed

Это другая проблема, связанная с shared memory (/dev/shm), а не с GPU VRAM. См. Fix: DataLoader worker Bus error (/dev/shm) — устранение неполадок


2) Единственная ментальная модель, которая вам действительно нужна

При обучении видео давление на память растёт в основном с:

кадры × разрешение × batch size

Если вы увеличиваете все три одновременно, вы почти наверняка строите пограничный запуск.


3) Wan 2.2: безопасно vs пограничное vs высокий риск

Безопасный первый запуск

  • Batch Size: 1
  • Num Frames: 21 или 41
  • Resolution: начать с 512
  • Превью-видео консервативные

Пограничное

  • Batch Size: 1
  • Num Frames: 81
  • Resolution: 480–512

Высокий риск

  • Batch Size ≥ 2 с 81 кадром
  • Бакеты высокого разрешения плюс длинные клипы
  • Частая генерация тяжёлых превью

Порядок отката Wan

  1. Уменьшить Num Frames
  2. Сохранить Batch Size = 1
  3. Убрать самое высокое Resolution
  4. Снизить стоимость превью

4) LTX-2: безопасно vs пограничное vs высокий риск

Безопасный первый запуск

  • Batch Size: 1
  • Num Frames: 49 или 81
  • Resolution: 512

Пограничное

  • Batch Size: 1
  • Num Frames: 121
  • Resolution: 512

Высокий риск

  • Batch Size ≥ 4 с 121 кадром
  • Большие бакеты до доказанной стабильности
  • Тяжёлое превью-сэмплирование

Порядок отката LTX

  1. Сохранить Batch Size = 1
  2. Уменьшить Num Frames (121 → 81 → 49)
  3. Уменьшить Resolution
  4. Сделать превью дешевле

5) Почему одна и та же конфигурация иногда работает, а иногда OOM

Частые причины:

  • Скачки бакетов (самый большой бакет выводит VRAM за предел)
  • Скачки превью (обучение помещается, превью выводит за предел)
  • Пограничное состояние памяти

Конфигурация, которая «иногда работает», должна рассматриваться как нестабильная.


Итог одной строкой

Для Wan 2.2 и LTX-2 видео-OOM — обычно проблема кадры × разрешение × batch.

Начните консервативно, докажите стабильность, затем масштабируйте.

Готовы начать обучение?