Wan 2.2 / LTX-2 руководство по OOM: безопасные кадры, Batch Size и разрешение в AI Toolkit
При обучении видео LoRA OOM обычно вызван не одной плохой настройкой.
Обычно это комбинация:
- слишком много кадров
- слишком большой бакет разрешения
- слишком большой batch
- слишком дорогое превью-сэмплирование
Поэтому видео-OOM кажется непоследовательным: один запуск работает, следующий падает, хотя «ничего важного не менялось.»
Это руководство даёт практический бюджет памяти для Wan 2.2 и LTX-2 в RunComfy AI Toolkit.
Быстрый чеклист (начните здесь)
- Для Wan 2.2 начните с Batch Size = 1 и 21–41 кадров
- Для LTX-2 начните с Batch Size = 1 и 49 или 81 кадров
- В Datasets уменьшайте Num Frames прежде, чем трогать LR
- В Datasets уберите самый высокий бакет Resolution первым
- В Sample держите превью-видео дешевле вашего бюджета обучения
- Если в логе Bus error / out of shared memory — это не то же самое, что CUDA OOM
1) Сначала: определите, какая у вас проблема с памятью
CUDA OOM
Это руководство для ошибок вроде:
CUDA out of memory
OOM during training step ...
Tried to allocate ...
Крэш Shared-memory / DataLoader
Если ваш лог говорит:
Bus error
out of shared memory
DataLoader worker is killed
Это другая проблема, связанная с shared memory (/dev/shm), а не с GPU VRAM. См. Fix: DataLoader worker Bus error (/dev/shm) — устранение неполадок
2) Единственная ментальная модель, которая вам действительно нужна
При обучении видео давление на память растёт в основном с:
кадры × разрешение × batch size
Если вы увеличиваете все три одновременно, вы почти наверняка строите пограничный запуск.
3) Wan 2.2: безопасно vs пограничное vs высокий риск
Безопасный первый запуск
- Batch Size: 1
- Num Frames: 21 или 41
- Resolution: начать с 512
- Превью-видео консервативные
Пограничное
- Batch Size: 1
- Num Frames: 81
- Resolution: 480–512
Высокий риск
- Batch Size ≥ 2 с 81 кадром
- Бакеты высокого разрешения плюс длинные клипы
- Частая генерация тяжёлых превью
Порядок отката Wan
- Уменьшить Num Frames
- Сохранить Batch Size = 1
- Убрать самое высокое Resolution
- Снизить стоимость превью
4) LTX-2: безопасно vs пограничное vs высокий риск
Безопасный первый запуск
- Batch Size: 1
- Num Frames: 49 или 81
- Resolution: 512
Пограничное
- Batch Size: 1
- Num Frames: 121
- Resolution: 512
Высокий риск
- Batch Size ≥ 4 с 121 кадром
- Большие бакеты до доказанной стабильности
- Тяжёлое превью-сэмплирование
Порядок отката LTX
- Сохранить Batch Size = 1
- Уменьшить Num Frames (121 → 81 → 49)
- Уменьшить Resolution
- Сделать превью дешевле
5) Почему одна и та же конфигурация иногда работает, а иногда OOM
Частые причины:
- Скачки бакетов (самый большой бакет выводит VRAM за предел)
- Скачки превью (обучение помещается, превью выводит за предел)
- Пограничное состояние памяти
Конфигурация, которая «иногда работает», должна рассматриваться как нестабильная.
Итог одной строкой
Для Wan 2.2 и LTX-2 видео-OOM — обычно проблема кадры × разрешение × batch.
Начните консервативно, докажите стабильность, затем масштабируйте.
Готовы начать обучение?
