Wan 2.2 / LTX-2 Guia OOM: Frames, Batch Size e Resolução seguros no AI Toolkit
Para o treino de video LoRA, o OOM normalmente não é causado por uma única configuração errada.
Geralmente é a combinação de:
- frames demais
- um bucket de resolução grande demais
- um batch grande demais
- uma amostragem de preview cara demais
Por isso o OOM de vídeo parece inconsistente: um treino funciona, o próximo crasha, mesmo que "nada importante tenha mudado."
Este guia oferece um orçamento de memória prático para Wan 2.2 e LTX-2 no RunComfy AI Toolkit.
Checklist rápido (comece aqui)
- Para Wan 2.2, comece com Batch Size = 1 e 21–41 frames
- Para LTX-2, comece com Batch Size = 1 e 49 ou 81 frames
- Em Datasets, reduza Num Frames antes de mexer no LR
- Em Datasets, remova o bucket de Resolution mais alto primeiro
- Em Sample, mantenha os vídeos de preview mais baratos que seu orçamento de treino
- Se o log diz Bus error / out of shared memory, isso não é a mesma coisa que CUDA OOM
1) Primeiro: identifique qual problema de memória você tem
CUDA OOM
Este guia é para erros como:
CUDA out of memory
OOM during training step ...
Tried to allocate ...
Crash de Shared-memory / DataLoader
Se seu log diz:
Bus error
out of shared memory
DataLoader worker is killed
É um problema diferente relacionado à memória compartilhada (/dev/shm), não à VRAM da GPU. Veja Fix: DataLoader worker Bus error (/dev/shm) — solução
2) O único modelo mental que você realmente precisa
Para treino de vídeo, a pressão de memória aumenta principalmente com:
frames × resolução × batch size
Se você aumentar os três ao mesmo tempo, muito provavelmente está construindo um treino no limite.
3) Wan 2.2: seguro vs limite vs alto risco
Primeiro treino seguro
- Batch Size: 1
- Num Frames: 21 ou 41
- Resolution: começar com 512
- Manter vídeos de preview conservadores
Limite
- Batch Size: 1
- Num Frames: 81
- Resolution: 480–512
Alto risco
- Batch Size ≥ 2 com 81 frames
- Buckets de alta resolução mais clips longos
- Geração frequente de previews pesados
Ordem de rollback Wan
- Reduzir Num Frames
- Manter Batch Size = 1
- Remover a Resolution mais alta
- Reduzir custo de preview
4) LTX-2: seguro vs limite vs alto risco
Primeiro treino seguro
- Batch Size: 1
- Num Frames: 49 ou 81
- Resolution: 512
Limite
- Batch Size: 1
- Num Frames: 121
- Resolution: 512
Alto risco
- Batch Size ≥ 4 com 121 frames
- Buckets maiores antes de estabilidade comprovada
- Amostragem pesada de preview
Ordem de rollback LTX
- Manter Batch Size = 1
- Reduzir Num Frames (121 → 81 → 49)
- Reduzir Resolution
- Tornar preview mais barato
5) Por que a mesma config às vezes funciona e às vezes dá OOM
Razões comuns:
- Picos de bucket (o maior bucket empurra a VRAM além do limite)
- Picos de preview (o treino cabe, o preview estoura)
- Estado de memória no limite
Uma config que "às vezes funciona" deve ser tratada como instável.
Resumo em uma linha
Para Wan 2.2 e LTX-2, o OOM de vídeo é geralmente um problema de frames × resolução × batch.
Comece conservador, prove estabilidade, depois escale.
Pronto para começar o treinamento?
