Guias de treinamento LoRA com AI Toolkit

Corrigir OOM de vídeo Wan 2.2 e LTX-2 no AI Toolkit

Guia prático para estabilizar o treino de vídeo LoRA Wan 2.2 e LTX-2 no AI Toolkit ajustando frames, batch size, resolução e configurações de preview para evitar configurações de memória no limite.

Treine modelos de difusão com Ostris AI Toolkit

Wan 2.2 / LTX-2 Guia OOM: Frames, Batch Size e Resolução seguros no AI Toolkit

Para o treino de video LoRA, o OOM normalmente não é causado por uma única configuração errada.

Geralmente é a combinação de:

  • frames demais
  • um bucket de resolução grande demais
  • um batch grande demais
  • uma amostragem de preview cara demais

Por isso o OOM de vídeo parece inconsistente: um treino funciona, o próximo crasha, mesmo que "nada importante tenha mudado."

Este guia oferece um orçamento de memória prático para Wan 2.2 e LTX-2 no RunComfy AI Toolkit.


Checklist rápido (comece aqui)

  • Para Wan 2.2, comece com Batch Size = 1 e 21–41 frames
  • Para LTX-2, comece com Batch Size = 1 e 49 ou 81 frames
  • Em Datasets, reduza Num Frames antes de mexer no LR
  • Em Datasets, remova o bucket de Resolution mais alto primeiro
  • Em Sample, mantenha os vídeos de preview mais baratos que seu orçamento de treino
  • Se o log diz Bus error / out of shared memory, isso não é a mesma coisa que CUDA OOM

1) Primeiro: identifique qual problema de memória você tem

CUDA OOM

Este guia é para erros como:

CUDA out of memory

OOM during training step ...

Tried to allocate ...

Crash de Shared-memory / DataLoader

Se seu log diz:

Bus error

out of shared memory

DataLoader worker is killed

É um problema diferente relacionado à memória compartilhada (/dev/shm), não à VRAM da GPU. Veja Fix: DataLoader worker Bus error (/dev/shm) — solução


2) O único modelo mental que você realmente precisa

Para treino de vídeo, a pressão de memória aumenta principalmente com:

frames × resolução × batch size

Se você aumentar os três ao mesmo tempo, muito provavelmente está construindo um treino no limite.


3) Wan 2.2: seguro vs limite vs alto risco

Primeiro treino seguro

  • Batch Size: 1
  • Num Frames: 21 ou 41
  • Resolution: começar com 512
  • Manter vídeos de preview conservadores

Limite

  • Batch Size: 1
  • Num Frames: 81
  • Resolution: 480–512

Alto risco

  • Batch Size ≥ 2 com 81 frames
  • Buckets de alta resolução mais clips longos
  • Geração frequente de previews pesados

Ordem de rollback Wan

  1. Reduzir Num Frames
  2. Manter Batch Size = 1
  3. Remover a Resolution mais alta
  4. Reduzir custo de preview

4) LTX-2: seguro vs limite vs alto risco

Primeiro treino seguro

  • Batch Size: 1
  • Num Frames: 49 ou 81
  • Resolution: 512

Limite

  • Batch Size: 1
  • Num Frames: 121
  • Resolution: 512

Alto risco

  • Batch Size ≥ 4 com 121 frames
  • Buckets maiores antes de estabilidade comprovada
  • Amostragem pesada de preview

Ordem de rollback LTX

  1. Manter Batch Size = 1
  2. Reduzir Num Frames (121 → 81 → 49)
  3. Reduzir Resolution
  4. Tornar preview mais barato

5) Por que a mesma config às vezes funciona e às vezes dá OOM

Razões comuns:

  • Picos de bucket (o maior bucket empurra a VRAM além do limite)
  • Picos de preview (o treino cabe, o preview estoura)
  • Estado de memória no limite

Uma config que "às vezes funciona" deve ser tratada como instável.


Resumo em uma linha

Para Wan 2.2 e LTX-2, o OOM de vídeo é geralmente um problema de frames × resolução × batch.

Comece conservador, prove estabilidade, depois escale.

Pronto para começar o treinamento?