Como evitar OOM no AI Toolkit: configurações seguras para o primeiro treino bem-sucedido
Esta página não é a configuração de "velocidade máxima".
É a configuração para o primeiro treino bem-sucedido.
Se o seu objetivo é parar de desperdiçar tentativas, reduzir OOMs e chegar mais rápido a um treino funcional, comece aqui.
A regra é simples:
Primeiro prove a estabilidade. Depois otimize a velocidade.
Para que serve este guia
Use esta página se:
- está prestes a criar um novo job no AI Toolkit
- quer configurações iniciais mais seguras
- prefere um primeiro treino estável a horas de debug de OOM
- precisa de uma checklist prática de "não comece com configurações perigosas"
Se já está vendo o erro CUDA out of memory, vá para:
Checklist OOM pré-voo em 60 segundos
Antes de clicar em Create Job:
- ✅ Mantenha o Batch Size conservador
- ✅ Em Datasets, comece com Resoluções conservadoras
- ✅ Em Sample, mantenha o preview mais barato que sua ambição final
- ✅ Clique em Show Advanced e confirme que
gradient_checkpointing: true - ✅ Para vídeo, comece com Num Frames conservador
- ✅ Use recursos de baixa memória específicos do modelo apenas se o guia recomendar
- ✅ Não tente múltiplas mudanças arriscadas no primeiro treino
O RunComfy também ajuda no nível do produto. Ao salvar um job de treino, o RunComfy verifica se suas configurações incluem combinações de alto risco — como batch size excessivo, frames, resolução ou desativação prematura dos padrões de economia de memória. O objetivo é detectar configurações arriscadas antes de consumir tempo de GPU e orçamento.
Isso não substitui o julgamento específico do modelo, mas oferece um ponto de partida mais seguro.
1) A mudança de mentalidade mais importante
A maioria dos primeiros treinos que falham não falha por "learning rate ruim".
Falham por:
- resolução demais
- frames demais
- batch demais
- amostragem de preview muito cara
- desativação prematura dos padrões de economia de memória
Seu primeiro treino bem-sucedido deveria parecer intencionalmente entediante.
Isso é bom.
2) Configurações iniciais seguras para modelos de imagem
FLUX-dev / grandes modelos tipo Flex
Bom primeiro treino
- Batch Size:
1 - Gradient Checkpointing:
Ativado - Datasets > Resolutions: começar com
512 + 768 - adicionar
1024somente após estabilidade - Sample: manter preview moderado ou desativar temporariamente a amostragem
Não comece aqui
- GC desativado
- Batch Size ≥ 8
- configuração multi-bucket de alta resolução agressiva no primeiro treino
- previews pesados e frequentes
Z-Image
Bom primeiro treino
- Batch Size: conservador primeiro
- Gradient Checkpointing:
Ativado - Resolutions:
768 + 1024é um primeiro alvo mais seguro do que ir direto para o maior bucket - manter previews razoáveis
Não comece aqui
- GC desativado com batch grande
- começar direto com o maior bucket
- misturar batch alto com alta resolução antes de provar estabilidade
Qwen Image Edit
Bom primeiro treino
- Batch Size:
1 - Gradient Checkpointing:
Ativado - começar com um mix de buckets menor ou mais simples
- manter o custo de preview controlado
- usar o caminho de baixa memória do modelo se o guia recomendar
Não comece aqui
- GC desativado
- batch grande no primeiro treino
- previews 1024 caros + condicionamento pesado + geração frequente de amostras
- experimentos aleatórios com o text-encoder antes da pipeline básica estar estável
3) Configurações iniciais seguras para modelos de vídeo
Wan 2.2 14B
Bom primeiro treino
- Batch Size:
1 - Datasets > Num Frames:
21ou41 - Datasets > Resolutions: começar com
512 - adicionar
768somente após treino estável - manter vídeos de preview conservadores
Não comece aqui
- 81 frames + Batch Size 2
- vídeos de preview longos durante o treino
- buckets grandes + clips longos antes de provar estabilidade
LTX-2
Bom primeiro treino
- Batch Size:
1 - Num Frames:
49ou81 - Resolution:
512 - manter o custo de preview sob controle
Não comece aqui
- 121 frames + Batch Size 4
- buckets maiores antes de um treino estável comprovado
- assumir que hábitos de batch de modelos de imagem se aplicam a vídeo
4) Configurações de preview mais seguras do que a maioria começa
Muitos "OOM de treino" são na verdade OOM de preview.
Para o primeiro treino, use amostragem mais barata do que acha necessário.
No painel Sample
Prefira:
- Width / Height mais baixos
- Sample Steps mais baixos
- Sample Every menos frequente
- Disable Sampling ativado se o único objetivo é provar estabilidade
Quando o treino estiver estável, você pode enriquecer os previews novamente.
5) O que verificar em Show Advanced
A UI padrão cobre muitas configurações importantes, mas a verificação mais segura continua sendo o YAML avançado.
Verifique primeiro:
train:
batch_size: 1
gradient_checkpointing: true
disable_sampling: false
model:
low_vram: false
sample:
width: 1024
height: 1024
sample_steps: 25
guidance_scale: 4
num_frames: 1
datasets:
- resolution: [512, 768, 1024]
num_frames: 1
Para um primeiro treino mais seguro, os valores mais comumente reduzidos:
batch_sizeresolutionnum_framessample.widthsample.heightsample.sample_steps
E o que mais comumente deve permanecer ativado:
gradient_checkpointing: true
6) Combinações "não comece aqui"
Estas são exatamente as escolhas de primeiro treino que criam OOMs evitáveis:
| Combo arriscado | Por que é arriscado |
|---|---|
| Gradient Checkpointing = desativado em modelos de imagem grandes | forma fácil de perder margem de VRAM imediatamente |
| Modelo tipo FLUX + Batch Size 8+ | primeiro treino de alto risco, especialmente com buckets mais ricos |
| Wan 2.2 + 81 frames + Batch Size 2 | território clássico de pico de memória de vídeo |
| LTX-2 + 121 frames + Batch Size 4 | combinação extremamente pesada para primeiro treino |
| previews 1024 caros em intervalos curtos | OOM de preview mesmo se o treino quase cabe |
| adicionar múltiplas mudanças arriscadas de uma vez | você não saberá o que realmente causou a falha |
7) Uma receita muito prática para o primeiro treino
Se quiser apenas uma regra:
Para modelos de imagem
- Batch Size = 1
gradient_checkpointing: true- apenas os buckets pequenos / médios primeiro
- preview barato ou sem preview
- provar que o job roda
Para modelos de vídeo
- Batch Size = 1
- Num Frames conservador
512primeiro- preview barato
- provar que o job roda
Esse é o caminho mais rápido para um treino bem-sucedido de verdade.
8) Quando escalar
Só escale após um treino estável.
Boa ordem:
- manter as mesmas configurações de memória
- aumentar Steps
- melhorar a qualidade do preview
- adicionar um bucket maior
- adicionar mais frames (vídeo)
- só então testar um batch maior
Uma variável de cada vez.
9) Se o job ainda der OOM
Vá direto ao guia de correção:
Essa página é para jobs que já falharam.
Esta página é para evitar a falha em primeiro lugar.
Resumo em uma linha
O melhor preset de primeiro treino para o AI Toolkit é aquele ligeiramente conservador, claramente estável e fácil de escalar depois.
Comece seguro.
Consiga um treino bem-sucedido.
Depois otimize.
Guias relacionados
Pronto para começar o treinamento?
