Guias de treinamento LoRA com AI Toolkit

Configurações seguras de início no AI Toolkit para evitar OOM

Guia de pré-verificação para jobs do AI Toolkit: verifique batch size, resoluções, frames, gradient checkpointing e amostragem de preview antes de criar um job, para que sua primeira execução tenha mais chances de sucesso.

Treine modelos de difusão com Ostris AI Toolkit

Como evitar OOM no AI Toolkit: configurações seguras para o primeiro treino bem-sucedido

Esta página não é a configuração de "velocidade máxima".

É a configuração para o primeiro treino bem-sucedido.

Se o seu objetivo é parar de desperdiçar tentativas, reduzir OOMs e chegar mais rápido a um treino funcional, comece aqui.

A regra é simples:

Primeiro prove a estabilidade. Depois otimize a velocidade.

Para que serve este guia

Use esta página se:

  • está prestes a criar um novo job no AI Toolkit
  • quer configurações iniciais mais seguras
  • prefere um primeiro treino estável a horas de debug de OOM
  • precisa de uma checklist prática de "não comece com configurações perigosas"

Se está vendo o erro CUDA out of memory, vá para:


Checklist OOM pré-voo em 60 segundos

Antes de clicar em Create Job:

  • ✅ Mantenha o Batch Size conservador
  • ✅ Em Datasets, comece com Resoluções conservadoras
  • ✅ Em Sample, mantenha o preview mais barato que sua ambição final
  • ✅ Clique em Show Advanced e confirme que gradient_checkpointing: true
  • ✅ Para vídeo, comece com Num Frames conservador
  • ✅ Use recursos de baixa memória específicos do modelo apenas se o guia recomendar
  • Não tente múltiplas mudanças arriscadas no primeiro treino

O RunComfy também ajuda no nível do produto. Ao salvar um job de treino, o RunComfy verifica se suas configurações incluem combinações de alto risco — como batch size excessivo, frames, resolução ou desativação prematura dos padrões de economia de memória. O objetivo é detectar configurações arriscadas antes de consumir tempo de GPU e orçamento.

Isso não substitui o julgamento específico do modelo, mas oferece um ponto de partida mais seguro.


1) A mudança de mentalidade mais importante

A maioria dos primeiros treinos que falham não falha por "learning rate ruim".

Falham por:

  • resolução demais
  • frames demais
  • batch demais
  • amostragem de preview muito cara
  • desativação prematura dos padrões de economia de memória

Seu primeiro treino bem-sucedido deveria parecer intencionalmente entediante.

Isso é bom.


2) Configurações iniciais seguras para modelos de imagem

FLUX-dev / grandes modelos tipo Flex

Bom primeiro treino

  • Batch Size: 1
  • Gradient Checkpointing: Ativado
  • Datasets > Resolutions: começar com 512 + 768
  • adicionar 1024 somente após estabilidade
  • Sample: manter preview moderado ou desativar temporariamente a amostragem

Não comece aqui

  • GC desativado
  • Batch Size ≥ 8
  • configuração multi-bucket de alta resolução agressiva no primeiro treino
  • previews pesados e frequentes

Z-Image

Bom primeiro treino

  • Batch Size: conservador primeiro
  • Gradient Checkpointing: Ativado
  • Resolutions: 768 + 1024 é um primeiro alvo mais seguro do que ir direto para o maior bucket
  • manter previews razoáveis

Não comece aqui

  • GC desativado com batch grande
  • começar direto com o maior bucket
  • misturar batch alto com alta resolução antes de provar estabilidade

Qwen Image Edit

Bom primeiro treino

  • Batch Size: 1
  • Gradient Checkpointing: Ativado
  • começar com um mix de buckets menor ou mais simples
  • manter o custo de preview controlado
  • usar o caminho de baixa memória do modelo se o guia recomendar

Não comece aqui

  • GC desativado
  • batch grande no primeiro treino
  • previews 1024 caros + condicionamento pesado + geração frequente de amostras
  • experimentos aleatórios com o text-encoder antes da pipeline básica estar estável

3) Configurações iniciais seguras para modelos de vídeo

Wan 2.2 14B

Bom primeiro treino

  • Batch Size: 1
  • Datasets > Num Frames: 21 ou 41
  • Datasets > Resolutions: começar com 512
  • adicionar 768 somente após treino estável
  • manter vídeos de preview conservadores

Não comece aqui

  • 81 frames + Batch Size 2
  • vídeos de preview longos durante o treino
  • buckets grandes + clips longos antes de provar estabilidade

LTX-2

Bom primeiro treino

  • Batch Size: 1
  • Num Frames: 49 ou 81
  • Resolution: 512
  • manter o custo de preview sob controle

Não comece aqui

  • 121 frames + Batch Size 4
  • buckets maiores antes de um treino estável comprovado
  • assumir que hábitos de batch de modelos de imagem se aplicam a vídeo

4) Configurações de preview mais seguras do que a maioria começa

Muitos "OOM de treino" são na verdade OOM de preview.

Para o primeiro treino, use amostragem mais barata do que acha necessário.

No painel Sample

Prefira:

  • Width / Height mais baixos
  • Sample Steps mais baixos
  • Sample Every menos frequente
  • Disable Sampling ativado se o único objetivo é provar estabilidade

Quando o treino estiver estável, você pode enriquecer os previews novamente.


5) O que verificar em Show Advanced

A UI padrão cobre muitas configurações importantes, mas a verificação mais segura continua sendo o YAML avançado.

Verifique primeiro:

train:
  batch_size: 1
  gradient_checkpointing: true
  disable_sampling: false

model:
  low_vram: false

sample:
  width: 1024
  height: 1024
  sample_steps: 25
  guidance_scale: 4
  num_frames: 1

datasets:
  - resolution: [512, 768, 1024]
    num_frames: 1

Para um primeiro treino mais seguro, os valores mais comumente reduzidos:

  • batch_size
  • resolution
  • num_frames
  • sample.width
  • sample.height
  • sample.sample_steps

E o que mais comumente deve permanecer ativado:

  • gradient_checkpointing: true

6) Combinações "não comece aqui"

Estas são exatamente as escolhas de primeiro treino que criam OOMs evitáveis:

Combo arriscado Por que é arriscado
Gradient Checkpointing = desativado em modelos de imagem grandes forma fácil de perder margem de VRAM imediatamente
Modelo tipo FLUX + Batch Size 8+ primeiro treino de alto risco, especialmente com buckets mais ricos
Wan 2.2 + 81 frames + Batch Size 2 território clássico de pico de memória de vídeo
LTX-2 + 121 frames + Batch Size 4 combinação extremamente pesada para primeiro treino
previews 1024 caros em intervalos curtos OOM de preview mesmo se o treino quase cabe
adicionar múltiplas mudanças arriscadas de uma vez você não saberá o que realmente causou a falha

7) Uma receita muito prática para o primeiro treino

Se quiser apenas uma regra:

Para modelos de imagem

  1. Batch Size = 1
  2. gradient_checkpointing: true
  3. apenas os buckets pequenos / médios primeiro
  4. preview barato ou sem preview
  5. provar que o job roda

Para modelos de vídeo

  1. Batch Size = 1
  2. Num Frames conservador
  3. 512 primeiro
  4. preview barato
  5. provar que o job roda

Esse é o caminho mais rápido para um treino bem-sucedido de verdade.


8) Quando escalar

Só escale após um treino estável.

Boa ordem:

  1. manter as mesmas configurações de memória
  2. aumentar Steps
  3. melhorar a qualidade do preview
  4. adicionar um bucket maior
  5. adicionar mais frames (vídeo)
  6. só então testar um batch maior

Uma variável de cada vez.


9) Se o job ainda der OOM

Vá direto ao guia de correção:

Essa página é para jobs que já falharam.

Esta página é para evitar a falha em primeiro lugar.


Resumo em uma linha

O melhor preset de primeiro treino para o AI Toolkit é aquele ligeiramente conservador, claramente estável e fácil de escalar depois.

Comece seguro.

Consiga um treino bem-sucedido.

Depois otimize.


Guias relacionados

Pronto para começar o treinamento?