Guias de treinamento LoRA com AI Toolkit

Retomar treinamento LoRA no AI Toolkit após Steps predefinidos

Guia rápido para retomar o treinamento LoRA no AI Toolkit: edite o job finalizado, aumente Steps para o novo total final e reinicie a partir do último checkpoint salvo.

Treine modelos de difusão com Ostris AI Toolkit

Como continuar o treinamento depois que o seu job do AI Toolkit atinge os Steps predefinidos (retomar a mesma LoRA)

1) “Esse é o meu caso?”

Você definiu Steps = 2000, iniciou o treinamento e o job parou automaticamente quando chegou ao step 2000.

Depois de checar samples / inferência, você quer treinar mais, mas não quer começar uma LoRA totalmente nova do zero: você quer continuar a partir do job/checkpoint existente.

Se esse é o seu caso, este guia é para você.


2) O que está acontecendo

No AI Toolkit, Steps = o total de steps de treinamento do job.

Então, quando você define Steps = 2000, o trainer faz exatamente o que você pediu:

  • treinar até o step 2000
  • e então parar

Para continuar treinando a mesma LoRA, você não cria um job novo: você edita o job existente e aumenta o total final de Steps, depois roda de novo. O trainer vai retomar do último checkpoint salvo e continuar.


3) Como retomar o treinamento (passo a passo)

Step A — Abra o job que você quer continuar

  1. Vá para a sua Training Queue (ou lista de jobs)
  2. Encontre o job finalizado (o que parou em 2000 steps)
  3. Clique em Edit nesse job para abrir o editor do job

Botão Edit no job de treinamento

Step B — Aumente o total de Steps

  1. Role até a seção Training
  2. Encontre Steps
  3. Mude para o seu novo número total final de steps

Atualizar Steps no job de treinamento

Importante: esse número é o total final, não “steps extras”.

Exemplo:

  • Você treinou até 2000
  • Você quer 1000 a mais
  • Defina Steps = 3000 (não 1000)

Step C — Salve e reinicie

  1. Clique em Update Job
  2. Clique em Start Training

✅ Agora o job deve continuar a partir da execução anterior, usando o último checkpoint, e treinar até o novo valor de Steps.


4) Se não retomar (checks rápidos)

Se ele começar do step 0 ou se recusar a continuar, verifique isto:

  • Você tem um checkpoint salvo perto do final?

    Veja os outputs / arquivos salvos do job. Se o job nunca salvou um checkpoint, não dá para retomar.

  • Você manteve checkpoints?

    Se o “Max Step Saves to Keep” é baixo e saves antigos foram removidos, confirme se o checkpoint mais recente ainda existe.

  • Você mudou mais do que Steps?

    Para retomar “limpo”, mantenha o mesmo dataset e as mesmas configurações de treinamento. Mude apenas Steps.


5) Resumo em uma linha

Para continuar treinando a mesma LoRA depois que ela parar nos Steps predefinidos:

Edite o job finalizado → aumente Steps para o novo total final → Update Job → Start Training.

Pronto para começar o treinamento?