AI Toolkit LoRA Training Guides

Riprendere l'addestramento LoRA in AI Toolkit dopo gli Steps preimpostati

Guida rapida per riprendere l'addestramento LoRA in AI Toolkit: modifica il job terminato, aumenta Steps al nuovo totale finale e riavvia dall'ultimo checkpoint salvato.

Train Diffusion Models with Ostris AI Toolkit

Come continuare l’addestramento dopo che il tuo job di AI Toolkit raggiunge gli Steps preimpostati (riprendere la stessa LoRA)

1) “È il mio caso?”

Hai impostato Steps = 2000, hai avviato l’addestramento e il job si è fermato automaticamente quando ha raggiunto lo step 2000.

Dopo aver controllato i sample / l’inferenza, vuoi allenare ancora, ma non vuoi iniziare una LoRA nuova da zero: vuoi continuare dal job/checkpoint esistente.

Se ti ritrovi in questa situazione, questa guida fa per te.


2) Cosa sta succedendo

In AI Toolkit, Steps = il numero totale di step di training del job.

Quindi, quando imposti Steps = 2000, il trainer fa esattamente ciò che gli hai chiesto:

  • addestra fino allo step 2000
  • poi si ferma

Per continuare ad addestrare la stessa LoRA, non crei un nuovo job: modifica il job esistente e aumenta il totale finale di Steps, poi avvialo di nuovo. Il trainer riprenderà dall’ultimo checkpoint salvato e continuerà.


3) Come riprendere l’addestramento (step by step)

Step A — Apri il job che vuoi continuare

  1. Vai alla tua Training Queue (o alla lista dei job)
  2. Trova il job terminato (quello che si è fermato a 2000 step)
  3. Clicca Edit su quel job per aprire l’editor del job

Pulsante Edit nel job di training

Step B — Aumenta il totale di Steps

  1. Scorri fino alla sezione Training
  2. Trova Steps
  3. Impostalo al tuo nuovo conteggio totale finale di step

Aggiorna Steps nel job di training

Importante: questo numero è il totale finale, non “step extra”.

Esempio:

  • Hai addestrato fino a 2000
  • Vuoi 1000 in più
  • Imposta Steps = 3000 (non 1000)

Step C — Salva e riavvia

  1. Clicca Update Job
  2. Clicca Start Training

✅ Il job dovrebbe ora continuare dal run precedente, usando l’ultimo checkpoint, e addestrare fino al nuovo valore di Steps.


4) Se non riprende (controlli rapidi)

Se riparte dallo step 0 o rifiuta di continuare, controlla questi punti:

  • Hai un checkpoint salvato vicino alla fine?

    Guarda gli output / i file salvati del job. Se il job non ha mai salvato un checkpoint, non può riprendere.

  • Hai mantenuto i checkpoint?

    Se “Max Step Saves to Keep” è basso e i salvataggi più vecchi sono stati rimossi, assicurati che l’ultimo checkpoint esista ancora.

  • Hai cambiato più di Steps?

    Per riprendere in modo pulito, mantieni lo stesso dataset e le stesse impostazioni di training. Cambia solo Steps.


5) Riepilogo in una riga

Per continuare ad addestrare la stessa LoRA dopo che si ferma ai tuoi Steps preimpostati:

Modifica il job terminato → aumenta Steps al nuovo totale finale → Update Job → Start Training.

Ready to start training?