Comment continuer l’entraînement après que votre job AI Toolkit ait atteint les Steps prédéfinis (reprendre la même LoRA)
1) « Est‑ce mon problème ? »
Vous avez mis Steps = 2000, lancé l’entraînement, et le job s’est arrêté automatiquement une fois arrivé au step 2000.
Après avoir vérifié les samples / l’inférence, vous voulez continuer à entraîner, mais vous ne voulez pas repartir de zéro avec une nouvelle LoRA : vous voulez reprendre à partir du job/checkpoint existant.
Si c’est votre cas, ce guide est pour vous.
2) Ce qui se passe
Dans AI Toolkit, Steps = le nombre total de steps d’entraînement du job.
Donc quand vous mettez Steps = 2000, le trainer fait exactement ce que vous lui demandez :
- entraîner jusqu’au step 2000
- puis s’arrêter
Pour continuer à entraîner la même LoRA, vous ne créez pas un nouveau job : vous éditez le job existant et augmentez le total final de Steps, puis vous le relancez. Le trainer reprendra depuis le dernier checkpoint enregistré et continuera.
3) Comment reprendre l’entraînement (pas à pas)
Step A — Ouvrir le job que vous voulez continuer
- Allez dans votre Training Queue (ou la liste des jobs)
- Trouvez le job terminé (celui qui s’est arrêté à 2000 steps)
- Cliquez sur Edit sur ce job pour ouvrir l’éditeur de job

Step B — Augmenter le total de Steps
- Faites défiler jusqu’à la section Training
- Trouvez Steps
- Modifiez‑le pour votre nouveau nombre total final de steps

Important : ce nombre est le total final, pas des « steps en plus ».
Exemple :
- Vous avez entraîné jusqu’à 2000
- Vous voulez 1000 de plus
- Mettez Steps = 3000 (pas 1000)
Step C — Enregistrer et relancer
- Cliquez sur Update Job
- Cliquez sur Start Training
✅ Le job devrait maintenant reprendre à partir de l’exécution précédente, en utilisant le dernier checkpoint, et s’entraîner jusqu’à la nouvelle valeur de Steps.
4) Si ça ne reprend pas (vérifications rapides)
Si ça redémarre au step 0 ou refuse de continuer, vérifiez ceci :
- Avez‑vous un checkpoint sauvegardé près de la fin ?
Regardez les outputs / fichiers sauvegardés de votre job. Si votre job n’a jamais sauvegardé de checkpoint, il ne peut pas reprendre.
- Avez‑vous conservé des checkpoints ?
Si votre “Max Step Saves to Keep” est bas et que d’anciens saves ont été supprimés, assurez‑vous que le dernier checkpoint existe toujours.
- Avez‑vous changé autre chose que Steps ?
Pour reprendre proprement, gardez le même dataset et les mêmes réglages d’entraînement. Ne changez que Steps.
5) Résumé en une ligne
Pour continuer à entraîner la même LoRA après qu’elle s’arrête à vos Steps prédéfinis :
Éditez le job terminé → augmentez Steps jusqu’au nouveau total final → Update Job → Start Training.
Ready to start training?
