AI Toolkit job이 설정한 Steps에 도달해 멈춘 뒤에도 계속 학습하기 (같은 LoRA 이어서 학습)
1) “이게 내 문제인가요?”
Steps = 2000으로 설정하고 학습을 시작했는데, step 2000에 도달하자 job이 자동으로 종료되었습니다.
샘플 / 추론 결과를 확인해 보니 조금 더 학습하고 싶지만, 새 LoRA를 처음부터 다시 만들고 싶지는 않습니다. 기존 job / checkpoint에서 이어서 학습하고 싶습니다.
이 상황이라면, 이 가이드가 도움이 됩니다.
2) 무슨 일이 일어나고 있나요
AI Toolkit에서 Steps = 해당 job의 총 학습 step 수입니다.
그래서 Steps = 2000으로 설정하면 trainer는 요청한 그대로 동작합니다:
- step 2000까지 학습
- 그리고 종료
같은 LoRA를 계속 학습하려면 새 job을 만들지 말고, 기존 job을 편집해서 최종 총 Steps 값을 늘린 다음 다시 실행하세요. trainer는 마지막으로 저장된 checkpoint에서 재개하여 계속 학습합니다.
3) 학습 재개 방법 (step by step)
Step A — 계속할 job 열기
- Training Queue(또는 job list)로 이동
- 완료된 job(2000 steps에서 멈춘 job)을 찾기
- 해당 job에서 Edit를 눌러 job 편집기를 열기

Step B — 총 Steps 늘리기
- Training 섹션으로 스크롤
- Steps 찾기
- 새 최종 총합 step 수로 변경

중요: 이 숫자는 “추가 steps”가 아니라 최종 총합입니다.
예시:
- 2000까지 학습함
- 1000 더 원함
- Steps = 3000으로 설정 (1000이 아님)
Step C — 저장하고 다시 시작
- Update Job 클릭
- Start Training 클릭
✅ 이제 job은 이전 실행에서 이어서, 마지막 checkpoint를 사용해 새 Steps 값까지 학습해야 합니다.
4) 재개되지 않을 때 (빠른 체크)
step 0부터 다시 시작하거나 계속 진행되지 않으면, 아래를 확인하세요:
- 끝부분에 가까운 checkpoint가 저장되어 있나요?
job outputs / 저장된 파일을 확인하세요. checkpoint를 한 번도 저장하지 않았다면 재개할 수 없습니다.
- checkpoints를 유지하고 있나요?
“Max Step Saves to Keep” 값이 낮아 이전 저장본이 정리(prune)됐다면, 최신 checkpoint가 아직 남아 있는지 확인하세요.
- Steps 말고 다른 것도 변경했나요?
깔끔하게 재개하려면 동일한 dataset과 학습 설정을 유지하고, Steps만 변경하세요.
5) 한 줄 요약
설정한 Steps에서 멈춘 뒤에도 같은 LoRA를 계속 학습하려면:
완료된 job을 Edit → Steps를 새 최종 총합으로 늘리기 → Update Job → Start Training.
학습을 시작할 준비가 되셨나요?
