AI Toolkit LoRA 학습 가이드

AI Toolkit LoRA 학습을 설정 Steps 후에 재개하기

AI Toolkit에서 LoRA 학습을 재개하는 가이드: 멈춘 job을 편집하고, Steps를 새 최종 총합으로 늘린 뒤, 마지막 checkpoint에서 이어서 학습합니다.

Ostris AI Toolkit로 확산 모델 학습

AI Toolkit job이 설정한 Steps에 도달해 멈춘 뒤에도 계속 학습하기 (같은 LoRA 이어서 학습)

1) “이게 내 문제인가요?”

Steps = 2000으로 설정하고 학습을 시작했는데, step 2000에 도달하자 job이 자동으로 종료되었습니다.

샘플 / 추론 결과를 확인해 보니 조금 더 학습하고 싶지만, 새 LoRA를 처음부터 다시 만들고 싶지는 않습니다. 기존 job / checkpoint에서 이어서 학습하고 싶습니다.

이 상황이라면, 이 가이드가 도움이 됩니다.


2) 무슨 일이 일어나고 있나요

AI Toolkit에서 Steps = 해당 job의 총 학습 step 수입니다.

그래서 Steps = 2000으로 설정하면 trainer는 요청한 그대로 동작합니다:

  • step 2000까지 학습
  • 그리고 종료

같은 LoRA를 계속 학습하려면 새 job을 만들지 말고, 기존 job을 편집해서 최종 총 Steps 값을 늘린 다음 다시 실행하세요. trainer는 마지막으로 저장된 checkpoint에서 재개하여 계속 학습합니다.


3) 학습 재개 방법 (step by step)

Step A — 계속할 job 열기

  1. Training Queue(또는 job list)로 이동
  2. 완료된 job(2000 steps에서 멈춘 job)을 찾기
  3. 해당 job에서 Edit를 눌러 job 편집기를 열기

트레이닝 job의 Edit 버튼

Step B — 총 Steps 늘리기

  1. Training 섹션으로 스크롤
  2. Steps 찾기
  3. 최종 총합 step 수로 변경

트레이닝 job에서 Steps 업데이트

중요: 이 숫자는 “추가 steps”가 아니라 최종 총합입니다.

예시:

  • 2000까지 학습함
  • 1000 더 원함
  • Steps = 3000으로 설정 (1000이 아님)

Step C — 저장하고 다시 시작

  1. Update Job 클릭
  2. Start Training 클릭

✅ 이제 job은 이전 실행에서 이어서, 마지막 checkpoint를 사용해 새 Steps 값까지 학습해야 합니다.


4) 재개되지 않을 때 (빠른 체크)

step 0부터 다시 시작하거나 계속 진행되지 않으면, 아래를 확인하세요:

  • 끝부분에 가까운 checkpoint가 저장되어 있나요?

    job outputs / 저장된 파일을 확인하세요. checkpoint를 한 번도 저장하지 않았다면 재개할 수 없습니다.

  • checkpoints를 유지하고 있나요?

    “Max Step Saves to Keep” 값이 낮아 이전 저장본이 정리(prune)됐다면, 최신 checkpoint가 아직 남아 있는지 확인하세요.

  • Steps 말고 다른 것도 변경했나요?

    깔끔하게 재개하려면 동일한 dataset과 학습 설정을 유지하고, Steps만 변경하세요.


5) 한 줄 요약

설정한 Steps에서 멈춘 뒤에도 같은 LoRA를 계속 학습하려면:

완료된 job을 Edit → Steps를 새 최종 총합으로 늘리기 → Update Job → Start Training.

학습을 시작할 준비가 되셨나요?