AI Toolkit LoRA 학습 가이드

AI Toolkit OOM 방지를 위한 안전한 시작 설정

AI Toolkit 작업 사전 점검 가이드: 작업 생성 전 Batch Size, 해상도, 프레임 수, Gradient Checkpointing, 프리뷰 샘플링을 확인하여 첫 실행 성공 가능성을 높입니다.

Ostris AI Toolkit로 확산 모델 학습

AI Toolkit에서 OOM 피하는 법: 첫 학습 성공을 위한 안전한 설정

이 페이지는 "최고 속도" 설정이 아닙니다.

첫 번째 성공적인 학습을 위한 설정입니다.

재시도 낭비를 줄이고, OOM을 줄이고, 사용 가능한 학습에 더 빨리 도달하고 싶다면 여기서 시작하세요.

규칙은 간단합니다:

먼저 안정성을 증명하세요. 속도 최적화는 그 다음입니다.

이 가이드의 용도

다음 경우에 이 페이지를 사용하세요:

  • 새 AI Toolkit 작업을 만들려는 경우
  • 더 안전한 초기 설정이 필요한 경우
  • OOM 디버깅에 시간을 쓰느니 안정적인 첫 학습을 원하는 경우
  • "위험한 설정으로 시작하지 않기" 체크리스트가 필요한 경우

이미 CUDA out of memory 에러가 보인다면:


60초 OOM 사전점검 체크리스트

Create Job을 클릭하기 전에:

  • Batch Size를 보수적으로 유지
  • Datasets에서 보수적인 Resolution으로 시작
  • Sample에서 프리뷰를 최종 목표보다 가볍게 유지
  • Show Advanced를 클릭하여 gradient_checkpointing: true 확인
  • ✅ 비디오의 경우, 보수적인 Num Frames로 시작
  • ✅ 모델별 저메모리 기능은 모델 가이드가 권장하는 경우에만 사용
  • ✅ 첫 학습에서 여러 위험한 변경을 시도하지 않기

RunComfy는 제품 수준에서도 도움을 줍니다. 학습 작업을 저장할 때, 현재 설정에 고위험 조합이 포함되어 있는지 확인합니다 — 예를 들어 과도한 batch size, frames, resolution, 또는 메모리 절약 기본값의 조기 비활성화 등. GPU 시간과 비용을 소비하기 전에 위험한 설정을 감지하는 것이 목표입니다.

모델별 판단을 대체하지는 않지만, 더 안전한 출발점을 제공합니다.


1) 가장 중요한 마인드셋 전환

대부분의 실패한 첫 학습은 "나쁜 learning rate" 때문이 아닙니다.

원인은:

  • 너무 높은 해상도
  • 너무 많은 프레임
  • 너무 큰 배치
  • 너무 비싼 프리뷰 샘플링
  • 메모리 절약 기본값의 조기 비활성화

첫 번째 성공적인 학습은 의도적으로 지루하게 보여야 합니다.

그게 좋은 것입니다.


2) 이미지 모델의 안전한 초기 설정

FLUX-dev / Flex 계열 대형 이미지 모델

좋은 첫 학습

  • Batch Size: 1
  • Gradient Checkpointing: 켜짐
  • Datasets > Resolutions: 512 + 768로 시작
  • 안정성 확인 후에만 1024 추가
  • Sample: 프리뷰를 적당하게 유지하거나 일시적으로 샘플링 비활성화

여기서 시작하지 마세요

  • GC 꺼짐
  • Batch Size ≥ 8
  • 첫 학습에서 공격적인 멀티버킷 고해상도 설정
  • 짧은 간격의 무거운 프리뷰

Z-Image

좋은 첫 학습

  • Batch Size: 먼저 보수적으로
  • Gradient Checkpointing: 켜짐
  • Resolutions: 가장 큰 버킷으로 바로 가는 것보다 768 + 1024가 더 안전한 첫 목표
  • 프리뷰를 합리적으로 유지

여기서 시작하지 마세요

  • 큰 배치로 GC 꺼짐
  • 가장 큰 버킷부터 바로 시작
  • 안정성 증명 전에 높은 배치와 높은 해상도 조합

Qwen Image Edit

좋은 첫 학습

  • Batch Size: 1
  • Gradient Checkpointing: 켜짐
  • 더 작거나 단순한 버킷 믹스로 시작
  • 프리뷰 비용 통제
  • 모델 가이드가 권장하면 모델의 저메모리 경로 사용

여기서 시작하지 마세요

  • GC 꺼짐
  • 첫 학습에서 큰 배치
  • 비싼 1024 프리뷰 + 무거운 컨디셔닝 + 잦은 샘플 생성
  • 기본 파이프라인이 안정되기 전의 임의 텍스트 인코더 실험

3) 비디오 모델의 안전한 초기 설정

Wan 2.2 14B

좋은 첫 학습

  • Batch Size: 1
  • Datasets > Num Frames: 21 또는 41
  • Datasets > Resolutions: 512로 시작
  • 안정적인 학습 후에만 768 추가
  • 프리뷰 비디오를 보수적으로 유지

여기서 시작하지 마세요

  • 81 프레임 + Batch Size 2
  • 학습 중 긴 프리뷰 비디오
  • 안정성 증명 전의 큰 버킷 + 긴 클립

LTX-2

좋은 첫 학습

  • Batch Size: 1
  • Num Frames: 49 또는 81
  • Resolution: 512
  • 프리뷰 비용 통제

여기서 시작하지 마세요

  • 121 프레임 + Batch Size 4
  • 안정적 학습 증명 전의 더 큰 버킷
  • 이미지 모델의 배치 습관이 비디오에 적용된다는 가정

4) 대부분의 사용자가 시작하는 것보다 안전한 프리뷰 설정

많은 "학습 OOM"은 실제로 프리뷰 OOM입니다.

첫 학습에서는 필요하다고 생각하는 것보다 가벼운 샘플링을 사용하세요.

Sample 패널에서

다음을 선호:

  • 더 낮은 Width / Height
  • 더 낮은 Sample Steps
  • 덜 빈번한 Sample Every
  • 안정성 증명만이 목표라면 Disable Sampling 켜기

학습이 안정되면 프리뷰를 다시 풍부하게 할 수 있습니다.


5) Show Advanced에서 확인할 항목

표준 UI가 많은 중요한 설정을 다루지만, 가장 안전한 사전점검은 고급 YAML입니다.

먼저 확인:

train:
  batch_size: 1
  gradient_checkpointing: true
  disable_sampling: false

model:
  low_vram: false

sample:
  width: 1024
  height: 1024
  sample_steps: 25
  guidance_scale: 4
  num_frames: 1

datasets:
  - resolution: [512, 768, 1024]
    num_frames: 1

더 안전한 첫 학습을 위해 가장 자주 줄이는 값:

  • batch_size
  • resolution
  • num_frames
  • sample.width
  • sample.height
  • sample.sample_steps

가장 자주 활성화 상태를 유지해야 하는 값:

  • gradient_checkpointing: true

6) "여기서 시작하지 마세요" 조합

다음은 피할 수 있는 OOM을 만드는 전형적인 첫 학습 선택입니다:

위험한 조합 위험한 이유
대형 이미지 모델에서 Gradient Checkpointing = 꺼짐 VRAM 여유를 즉시 잃는 쉬운 방법
FLUX 계열 이미지 모델 + Batch Size 8+ 특히 풍부한 버킷에서 고위험 첫 학습
Wan 2.2 + 81 프레임 + Batch Size 2 전형적인 비디오 메모리 스파이크 영역
LTX-2 + 121 프레임 + Batch Size 4 첫 학습으로는 극도로 무거운 조합
짧은 간격의 비싼 1024 프리뷰 학습이 거의 맞아도 프리뷰 OOM
여러 위험한 변경을 동시에 추가 실제 실패 원인을 알 수 없게 됨

7) 매우 실용적인 첫 학습 레시피

규칙이 하나만 필요하다면:

이미지 모델용

  1. Batch Size = 1
  2. gradient_checkpointing: true
  3. 먼저 작은 / 중간 버킷만
  4. 가벼운 프리뷰 또는 프리뷰 없음
  5. 작업이 실행되는 것을 증명

비디오 모델용

  1. Batch Size = 1
  2. 보수적인 Num Frames
  3. 먼저 512
  4. 가벼운 프리뷰
  5. 작업이 실행되는 것을 증명

이것이 진짜 성공적인 학습으로의 가장 빠른 경로입니다.


8) 언제 스케일업할까

안정적인 학습 이후에만 스케일업하세요.

좋은 순서:

  1. 동일한 메모리 설정 유지
  2. Steps 증가
  3. 프리뷰 품질 개선
  4. 더 큰 버킷 추가
  5. 더 많은 프레임 추가 (비디오)
  6. 그때서야 더 큰 배치 테스트

한 번에 하나의 변수만.


9) 그래도 OOM이 나면

런타임 수정 가이드로 바로 이동하세요:

그 페이지는 이미 실패한 작업용입니다.

이 페이지는 처음부터 실패를 방지하기 위한 것입니다.


한 줄 요약

AI Toolkit의 최고의 첫 학습 프리셋은 약간 보수적이고, 분명히 안정적이며, 나중에 쉽게 스케일업할 수 있는 것입니다.

안전하게 시작하세요.

성공적인 학습을 하나 얻으세요.

그 다음에 최적화하세요.


관련 가이드

학습을 시작할 준비가 되셨나요?