AI Toolkit에서 OOM 피하는 법: 첫 학습 성공을 위한 안전한 설정
이 페이지는 "최고 속도" 설정이 아닙니다.
첫 번째 성공적인 학습을 위한 설정입니다.
재시도 낭비를 줄이고, OOM을 줄이고, 사용 가능한 학습에 더 빨리 도달하고 싶다면 여기서 시작하세요.
규칙은 간단합니다:
먼저 안정성을 증명하세요. 속도 최적화는 그 다음입니다.
이 가이드의 용도
다음 경우에 이 페이지를 사용하세요:
- 새 AI Toolkit 작업을 만들려는 경우
- 더 안전한 초기 설정이 필요한 경우
- OOM 디버깅에 시간을 쓰느니 안정적인 첫 학습을 원하는 경우
- "위험한 설정으로 시작하지 않기" 체크리스트가 필요한 경우
이미 CUDA out of memory 에러가 보인다면:
60초 OOM 사전점검 체크리스트
Create Job을 클릭하기 전에:
- ✅ Batch Size를 보수적으로 유지
- ✅ Datasets에서 보수적인 Resolution으로 시작
- ✅ Sample에서 프리뷰를 최종 목표보다 가볍게 유지
- ✅ Show Advanced를 클릭하여
gradient_checkpointing: true확인 - ✅ 비디오의 경우, 보수적인 Num Frames로 시작
- ✅ 모델별 저메모리 기능은 모델 가이드가 권장하는 경우에만 사용
- ✅ 첫 학습에서 여러 위험한 변경을 시도하지 않기
RunComfy는 제품 수준에서도 도움을 줍니다. 학습 작업을 저장할 때, 현재 설정에 고위험 조합이 포함되어 있는지 확인합니다 — 예를 들어 과도한 batch size, frames, resolution, 또는 메모리 절약 기본값의 조기 비활성화 등. GPU 시간과 비용을 소비하기 전에 위험한 설정을 감지하는 것이 목표입니다.
모델별 판단을 대체하지는 않지만, 더 안전한 출발점을 제공합니다.
1) 가장 중요한 마인드셋 전환
대부분의 실패한 첫 학습은 "나쁜 learning rate" 때문이 아닙니다.
원인은:
- 너무 높은 해상도
- 너무 많은 프레임
- 너무 큰 배치
- 너무 비싼 프리뷰 샘플링
- 메모리 절약 기본값의 조기 비활성화
첫 번째 성공적인 학습은 의도적으로 지루하게 보여야 합니다.
그게 좋은 것입니다.
2) 이미지 모델의 안전한 초기 설정
FLUX-dev / Flex 계열 대형 이미지 모델
좋은 첫 학습
- Batch Size:
1 - Gradient Checkpointing:
켜짐 - Datasets > Resolutions:
512 + 768로 시작 - 안정성 확인 후에만
1024추가 - Sample: 프리뷰를 적당하게 유지하거나 일시적으로 샘플링 비활성화
여기서 시작하지 마세요
- GC 꺼짐
- Batch Size ≥ 8
- 첫 학습에서 공격적인 멀티버킷 고해상도 설정
- 짧은 간격의 무거운 프리뷰
Z-Image
좋은 첫 학습
- Batch Size: 먼저 보수적으로
- Gradient Checkpointing:
켜짐 - Resolutions: 가장 큰 버킷으로 바로 가는 것보다
768 + 1024가 더 안전한 첫 목표 - 프리뷰를 합리적으로 유지
여기서 시작하지 마세요
- 큰 배치로 GC 꺼짐
- 가장 큰 버킷부터 바로 시작
- 안정성 증명 전에 높은 배치와 높은 해상도 조합
Qwen Image Edit
좋은 첫 학습
- Batch Size:
1 - Gradient Checkpointing:
켜짐 - 더 작거나 단순한 버킷 믹스로 시작
- 프리뷰 비용 통제
- 모델 가이드가 권장하면 모델의 저메모리 경로 사용
여기서 시작하지 마세요
- GC 꺼짐
- 첫 학습에서 큰 배치
- 비싼 1024 프리뷰 + 무거운 컨디셔닝 + 잦은 샘플 생성
- 기본 파이프라인이 안정되기 전의 임의 텍스트 인코더 실험
3) 비디오 모델의 안전한 초기 설정
Wan 2.2 14B
좋은 첫 학습
- Batch Size:
1 - Datasets > Num Frames:
21또는41 - Datasets > Resolutions:
512로 시작 - 안정적인 학습 후에만
768추가 - 프리뷰 비디오를 보수적으로 유지
여기서 시작하지 마세요
- 81 프레임 + Batch Size 2
- 학습 중 긴 프리뷰 비디오
- 안정성 증명 전의 큰 버킷 + 긴 클립
LTX-2
좋은 첫 학습
- Batch Size:
1 - Num Frames:
49또는81 - Resolution:
512 - 프리뷰 비용 통제
여기서 시작하지 마세요
- 121 프레임 + Batch Size 4
- 안정적 학습 증명 전의 더 큰 버킷
- 이미지 모델의 배치 습관이 비디오에 적용된다는 가정
4) 대부분의 사용자가 시작하는 것보다 안전한 프리뷰 설정
많은 "학습 OOM"은 실제로 프리뷰 OOM입니다.
첫 학습에서는 필요하다고 생각하는 것보다 가벼운 샘플링을 사용하세요.
Sample 패널에서
다음을 선호:
- 더 낮은 Width / Height
- 더 낮은 Sample Steps
- 덜 빈번한 Sample Every
- 안정성 증명만이 목표라면 Disable Sampling 켜기
학습이 안정되면 프리뷰를 다시 풍부하게 할 수 있습니다.
5) Show Advanced에서 확인할 항목
표준 UI가 많은 중요한 설정을 다루지만, 가장 안전한 사전점검은 고급 YAML입니다.
먼저 확인:
train:
batch_size: 1
gradient_checkpointing: true
disable_sampling: false
model:
low_vram: false
sample:
width: 1024
height: 1024
sample_steps: 25
guidance_scale: 4
num_frames: 1
datasets:
- resolution: [512, 768, 1024]
num_frames: 1
더 안전한 첫 학습을 위해 가장 자주 줄이는 값:
batch_sizeresolutionnum_framessample.widthsample.heightsample.sample_steps
가장 자주 활성화 상태를 유지해야 하는 값:
gradient_checkpointing: true
6) "여기서 시작하지 마세요" 조합
다음은 피할 수 있는 OOM을 만드는 전형적인 첫 학습 선택입니다:
| 위험한 조합 | 위험한 이유 |
|---|---|
| 대형 이미지 모델에서 Gradient Checkpointing = 꺼짐 | VRAM 여유를 즉시 잃는 쉬운 방법 |
| FLUX 계열 이미지 모델 + Batch Size 8+ | 특히 풍부한 버킷에서 고위험 첫 학습 |
| Wan 2.2 + 81 프레임 + Batch Size 2 | 전형적인 비디오 메모리 스파이크 영역 |
| LTX-2 + 121 프레임 + Batch Size 4 | 첫 학습으로는 극도로 무거운 조합 |
| 짧은 간격의 비싼 1024 프리뷰 | 학습이 거의 맞아도 프리뷰 OOM |
| 여러 위험한 변경을 동시에 추가 | 실제 실패 원인을 알 수 없게 됨 |
7) 매우 실용적인 첫 학습 레시피
규칙이 하나만 필요하다면:
이미지 모델용
- Batch Size = 1
gradient_checkpointing: true- 먼저 작은 / 중간 버킷만
- 가벼운 프리뷰 또는 프리뷰 없음
- 작업이 실행되는 것을 증명
비디오 모델용
- Batch Size = 1
- 보수적인 Num Frames
- 먼저
512 - 가벼운 프리뷰
- 작업이 실행되는 것을 증명
이것이 진짜 성공적인 학습으로의 가장 빠른 경로입니다.
8) 언제 스케일업할까
안정적인 학습 이후에만 스케일업하세요.
좋은 순서:
- 동일한 메모리 설정 유지
- Steps 증가
- 프리뷰 품질 개선
- 더 큰 버킷 추가
- 더 많은 프레임 추가 (비디오)
- 그때서야 더 큰 배치 테스트
한 번에 하나의 변수만.
9) 그래도 OOM이 나면
런타임 수정 가이드로 바로 이동하세요:
그 페이지는 이미 실패한 작업용입니다.
이 페이지는 처음부터 실패를 방지하기 위한 것입니다.
한 줄 요약
AI Toolkit의 최고의 첫 학습 프리셋은 약간 보수적이고, 분명히 안정적이며, 나중에 쉽게 스케일업할 수 있는 것입니다.
안전하게 시작하세요.
성공적인 학습을 하나 얻으세요.
그 다음에 최적화하세요.
관련 가이드
학습을 시작할 준비가 되셨나요?
