Wan 2.2 / LTX-2 OOM 가이드: AI Toolkit에서 안전한 프레임 수, Batch Size, 해상도
비디오 LoRA 학습에서 OOM은 보통 하나의 잘못된 설정 때문이 아닙니다.
대부분 다음의 조합입니다:
- 프레임이 너무 많음
- 해상도 버킷이 너무 큼
- 배치가 너무 큼
- 프리뷰 샘플링이 너무 비쌈
그래서 비디오 OOM이 일관성 없게 느껴집니다: 한 학습은 되고, 다음은 크래시하는데, "중요한 건 아무것도 안 바꿨는데" 그렇습니다.
이 가이드는 RunComfy AI Toolkit에서 Wan 2.2와 LTX-2의 실용적인 메모리 예산을 제공합니다.
빠른 수정 체크리스트 (여기서 시작)
- Wan 2.2는 Batch Size = 1과 21–41 프레임으로 시작
- LTX-2는 Batch Size = 1과 49 또는 81 프레임으로 시작
- Datasets에서 LR보다 먼저 Num Frames 줄이기
- Datasets에서 가장 높은 Resolution 버킷을 먼저 제거
- Sample에서 프리뷰 비디오를 학습 예산보다 가볍게 유지
- 로그에 Bus error / out of shared memory가 나오면, 그것은 CUDA OOM과 같지 않음
1) 먼저: 어떤 메모리 문제인지 파악
CUDA OOM
이 가이드는 다음과 같은 에러 대상입니다:
CUDA out of memory
OOM during training step ...
Tried to allocate ...
공유 메모리 / DataLoader 크래시
로그에 다음이 나오면:
Bus error
out of shared memory
DataLoader worker is killed
이것은 GPU VRAM이 아닌 공유 메모리(/dev/shm)와 관련된 별도의 문제입니다. Fix: DataLoader worker Bus error (/dev/shm) 트러블슈팅 참조
2) 정말 필요한 유일한 사고 모델
비디오 학습에서 메모리 부담은 주로 다음으로 증가합니다:
프레임 × 해상도 × 배치 사이즈
세 가지를 동시에 늘리면, 거의 확실히 한계선 학습을 만들게 됩니다.
3) Wan 2.2: 안전 vs 한계선 vs 고위험
안전한 첫 학습
- Batch Size: 1
- Num Frames: 21 또는 41
- Resolution: 512로 시작
- 프리뷰 비디오를 보수적으로 유지
한계선
- Batch Size: 1
- Num Frames: 81
- Resolution: 480–512
고위험
- 81 프레임에 Batch Size ≥ 2
- 고해상도 버킷 + 긴 클립
- 잦은 무거운 프리뷰 생성
Wan 롤백 순서
- Num Frames 줄이기
- Batch Size = 1 유지
- 가장 높은 Resolution 제거
- 프리뷰 비용 줄이기
4) LTX-2: 안전 vs 한계선 vs 고위험
안전한 첫 학습
- Batch Size: 1
- Num Frames: 49 또는 81
- Resolution: 512
한계선
- Batch Size: 1
- Num Frames: 121
- Resolution: 512
고위험
- 121 프레임에 Batch Size ≥ 4
- 안정성 증명 전 더 큰 버킷
- 무거운 프리뷰 샘플링
LTX 롤백 순서
- Batch Size = 1 유지
- Num Frames 줄이기 (121 → 81 → 49)
- Resolution 줄이기
- 프리뷰 가볍게 만들기
5) 같은 설정이 때로는 되고 때로는 OOM이 나는 이유
일반적인 원인:
- 버킷 스파이크 (가장 큰 버킷이 VRAM을 한계 이상으로 밀어올림)
- 프리뷰 스파이크 (학습은 맞지만 프리뷰가 한계를 넘김)
- 한계선 메모리 상태
"가끔 되는" 설정은 불안정한 것으로 취급해야 합니다.
한 줄 요약
Wan 2.2와 LTX-2에서 비디오 OOM은 보통 프레임 × 해상도 × 배치 문제입니다.
보수적으로 시작하고, 안정성을 증명한 다음 스케일업하세요.
학습을 시작할 준비가 되셨나요?
