Wan 2.2 T2V 14B LoRA 학습 가이드(AI Toolkit)

Wan 2.2 T2V 14B 텍스트-비디오 LoRA 훈련을 통해 간단한 텍스트 프롬프트에서 강력한 모션, 디테일 및 카메라 제어가 포함된 풍부한 5초 클립을 생성할 수 있습니다. 이 가이드를 완료하면 다음을 수행할 수 있습니다:

AI Toolkit으로 Wan 2.2 T2V 14B LoRA를 훈련하여 일관된 캐릭터, 강한 스타일, 모션/카메라 동작을 구현
24GB+ NVIDIA GPU(4비트 ARA 양자화 사용)에서의 로컬 훈련과 H100/H200 GPU에서의 클라우드 훈련 중 선택하고, 각 단계가 현실적으로 처리할 수 있는 것을 이해
Wan의 하이노이즈 및 로우노이즈 전문가가 Multi-stage, Timestep Type/Bias, Num Frames, 해상도와 어떻게 상호작용하는지 이해하여 LoRA가 변경 사항을 주입하는 위치를 제어
AI Toolkit을 패널별로 구성(JOB, MODEL, QUANTIZATION, MULTISTAGE, TARGET, SAVE, TRAINING, DATASETS, SAMPLE)하여 동일한 레시피를 다른 LoRA 목표와 하드웨어에 적용

이 문서는 AI Toolkit LoRA 훈련 시리즈의 일부입니다. Ostris AI Toolkit이 처음이시라면, 이 가이드로 들어가기 전에 AI Toolkit LoRA 훈련 개요부터 시작하세요.

1. LoRA 훈련을 위한 Wan 2.2 T2V 14B 개요
2. Wan 2.2 T2V LoRA를 어디서 훈련할 것인가 (로컬 vs 클라우드)
3. Wan 2.2 T2V LoRA의 하드웨어 및 VRAM 기대치
4. Wan 2.2 T2V LoRA 데이터셋 구축
5. 단계별: AI Toolkit에서 Wan 2.2 T2V 14B LoRA 훈련
6. Wan 2.2 T2V 14B LoRA 훈련 설정
7. Wan T2V LoRA 내보내기 및 사용

1. LoRA 훈련을 위한 Wan 2.2 T2V 14B 개요

Wan 2.2는 세 가지 주요 변형이 있는 오픈 텍스트/비디오 모델 제품군입니다: 5B 텍스트/이미지-비디오 모델과 두 개의 14B 모델(T2V 및 I2V). (Wan 2.2 GitHub). 이 가이드는 14B 텍스트-비디오 모델 Wan2.2‑T2V‑A14B를 대상으로 합니다.

듀얼 트랜스포머 "하이노이즈 / 로우노이즈" 설계

내부적으로 Wan 2.2 14B는 Wan 2.2 T2V 14B 텍스트-비디오 LoRA 훈련을 위한 Mixture-of-Experts 텍스트-비디오 백본을 사용합니다:

하이노이즈: 디노이징의 매우 노이즈가 많은 초기 부분(거친 구성, 전역 모션, 카메라)을 처리하는 ~14B 파라미터 트랜스포머.
로우노이즈: 끝 부분의 비교적 깨끗한 프레임(디테일, 텍스처, 아이덴티티)을 정제하는 ~14B 파라미터 트랜스포머.

모델은 총 약 27B 파라미터를 가지지만, 각 확산 단계에서 하나의 전문가(≈14B 파라미터)만 활성화됩니다. 타임스텝은 노이즈 스케줄에서 t ≈ 875/1000 주변에서 분할됩니다: 대략 1000→875는 하이노이즈 전문가에게, 875→0은 로우노이즈 전문가에게 가며, 내부 시프팅으로 궤적 전체에서 균형 잡힌 커버리지를 유지합니다.

Wan 2.2 LoRA 학습 방법을 배우기 위해, 이것은 다음을 의미합니다:

일반적으로 두 전문가 모두를 훈련하여 LoRA가 전체 디노이징 체인에서 작동하도록 합니다 – 구성/모션과 디테일/아이덴티티 모두.
작은 GPU에서는 두 트랜스포머를 VRAM에 유지하고 각 단계에서 교환하는 것이 비용이 많이 들기 때문에, AI Toolkit은 Multi-stage 패널과 Low VRAM + ARA 양자화 + "Switch Every N steps" 옵션을 제공하여 속도와 VRAM을 교환합니다.

2. Wan 2.2 T2V LoRA를 어디서 훈련할 것인가 (로컬 vs 클라우드)

이 튜토리얼은 두 환경에서 따라할 수 있습니다; AI Toolkit UI는 동일합니다.

옵션 A – 로컬 AI Toolkit (자신의 GPU)

GitHub AI Toolkit 저장소에서 AI Toolkit을 설치하고 웹 UI를 실행합니다. CUDA/드라이버에 익숙하고 이미 24GB+ NVIDIA GPU(RTX 4090 / 5090 / A6000 등)가 있는 경우 최적입니다.
Wan 2.2 14B가 무겁기 때문에, Mac과 24GB 미만 GPU는 일반적으로 512 해상도의 이미지 전용 LoRA(Num Frames = 1)에만 적합합니다. 진지한 Wan 2.2 T2V 14B 텍스트-비디오 LoRA 훈련에는 24GB+와 공격적인 양자화가 필요합니다.

옵션 B – RunComfy의 클라우드 AI Toolkit (H100 / H200)

RunComfy의 클라우드 AI Toolkit을 열고 로그인합니다. 모든 종속성이 사전 설치된 AI Toolkit 인터페이스로 직접 들어갑니다.
Wan 2.2 T2V 14B 텍스트-비디오 LoRA 훈련의 경우, 작업을 시작할 때 H100(80GB) 또는 H200(141GB) 머신을 선택하여 더 높은 해상도에서 긴 비디오를 훈련할 수 있습니다.

클라우드 사용의 이점:

제로 설정 – CUDA, 드라이버, 모델 가중치가 이미 구성되어 있습니다.
거대한 VRAM – OOM 오류와 싸우지 않고 합리적인 배치 크기로 768–1024 해상도에서 33–81 프레임 LoRA를 실행할 수 있습니다.
영구 워크스페이스 – 데이터셋, 작업, LoRA 체크포인트가 RunComfy 계정에 저장되어 나중에 재개하거나 반복할 수 있습니다.

3. Wan 2.2 T2V LoRA의 하드웨어 및 VRAM 기대치

Wan 2.2 14B는 이미지 모델이나 Wan 2.1보다 훨씬 무겁습니다:

1024×1024 및 81 프레임에서의 공식 T2V 워크플로우는 양자화하지 않으면 하이엔드 소비자 GPU에서도 OOM이 발생할 수 있습니다.
1024² / 81 프레임에서의 장시퀀스 LoRA 훈련은 48–96GB 서버 카드에서도 여러 시간이 걸릴 수 있습니다, 특히 2–4k 단계에서.
이 모델의 공식 AI Toolkit 예제 구성(train_lora_wan22_14b_24gb.yaml)은 24GB GPU에 맞춰져 있으며 4비트 ARA 양자화와 Num Frames = 1(이미지 전용)을 안전한 기본값으로 사용합니다.

Musubi Tuner Wan2.2 LoRA 훈련을 위한 VRAM 계층별 합리적인 멘탈 모델:

계층	GPU 예시	편안한 것
24GB "소비자"	4090 / 5090 / A6000	이미지 전용 LoRA(Num Frames = 1), 512–768 px에서 4비트 ARA와 Low VRAM = ON 사용. 짧은 비디오 LoRA(33–41 프레임 @ 512)는 가능하지만 느리고 VRAM이 타이트함.
48–64GB "프로슈머"	듀얼 4090, 일부 서버 GPU	33–41 프레임 비디오 LoRA, 768–1024 px에서 4비트 ARA와 최소한의 오프로딩. 속도, 용량, 품질의 좋은 균형.
80–141GB "클라우드"	RunComfy의 H100 / H200	1024²에서 81 프레임 훈련, 배치 크기 1–2, 오프로딩 거의 없음, float8 또는 4비트 ARA 사용. 진지한 장시퀀스 비디오 LoRA에 이상적.

4. Wan 2.2 T2V LoRA 데이터셋 구축

Wan T2V LoRA는 다음으로 훈련할 수 있습니다:

이미지 – 1프레임 "비디오"로 처리됨(Num Frames = 1).
비디오 클립 – T2V 모델의 진정한 강점; 보통 3–8초의 짧은 클립으로 작업합니다.

4.1 훈련할 LoRA 유형 결정

세 가지 넓은 가족의 관점에서 생각하고 그에 따라 데이터셋을 설계합니다:

캐릭터 LoRA (얼굴 / 몸 / 의상)
목표: Wan의 일반적인 능력을 유지하면서 트리거를 통해 주소 지정할 수 있는 새로운 사람, 아바타 또는 의상을 주입. 동일한 사람의 10–30개의 고품질 이미지 또는 짧은 클립을 사용하고, 다양한 포즈, 배경, 조명으로. 베이스 모델과 싸우는 무거운 필터나 스타일화를 피합니다. 캡션에 고유한 트리거 토큰(예: "zxq-person")과 의복, 조명, 프레이밍에 대한 풍부한 설명을 포함하여 LoRA가 개념을 깨끗하게 학습하도록 합니다.
스타일 LoRA (룩 & 필)
목표: 콘텐츠를 유연하게 유지하면서 시각적 스타일(필름 스톡, 애니메이션 룩, 회화적 등)을 부과. 동일한 룩을 공유하는 10–40개의 이미지 또는 클립을 사용 – 일관된 색상, 대비, 카메라 느낌 – 하지만 다양한 주제와 장면으로. 캡션은 스타일 단어에 중점을 두어야 합니다. 예: "유화, 두꺼운 임파스토, 따뜻한 오렌지 조명, 높은 대비", 정확한 객체를 열거하는 대신.
모션 / 카메라 LoRA
목표: Wan에게 시간적 동작(오빗, 팬, 돌리, 스프라이트 같은 루프 등)을 가르침. 타겟 모션을 보여주는 10–30개의 짧은 클립(~5초)을 사용하고, 이상적으로 다른 주제와 환경에서 동일한 종류의 모션. 캡션은 모션 키워드를 명시적으로 언급해야 합니다. 예: "피사체 주위 180도 오빗", "횡스크롤 공격 애니메이션", 또는 "캐릭터에 대한 느린 돌리 줌", 모델이 어떤 동작에 관심이 있는지 알 수 있도록.

4.2 해상도와 종횡비

Wan 2.2 14B T2V는 정사각형에 가까운 1024×1024 클래스 프레임용으로 구축되었습니다. 공식 예제는 1024² 또는 가까운 변형을 사용하며, 낮은 해상도를 위한 내부 버킷팅이 있습니다.

Wan 2.2 T2V 14B 텍스트-비디오 LoRA 훈련의 경우:

24GB GPU에서는 512 또는 768 해상도 버킷을 선호하고 VRAM을 절약하기 위해 DATASETS 패널에서 1024를 선택 해제합니다.
48GB+ GPU 또는 H100/H200에서는 768과 1024 버킷을 모두 활성화하여 특히 캐릭터 및 스타일 LoRA에서 더 선명한 결과를 얻을 수 있습니다.

AI Toolkit은 비디오를 다운스케일하고 선택한 해상도로 버킷팅합니다; 소스 클립이 고품질이고 큰 검은 바로 레터박스되지 않았는지 확인하는 것이 중요합니다.

4.3 비디오 클립 길이와 Num Frames

Wan 2.2는 대략 16 FPS에서 5초 클립으로 사전 훈련되어, 훈련 시퀀스당 약 81 프레임(4k+1 패턴을 따름)을 제공합니다.

DATASETS 패널의 AI Toolkit의 Num Frames 필드는 각 비디오에서 샘플링되는 프레임 수를 제어합니다:

이미지의 경우 Num Frames = 1 설정 – 각 이미지는 1프레임 비디오로 처리됩니다.
비디오의 경우 좋은 선택은:

81 – "완전한 충실도"; 사전 훈련과 일치하지만 VRAM을 매우 많이 소비합니다.
41 – 프레임의 약 절반과 대략 절반의 VRAM/시간; 더 큰 GPU를 위한 강력한 중간점.
33 – 512 px 해상도와 결합한 24GB 로컬 훈련을 위한 공격적이고 VRAM 친화적인 옵션.

프레임은 각 클립 전체에서 균등하게 샘플링되므로, 모든 비디오가 정확히 5초일 필요는 없습니다. 중요한 것은 유용한 모션이 클립을 차지하는 것입니다: 긴 정적 인트로/아웃트로를 잘라내어 샘플링된 거의 모든 프레임에 의미 있는 모션 또는 아이덴티티 신호가 포함되도록 합니다.

프레임 수는 일반적으로 Wan 특정 "4n+1" 패턴(예: 9, 13, 17, 21, 33, 41, 81)을 따르도록 선택됩니다. 이러한 값을 고수하면 모델의 내부 윈도우잉과 일치하기 때문에 더 안정적인 시간적 동작을 생성하는 경향이 있습니다.

4.4 캡션 전략

클립별 캡션은 단순한 이미지 LoRA보다 비디오 LoRA에서 더 중요합니다, 특히 모션과 스타일에서.

이미지 / 캐릭터 LoRA의 경우, 10–30개의 이미지 또는 짧은 클립을 목표로 하고, 각각 트리거와 설명을 포함하는 캡션을 추가합니다. 예:
"[trigger]의 초상화, 미디엄 샷, 스튜디오 조명, 가죽 재킷 착용, 35mm 렌즈".

훈련 시 AI Toolkit은 이 패턴을 사용하면 [trigger]를 JOB 패널의 실제 Trigger Word로 대체합니다.
모션 LoRA의 경우, 모션 단어가 클립 간에 일관되게 나타나는지 확인합니다. 예:
"중세 성 주위 180도 오빗",

"검을 휘두르는 테디베어의 횡스크롤 공격 애니메이션".

지금은 각 이미지 또는 클립에 좋은 파일별 .txt 캡션이 있거나 DATASETS 패널에서 유용한 Default Caption을 설정할 것인지 확인하세요. TRAINING 섹션에서 캡션 기반 모드(이 캡션을 직접 사용)로 실행할지 또는 높은 VRAM 설정에서 Trigger Word 전용 모드로 실행할지 결정합니다.

5. 단계별: AI Toolkit에서 Wan 2.2 T2V 14B LoRA 훈련

이 섹션에서는 Wan 2.2 T2V 14B에서 비디오 LoRA를 위해 AI Toolkit UI를 패널별로 살펴봅니다.

이 안내의 기본 가정:

512 또는 768 해상도에서 비디오 LoRA(Num Frames = 33)를 훈련 중.
24–32GB GPU를 사용 중이거나 Low VRAM 트릭을 사용하여 RunComfy에서 동등한 설정을 실행 중.
데이터셋은 비디오 + 캡션을 포함하는 하나의 Wan T2V 데이터셋 폴더.

나중에 H100/H200과 더 높은 VRAM 계층에 대한 노트를 추가합니다.

5.1 JOB 패널 – 기본 작업 메타데이터

나중에 작업을 찾을 수 있도록 고수준 메타데이터를 설정합니다:

Job Name – wan22_t2v_char_zxq_v1 또는 wan22_t2v_style_neon_v1과 같은 간결한 이름. 모델, 작업, 짧은 식별자를 포함.
Output Directory – AI Toolkit이 체크포인트와 로그를 쓸 위치. 예: ./output/wan22_t2v_char_zxq_v1.
GPU ID – 로컬 설치에서는 물리적 GPU를 가리킵니다. RunComfy 클라우드 AI Toolkit에서는 기본값으로 둘 수 있습니다; 실제 머신 유형(H100/H200)은 Training Queue에서 나중에 선택됩니다.
Trigger Word (선택사항) – 트리거 워드 워크플로우를 사용할 계획이라면 토큰(예: zxqperson)으로 설정합니다. 캡션에서 [trigger]라고 쓰면 AI Toolkit이 로드 시 Trigger Word로 대체합니다. 기존 토큰과 충돌하지 않도록 짧고 고유하게 유지합니다.

5.2 MODEL 패널 – Wan 2.2 T2V 베이스 모델

ComfyUI Wan2.2 T2V LoRA를 위한 베이스 모델과 VRAM 관련 옵션을 구성합니다:

Model Architecture – Wan 2.2 T2V 14B(또는 빌드의 동등한 레이블)를 선택.
Name or Path – 베이스 체크포인트의 Hugging Face model id(repo id). 예: ai-toolkit/Wan2.2-T2V-A14B-Diffusers-bf16.
대부분의 AI Toolkit 빌드에서 Wan 2.2 T2V 14B를 선택하면 이 값이 자동 입력됩니다; 변경할 이유가 없으면 그대로 둡니다.

오버라이드하는 경우 Hugging Face repo id 형식을 사용: org-or-user/model-name(선택적으로 org-or-user/model-name@revision).
Low VRAM – 24–32GB GPU에서는 Low VRAM = ON으로 설정하여 AI Toolkit이 훈련을 가능하게 하는 추가 체크포인팅/오프로드 전략을 사용할 수 있도록 합니다. H100/H200 또는 48GB+에서는 최대 속도를 위해 Low VRAM = OFF로 설정할 수 있습니다.
Layer Offloading – 빌드가 이것을 노출하면 24GB+에서 OFF로 둘 수 있습니다, 여전히 OOM이 발생하지 않는 한. 매우 타이트한 설정에서는 일부 레이어를 CPU RAM으로 스트리밍할 수 있지만, 눈에 띄게 느린 단계가 됩니다.

5.3 QUANTIZATION 패널 – 4비트 ARA + float8 텍스트 인코더

양자화는 Wan 2.2 T2V 14B 텍스트-비디오 LoRA 훈련을 소비자 하드웨어에서 실용적으로 만드는 것입니다.

Transformer – 4bit with ARA로 설정. 이것은 Accuracy Recovery Adapter가 있는 4비트 양자화입니다; VRAM 사용량은 순수 4비트에 가깝지만 품질은 bf16에 훨씬 가깝습니다.
Text Encoder – float8(또는 qfloat8)로 설정. 이것은 LoRA 훈련 품질에 무시할 수 있는 영향으로 텍스트 인코더의 VRAM과 계산을 줄입니다.

24–32GB GPU에서 이 조합은 비디오 LoRA 훈련이 가능한 주된 이유입니다.

H100/H200 / 48GB+ GPU에서:

4bit with ARA를 유지하고 추가 VRAM을 더 높은 해상도, 더 많은 프레임, 또는 더 높은 LoRA 랭크에 사용할 수 있으며, 종종 더 나은 수익을 제공합니다.
더 간단한 스택을 선호하면 Text Encoder를 float8로 유지하면서 Transformer를 순수 float8 옵션으로 전환할 수 있습니다. 모든 곳에서 완전히 bf16으로 돌아가는 것은 일반적으로 필요하지 않습니다.

5.4 MULTISTAGE 패널 – 하이노이즈 및 로우노이즈 전문가 훈련

이 패널은 듀얼 전문가 아키텍처(하이노이즈 vs 로우노이즈 트랜스포머)와 훈련 단계가 그들 사이에 어떻게 분할되는지를 노출합니다.

Stages to Train – 대부분의 LoRA의 경우 High Noise = ON 및 Low Noise = ON으로 설정. 이것은 훈련 중에 두 전문가가 모두 업데이트되어 LoRA가 초기 구성/모션과 후반 디테일/아이덴티티 모두에 영향을 미친다는 것을 의미합니다.
Switch Every – Low VRAM = ON인 24–32GB GPU에서는 Switch Every = 10으로 설정. 이것은 AI Toolkit에게 다른 전문가로 전환하기 전에 하나의 전문가에서 몇 단계를 보낼지 알려줍니다. 예를 들어, Steps = 3000인 경우:

단계 1–10 → 하이노이즈 전문가
단계 11–20 → 로우노이즈 전문가
…훈련 끝까지 반복.

이것이 중요한 이유:

Low VRAM = ON에서 AI Toolkit은 일반적으로 한 번에 하나의 전문가만 GPU 메모리에 유지합니다. 전환할 때 ~14B 파라미터 트랜스포머를 언로드하고 다른 것을 로드합니다.
Switch Every = 1로 설정하면 모든 단계에서 거대한 가중치의 로드/언로드를 강제하며, 이는 극도로 느립니다.
Switch Every = 10에서는 여전히 대략 50/50 하이/로우 노이즈 커버리지를 얻지만, 각 단계가 아닌 10단계마다 전환하므로 훨씬 효율적입니다.

LoRA 유형 힌트:

캐릭터 또는 스타일 비디오 LoRA의 경우 High Noise와 Low Noise 모두 ON으로 유지; 구성과 디테일 모두 중요합니다.
모션 / 카메라 LoRA의 경우 하이노이즈는 전역 모션에 중요합니다. 두 단계를 모두 ON으로 시작하고 매우 타겟화된 동작을 원하면 나중에 하이노이즈 전용 훈련을 실험합니다.

H100/H200에서:

Switch Every = 1로 설정할 수 있습니다, 두 전문가가 VRAM에 상주할 수 있고 전환 오버헤드가 무시할 수 있기 때문입니다.

5.5 TARGET 패널 – LoRA 랭크 및 용량

이 패널은 어떤 유형의 어댑터를 훈련하고 얼마나 많은 용량을 가지는지 제어합니다.

Target Type – LoRA로 설정.
Linear Rank – Wan 2.2 T2V의 좋은 기본값은 16:

랭크 16은 LoRA를 작고 빠르게 훈련하도록 유지합니다.
512–768 해상도의 캐릭터, 스타일, 모션 LoRA에는 일반적으로 충분합니다.

매우 다양한 데이터셋(많은 주제, 스타일 또는 모션)이 있고 충분한 VRAM이 있는 경우:

Linear Rank를 32로 높여 LoRA에 더 많은 표현력을 줄 수 있습니다.
그만큼의 용량이 필요하다는 것을 알지 않는 한 64를 초과하지 마세요; 매우 높은 랭크는 오버피팅하고 LoRA를 제어하기 어렵게 만들 수 있습니다.

H100/H200에서 랭크 16에서 시작하여 복잡한 올인원 LoRA의 경우 32까지 올리는 것이 합리적인 범위입니다.

5.6 SAVE 패널 – 체크포인트 스케줄

훈련 중 LoRA 체크포인트를 저장하는 빈도를 구성합니다:

Data Type – BF16으로 설정. 이것은 Wan 2.2가 일반적으로 실행되는 방식과 일치하며 LoRA 가중치에 안정적입니다.
Save Every – 250 단계로 설정. 3000단계 실행의 경우 훈련 전체에 12개의 체크포인트가 분산됩니다.
Max Step Saves to Keep – 4 또는 6으로 설정하여 마지막 것보다 실제로 더 좋아 보일 수 있는 초기 체크포인트를 잃지 않도록 합니다.

실제로 맨 마지막 체크포인트를 사용하는 경우는 드뭅니다; 많은 사용자가 샘플을 비교한 후 2000–3000 단계 범위의 것을 선호합니다.

H100/H200에서:

매우 길게 실행하는 경우(예: 큰 데이터셋에 대해 5000–6000 단계), Save Every = 250을 유지하고 Max Step Saves to Keep을 늘리거나 체크포인트 수를 제한하기 위해 Save Every = 500으로 설정합니다.

5.7 TRAINING 패널 – 코어 하이퍼파라미터 및 텍스트 인코더 모드

이제 코어 훈련 하이퍼파라미터를 설정한 다음 텍스트 인코더와 선택적 정규화를 처리하는 방법을 선택합니다.

5.7.1 코어 훈련 설정

Wan 2.2 T2V의 범용 비디오 LoRA의 경우:

Batch Size – 24–32GB에서는 Batch Size = 1로 설정. T2V의 경우 이것만으로도 이미 많은 VRAM을 소비합니다. H100/H200에서는 충분한 여유가 있으면 2로 높일 수 있습니다.
Gradient Accumulation – 1로 시작. VRAM이 타이트하지만 더 큰 유효 배치를 원하면 2–4로 설정할 수 있습니다; 유효 배치 크기는 Batch Size × Gradient Accumulation입니다.
Steps – 일반적인 범위:

~10–20 클립의 작고 집중된 모션 LoRA: 1500–2500 단계.
20–50 클립의 캐릭터 또는 스타일 LoRA: 2000–3000 단계.
매우 큰 데이터셋은 더 높아질 수 있지만, 단순히 더 많은 단계를 추가하는 것보다 데이터 품질을 개선하는 것이 더 나은 경우가 많습니다.

Optimizer – Optimizer = AdamW8Bit으로 설정. 8비트 Adam은 표준 AdamW와 유사하게 동작하면서 VRAM을 크게 줄입니다.
Learning Rate – 강력한 기본값으로 Learning Rate = 0.0001로 설정. 훈련이 불안정해 보이거나 샘플이 단계 사이에서 격렬하게 진동하면 0.00005로 낮춥니다. 훈련이 일찍 정체되는 것 같으면 Learning Rate를 높이는 것보다 단계를 늘리는 것을 고려합니다.
Loss Type – Mean Squared Error (MSE)를 유지. 이것은 Wan의 원래 훈련 손실과 일치하며 표준 선택입니다.

Wan 2.2는 flow-matching noise scheduler를 사용하며, AI Toolkit이 내부적으로 처리합니다. SAMPLE 패널에서도 FlowMatch 호환 샘플러를 사용하여 미리보기가 훈련 설정과 일치하도록 해야 합니다.

5.7.2 Timestep Type과 Timestep Bias – LoRA가 집중하는 곳

이 두 필드는 훈련 중 어떤 타임스텝이 강조되고 업데이트가 확산 체인 전체에 어떻게 분산되는지 제어합니다.

Timestep Type – 타임스텝 분포를 제어:

Linear – 스케줄 전체에서 타임스텝을 균일하게 샘플링; 중립적이고 안전한 기본값.
Sigmoid / 기타 형태 패턴 – 중간/낮은 노이즈 쪽으로 훈련을 편향; 캐릭터와 상세한 스타일에 도움이 될 때가 있음.
Shift / Weighted – 노이즈 스케줄의 특정 영역을 더 강조, 종종 Timestep Bias와 결합.

Timestep Bias – AI Toolkit에게 궤적의 어느 부분을 강조할지 알려줌:

Balanced – 업데이트가 하이노이즈와 로우노이즈 사이에 대략 균등하게 분산.
Favor High Noise – 초기의 노이즈 많은 단계로 편향, 구성, 레이아웃, 전역 모션 강조.
Favor Low Noise – 후반의 깨끗한 단계로 편향, 아이덴티티, 텍스처, 마이크로 디테일 강조.

Wan 2.2 LoRA 학습 방법의 권장 조합:

모션 / 카메라 LoRA – 안전한 기본값으로 Timestep Type = Linear 및 Timestep Bias = Balanced 설정.
카메라 경로를 정말 고정하는 순수한 모션 LoRA를 원하면 Timestep Bias = Favor High Noise로 더 밀 수 있습니다, 하이노이즈 전문가가 Wan 2.2가 레이아웃과 모션을 결정하는 곳이기 때문입니다.
스타일 LoRA – Timestep Type = Linear 또는 Shift 및 Timestep Bias = Favor High Noise 설정.
스타일, 컬러 그레이딩, "필름 스톡"은 주로 궤적의 하이노이즈/초기 부분에 존재하므로, 하이노이즈를 선호하면 LoRA가 전역 톤을 다시 쓰면서 후반 단계 디테일은 주로 베이스 모델에 맡길 수 있습니다.
캐릭터 LoRA – Timestep Type = Sigmoid(또는 Linear) 및 Timestep Bias = Balanced 설정.
아이덴티티와 유사성은 로우노이즈 전문가에 더 의존하지만, 구성과 조명에도 약간의 영향이 필요합니다. 매우 아이덴티티 중심의 LoRA의 경우 로우노이즈 단계를 약간 선호하는 실험을 할 수 있지만, Balanced가 가장 안전한 기본값입니다.

5.7.3 EMA (지수 이동 평균)

Use EMA – LoRA의 경우 EMA는 선택 사항이며 추가 오버헤드를 추가합니다. 대부분의 사용자는 Wan 2.2 LoRA에서 이것을 OFF로 두고 EMA는 전체 모델 훈련용으로 예약합니다. 더 부드러운 가중치를 앙상블하고 싶다는 것을 알지 않는 한 EMA를 무시해도 안전합니다.

5.7.4 텍스트 인코더 최적화 – 캡션 vs 트리거 워드 모드

이러한 토글은 텍스트 인코더가 로드된 상태로 유지되는지 여부와 임베딩이 캐시되는지 여부를 제어합니다.

Unload TE – ON으로 설정하면 AI Toolkit은 단계 사이에 VRAM에서 텍스트 인코더를 제거하고 정적 임베딩(예: Trigger Word)에 의존하며, 훈련 중 동적 캡션을 효과적으로 끕니다. 이것은 VRAM을 절약하지만 캡션이 각 단계에서 다시 인코딩되지 않음을 의미합니다.
Cache Text Embeddings – ON으로 설정하면 AI Toolkit은 캡션당 텍스트 인코더를 한 번 실행하고, 임베딩을 캐시한 다음 VRAM에서 텍스트 인코더를 안전하게 해제합니다. 이것은 제한된 VRAM에서의 캡션 기반 훈련에 매우 권장됩니다, 각 단계에서 다시 인코딩하는 것을 피하면서도 클립별 캡션을 사용하기 때문입니다.

일반적인 패턴:

24–32GB 캡션 기반 훈련의 경우 Cache Text Embeddings = ON으로 설정하고 Unload TE = OFF로 둡니다. 이것은 전체 캡션 정보로 효율적인 훈련을 제공합니다.
매우 높은 VRAM(H100/H200)에서의 트리거 워드 전용 훈련의 경우 Unload TE = ON으로 설정하고 전체 캡션 대신 단일 트리거 토큰에 의존할 수 있습니다.

5.7.5 Differential Output Preservation (DOP)

Differential Output Preservation은 LoRA가 베이스 모델의 순수 잔차 편집처럼 동작하도록 장려하는 선택적 정규화입니다:

AI Toolkit은 두 예측을 렌더링합니다:

베이스 모델(LoRA 없음)로 하나,
LoRA 활성화로 하나.

Trigger Word와 캡션을 통해 명시적으로 변경을 원하는 곳을 제외하고 이러한 출력 간의 차이에 페널티를 부과합니다.

핵심 필드:

Differential Output Preservation – 메인 스위치.
DOP Loss Multiplier – 정규화 손실의 강도.
DOP Preservation Class – person, scene, 또는 landscape와 같은 클래스 토큰으로 무엇을 보존해야 하는지 설명합니다.

사용법:

스타일 및 캐릭터 LoRA의 경우, DOP는 LoRA가 제어된 수정을 추가하면서 Wan의 우수한 베이스 리얼리즘을 유지하는 데 도움이 될 수 있습니다. 간단한 레시피:

Differential Output Preservation = ON
DOP Loss Multiplier = 1
DOP Preservation Class = 캐릭터 LoRA의 경우 person, 또는 넓은 스타일 LoRA의 경우 scene / landscape(가능한 경우).

모션 / 카메라 LoRA의 경우, 일반적으로 DOP가 필요하지 않습니다; 동작 변경이 이미 지역화되어 있고 DOP는 대략 계산을 두 배로 합니다.

중요한 호환성 참고:

DOP는 각 단계에서 프롬프트를 다시 작성하여 작동합니다(분기 중 하나에서 Trigger Word를 Preservation Class로 교환). 이 때문에 DOP는 텍스트 인코더가 각 단계에서 프롬프트를 다시 인코딩해야 하며, Cache Text Embeddings와 호환되지 않습니다.
DOP를 ON으로 설정하면:

JOB 패널에서 Trigger Word를 설정해야 하며,
텍스트 인코더가 활성 상태를 유지하고 각 단계에서 수정된 프롬프트를 다시 인코딩할 수 있도록 Cache Text Embeddings = OFF를 유지해야 합니다.

H100/H200에서 DOP의 추가 계산 비용은 일반적으로 고품질 캐릭터 및 스타일 LoRA에 허용됩니다.

5.8 ADVANCED 패널 – Differential Guidance (선택사항)

빌드가 다음을 포함하는 ADVANCED 패널을 노출하는 경우:

Do Differential Guidance
Differential Guidance Scale

이것을 AI Toolkit 특정 추가 트릭으로 취급할 수 있습니다:

Do Differential Guidance = ON을 Scale = 3으로 설정하면 모델에게 베이스와 LoRA 수정 예측 간의 차이에 더 집중하도록 지시합니다, DOP와 정신적으로 유사하지만 가이던스 항으로 구현됩니다.
이것은 타겟화된 편집(예: "네온 아웃라인 스타일" 또는 "오빗 카메라 동작")이 Learning Rate를 올리지 않고 더 빨리 수렴하게 할 수 있습니다.
훈련 초기에 샘플이 불안정하거나 너무 선명해 보이면 스케일을 2로 낮출 수 있습니다. 학습이 매우 느리게 느껴지면 4를 실험할 수 있습니다.

대부분의 사용자는 첫 번째 Wan 2.2 LoRA에서 이것을 OFF로 안전하게 두고 익숙해지면 실험할 수 있습니다.

5.9 DATASETS 패널 – Wan T2V 데이터셋 연결

각 Dataset 블록은 내부 datasets: 목록의 하나의 항목에 해당합니다.

단일 Wan T2V 데이터셋의 경우:

Target Dataset – 비디오와 캡션을 포함하는 Wan T2V 데이터셋 폴더(예: wan_orbit_clips 또는 wan_char_zxq_clips)를 선택.
LoRA Weight – 여러 데이터셋을 혼합하고 재균형하지 않는 한 1로 설정.
Default Caption – 개별 클립에 .txt 캡션이 없을 때만 사용. 예:

캐릭터/스타일: "zxqperson의 초상화, zxqstyle, 시네마틱 조명".
모션: "피사체 주위 360도 오빗, zxq_orbit".

Caption Dropout Rate – 0.05 같은 값은 모델이 문구를 오버피팅하는 대신 시각적 요소에도 주의를 기울이도록 샘플의 5%에서 캡션을 드롭합니다.
Cache Text Embeddings에 크게 의존하는 경우 여기서 보수적으로; 캡션 드롭아웃은 텍스트 인코더가 활성화되어 있고 캡션이 변할 수 있을 때 가장 효과적입니다.
Settings → Cache Latents – 비디오 LoRA의 경우 일반적으로 OFF입니다, 많은 프레임에 대한 VAE 잠재를 캐싱하는 것이 디스크와 RAM에 무겁기 때문입니다. 대신 소스 비디오를 고품질로 유지합니다.
Settings → Is Regularization – 전용 정규화 데이터셋이 없는 한 OFF로 둡니다.
Flipping (Flip X / Flip Y) – 대부분의 비디오 LoRA의 경우 둘 다 OFF로 유지:

수평 뒤집기는 좌/우 모션 의미론과 캐릭터 비대칭성을 깨뜨릴 수 있음,
수직 뒤집기는 실제 세계 영상에 거의 적절하지 않음.

Resolutions – AI Toolkit이 버킷팅할 해상도를 활성화:

24–32GB에서는 512, VRAM이 허용하면 선택적으로 768을 활성화하고 1024+를 비활성화합니다.
H100/H200에서는 모델의 선호 작동점에 맞추기 위해 768과 1024를 활성화할 수 있습니다.

Num Frames – 기본 24–32GB 비디오 LoRA 레시피의 경우 Num Frames = 33으로 설정.
33은 4n+1 규칙(4·8+1)을 따르며, 명확한 시간적 패턴을 제공하면서 전체 81 프레임 훈련 대비 비용을 대략 절반으로 줄입니다.

AI Toolkit은 각 클립의 지속 시간 전체에서 33 프레임을 균등하게 샘플링합니다; 관심 있는 모션이 클립의 대부분을 차지하도록 클립을 트리밍하기만 하면 됩니다.

H100/H200에서는 Num Frames를 41 또는 81로 밀고, 768–1024 px 버킷과 랭크 16–32를 결합하여 매우 강력한 장시퀀스 LoRA를 만들 수 있습니다.

5.10 SAMPLE 패널 – LoRA 미리보기

SAMPLE 패널은 훈련 중 또는 후에 미리보기 비디오를 생성하기 위한 것입니다.

유용한 설정:

Num Frames – 동작이 예측 가능하도록 훈련 값(예: 33 또는 41)과 대략 일치시킵니다.
Sampler / Scheduler – 모델의 노이즈 스케줄과 일치하는 FlowMatch 호환 샘플러를 사용.
Prompt / Negative Prompt – 훈련한 것과 동일한 Trigger Word와 개념을 사용하여 LoRA가 올바른 것을 하고 있는지 빠르게 판단할 수 있도록 합니다.
Guidance Scale – 훈련 미리보기 중에는 적당한 값(예: 2–4)이 괜찮습니다; 나중에 일반 추론 워크플로우에서 다른 값을 사용할 수 있음을 기억하세요.

여러 체크포인트(예: 250–500 단계마다)에서 샘플을 생성하고 시각적으로 강도와 안정성의 균형이 맞는 것을 유지합니다.

6. Wan 2.2 T2V 14B LoRA 훈련 설정

이 섹션은 세 가지 주요 LoRA 유형에 대한 실용적인 레시피를 요약합니다.

6.1 캐릭터 비디오 LoRA (아이덴티티 / 아바타)

목표: 많은 프롬프트와 장면에서 캐릭터의 얼굴, 몸, 일반적인 아이덴티티를 보존.

데이터셋:

캐릭터의 10–30개의 짧은 클립 또는 이미지, 다양한 포즈, 배경, 조명으로.
캡션에는 Trigger Word와 클래스를 포함. 예:
"[trigger]의 초상화, 젊은 여성, 캐주얼 의상, 스튜디오 조명".

Wan 2.2 T2V 14B 텍스트-비디오 LoRA 훈련의 핵심 설정:

Num Frames – 24GB에서 33; H100/H200에서 41 또는 81.
Resolutions – 512 또는 768; 높은 VRAM에서 1024 추가.
Multi-stage – High Noise = ON, Low Noise = ON, Switch Every = 10(로컬) 또는 1(클라우드).
Timestep Type / Bias – Linear(또는 Sigmoid)와 Balanced bias로, 구성과 로우노이즈 아이덴티티 디테일 모두 캡처.
Linear Rank – 16(24GB) 또는 16–32(H100/H200)로 더 미묘한 아이덴티티를 위해.
DOP – 베이스 리얼리즘을 보존하려는 캐릭터 LoRA에 선택적으로 활성화:

Differential Output Preservation = ON
DOP Loss Multiplier = 1
DOP Preservation Class = person
Cache Text Embeddings = OFF(DOP가 작동하려면 필요)

Steps – 2000–3000, 250–500 단계마다 샘플 확인.

6.2 스타일 비디오 LoRA (필름 룩 / 애니메이션 / 컬러 그레이드)

목표: 콘텐츠를 유연하게 유지하면서 강력한 시각적 스타일을 부과.

데이터셋:

다른 주제와 장면에서 동일한 스타일을 공유하는 10–40개의 이미지 또는 클립.
캡션은 정확한 객체가 아닌 룩(예: 필름 스톡, 브러시워크, 팔레트)을 설명.

Musubi Tuner Wan2.2 LoRA 훈련의 핵심 설정:

Num Frames – 대부분의 사용 사례에서 33–41; 큰 GPU에서 5초 클립에 81.
Resolutions – 24GB에서 512–768; 높은 VRAM에서 768–1024.
Multi-stage – High Noise = ON, Low Noise = ON, Switch Every = 10(로컬) 또는 1(클라우드).
Timestep Type / Bias – Linear 또는 Shift와 Timestep Bias = Favor High Noise로, 구성이 아직 유동적인 곳에서 LoRA가 전역 색상과 대비를 다시 쓸 수 있도록.
Linear Rank – 단순한 스타일에는 16; 복잡하고 시네마틱한 룩에는 16–32.
DOP – 베이스 리얼리즘을 보존하려는 스타일 LoRA에 권장:

Differential Output Preservation = ON
DOP Loss Multiplier = 1
DOP Preservation Class = scene / landscape 또는 유사
Cache Text Embeddings = OFF

Steps – 1500–2500, 스타일이 강하지만 과하지 않을 때 중지.

6.3 모션 / 카메라 LoRA (오빗, 팬, 돌리 무브)

목표: 많은 주제에 적용할 수 있는 새로운 카메라 무브 또는 모션 패턴을 학습.

데이터셋:

각각 타겟 모션을 보여주는 10–30개의 3–8초 클립.
모션을 일관되게 유지(예: 모두 오빗 180 또는 모두 횡스크롤), 하지만 주제와 장면을 다양화.
캡션은 모션 키워드를 명시적으로 명시("피사체 주위 180도 오빗", "횡스크롤 공격 애니메이션").

ComfyUI Wan2.2 T2V LoRA의 핵심 설정:

Num Frames – 24GB에서 33, 더 큰 GPU에서 41–81.
Resolutions – 512(VRAM이 허용하면 768도).
Multi-stage – High Noise = ON, Low Noise = ON, Switch Every = 10(로컬) 또는 1(클라우드).
Timestep Type / Bias – Linear와 Timestep Bias = Balanced로, 초기 구성과 후반 정제 모두 업데이트를 보도록; 모션은 본질적으로 하이노이즈에 의존.
Linear Rank – 랭크 16이면 일반적으로 충분; 모션은 작은 디테일보다 동작에 관한 것.
DOP – 일반적으로 OFF 유지; 모션은 이미 지역화되어 있고 DOP는 포워드 패스를 두 배로 합니다.
Steps – 1500–2500; 모션이 훈련 클립을 넘어 일반화되는지 확인하기 위해 미리보기를 관찰.

7. Wan T2V LoRA 내보내기 및 사용

훈련이 완료되면 Wan 2.2 T2V 14B LoRA를 두 가지 간단한 방법으로 사용할 수 있습니다:

Run LoRA – Wan 2.2 T2V 14B Run LoRA page를 여세요. 이 베이스 모델 inference 페이지에서 RunComfy에서 학습한 LoRA asset을 선택하거나 AI Toolkit으로 학습한 LoRA 파일을 import한 뒤, playground 또는 API로 inference를 실행할 수 있습니다. RunComfy는 사용자의 training config에 있는 동일한 base model과 AI Toolkit 전체 pipeline definition을 그대로 사용하므로, training에서 보던 결과가 inference에서도 그대로 나오며, training/inference 파라미터 정합을 통해 샘플과 추론 결과의 일관성을 특히 잘 보장합니다.
ComfyUI 워크플로우 – ComfyUI 인스턴스를 시작하고 자체 워크플로우를 구축하고, LoRA를 추가하고, 더 세부적인 제어를 위해 LoRA 가중치 및 기타 설정을 미세 조정.

OstrisAI-Toolkit

New Training Job

Job

Model

Quantization

Target

Save

Training

Advanced

Datasets

Dataset 1

Sample

목차

1. LoRA 훈련을 위한 Wan 2.2 T2V 14B 개요

듀얼 트랜스포머 "하이노이즈 / 로우노이즈" 설계

2. Wan 2.2 T2V LoRA를 어디서 훈련할 것인가 (로컬 vs 클라우드)

옵션 A – 로컬 AI Toolkit (자신의 GPU)

옵션 B – RunComfy의 클라우드 AI Toolkit (H100 / H200)

3. Wan 2.2 T2V LoRA의 하드웨어 및 VRAM 기대치

4. Wan 2.2 T2V LoRA 데이터셋 구축

4.1 훈련할 LoRA 유형 결정

4.2 해상도와 종횡비

4.3 비디오 클립 길이와 Num Frames

4.4 캡션 전략

5. 단계별: AI Toolkit에서 Wan 2.2 T2V 14B LoRA 훈련

5.1 JOB 패널 – 기본 작업 메타데이터

5.2 MODEL 패널 – Wan 2.2 T2V 베이스 모델

5.3 QUANTIZATION 패널 – 4비트 ARA + float8 텍스트 인코더

5.4 MULTISTAGE 패널 – 하이노이즈 및 로우노이즈 전문가 훈련

5.5 TARGET 패널 – LoRA 랭크 및 용량

5.6 SAVE 패널 – 체크포인트 스케줄

5.7 TRAINING 패널 – 코어 하이퍼파라미터 및 텍스트 인코더 모드

5.7.1 코어 훈련 설정

5.7.2 Timestep Type과 Timestep Bias – LoRA가 집중하는 곳

5.7.3 EMA (지수 이동 평균)

5.7.4 텍스트 인코더 최적화 – 캡션 vs 트리거 워드 모드

5.7.5 Differential Output Preservation (DOP)

5.8 ADVANCED 패널 – Differential Guidance (선택사항)

5.9 DATASETS 패널 – Wan T2V 데이터셋 연결

5.10 SAMPLE 패널 – LoRA 미리보기

6. Wan 2.2 T2V 14B LoRA 훈련 설정

6.1 캐릭터 비디오 LoRA (아이덴티티 / 아바타)

6.2 스타일 비디오 LoRA (필름 룩 / 애니메이션 / 컬러 그레이드)

6.3 모션 / 카메라 LoRA (오빗, 팬, 돌리 무브)

7. Wan T2V LoRA 내보내기 및 사용

기타 AI Toolkit LoRA 훈련 가이드