AI Toolkit LoRA Training Guides

Ostris AI Toolkit로 Wan 2.2 I2V 14B Image-to-Video LoRA 학습하기

이 가이드는 Ostris AI Toolkit에서 Wan 2.2 I2V 14B(이미지→비디오) LoRA를 학습하는 방법을 단계별로 설명합니다. Wan의 high-noise/low-noise experts 구조, 모션·스타일·캐릭터 클립 데이터셋 설계, Multi-stage/Num Frames/해상도 버킷/양자화 설정을 튜닝해 24GB 로컬 GPU 또는 H100/H200 환경에서 안정적으로 학습을 돌리는 방법을 다룹니다.

Train Diffusion Models with Ostris AI Toolkit

가로로 스크롤하여 전체 양식 보기

Ostris AI ToolkitOstrisAI-Toolkit

New Training Job

Job

Model

Quantization

Target

Save

Training

Datasets

Dataset 1

Sample

Wan 2.2 I2V 14B 이미지→비디오 LoRA 학습은 단일 이미지를 제어 가능한 모션, 카메라 움직임, 시간적 일관성을 갖춘 5초 클립으로 변환합니다. 이 가이드를 마치면 다음을 수행할 수 있습니다:

  • 모션, 스타일, 캐릭터 사용 사례에 맞는 Wan I2V LoRA 데이터셋 설계 (실제로 필요한 클립 수 파악 포함)
  • Wan의 듀얼 high-noise / low-noise 전문가, 타임스텝 설정, Num Frames, 해상도가 학습 중 어떻게 상호작용하는지 이해
  • 24GB에서 안정적인 실행과 더 큰 H100/H200 클라우드 설정을 위한 AI Toolkit 패널(JOB, MODEL, QUANTIZATION, MULTISTAGE, TARGET, TRAINING, DATASETS, SAMPLE) 구성
이 글은 AI Toolkit LoRA 학습 시리즈의 일부입니다. Ostris AI Toolkit이 처음이시라면 이 가이드를 시작하기 전에 AI Toolkit LoRA 학습 개요를 먼저 읽어보세요.

목차


1. Wan 2.2 I2V 14B의 특별한 점은?

Wan 2.2 I2V 14B ("A14B")는 Wan 2.2이미지→비디오 변형입니다. 아키텍처적으로 듀얼 스테이지 Mixture-of-Experts (MoE) 트랜스포머입니다. 14B 파라미터 트랜스포머가 2개 있습니다. high-noise 트랜스포머는 초기의 매우 노이즈가 많은 타임스텝을 처리하며 전역 구성, 모션 궤적, 카메라 움직임을 담당합니다. low-noise 트랜스포머는 후반의 깨끗한 타임스텝을 처리하며 세부 사항, 아이덴티티, 텍스처를 담당합니다.

추론 시 파이프라인은 노이즈 스케줄의 약 875/1000 경계에서 타임스텝을 분할하여 high-noise 또는 low-noise 트랜스포머로 라우팅합니다. 실제로 각 전문가는 디노이징 프로세스의 약 절반을 처리합니다. Wan 2.2 I2V는 16 FPS에서 최대 81 프레임을 생성하며, 이는 약 5초의 비디오입니다.

Wan 2.2 I2V 14B 이미지→비디오 LoRA 학습에서 이는 세 가지 중요한 결과를 가져옵니다. 하나 또는 두 스테이지 모두 학습을 선택할 수 있습니다. 구성과 모션(high noise) 또는 아이덴티티와 디테일(low noise) 방향으로 학습을 편향시킬 수 있습니다. 그리고 프레임 시퀀스를 처리하기 때문에 프레임 수, 해상도, VRAM, 양자화/오프로딩 설정이 이미지 전용 모델보다 훨씬 더 중요합니다.

AI Toolkit은 주로 MULTISTAGE, TRAINING, TARGET, DATASETS 패널을 통해 이러한 제어를 노출합니다.


2. WAN 2.2 로라 훈련 실행 환경

이 Wan 2.2 I2V LoRA 학습 워크플로우는 RunComfy의 클라우드 AI Toolkit 또는 로컬 AI Toolkit 설치에서 실행할 수 있습니다. UI와 패널은 동일하며 하드웨어만 변경됩니다.

2.1 RunComfy 클라우드 AI Toolkit (첫 실행에 권장)

CUDA, 드라이버 또는 대규모 모델 다운로드를 관리하고 싶지 않다면 RunComfy의 클라우드 AI Toolkit을 사용하세요:

👉 RunComfy AI Toolkit trainer

이 페이지에서 브라우저에 사전 설치된 AI Toolkit UI를 얻을 수 있습니다. 데이터셋을 업로드하고, 이 가이드와 정확히 동일하게 작업을 구성하고, H100 (80 GB) 또는 H200 (141 GB) GPU에서 학습을 실행할 수 있습니다. 로컬 설정 없이 튜토리얼을 안정적으로 재현하는 가장 쉬운 방법입니다.


2.2 로컬 AI Toolkit

로컬에서 실행하려면: README를 따라 AI Toolkit 저장소를 설치하고 (학습용 Python + PyTorch와 UI용 Node), UI를 실행합니다 (ui/에서 npm run build_and_start). http://localhost:8675를 열면 여기 스크린샷과 설명과 동일한 패널이 표시됩니다.


3. Wan I2V LoRA 데이터셋 설계

Wan 2.2 I2V는 비디오 클립 + 캡션 쌍으로 학습됩니다. 각 학습 샘플은 프레임 시퀀스와 텍스트입니다. AI Toolkit에서는 모든 클립을 수동으로 같은 길이로 자를 필요가 없습니다. 대신 DATASETS 패널에서 Num Frames를 구성하면 데이터 로더가 각 비디오에서 해당 프레임 수를 균등하게 샘플링하여 다른 길이의 클립을 자동으로 처리합니다.

3.1 어떤 유형의 LoRA를 학습할지 결정

하이퍼파라미터 설정 방법은 목표에 크게 의존합니다:

  • 모션/카메라 LoRA는 "피사체 주위 360도 궤도", "느린 돌리 줌", "핸드헬드 흔들림" 또는 특정 액션 비트와 같은 패턴에 초점을 맞춥니다.
  • 스타일 LoRA는 Wan의 기본 모션과 장면 구성을 유지하면서 비디오를 특정 필름 스톡, 애니메이션 스타일 또는 회화적 룩처럼 보이게 합니다.
  • 캐릭터 LoRA는 많은 장면과 모션에 걸쳐 특정 캐릭터 또는 얼굴을 일관되게 유지하려고 합니다.

Wan 2.2 I2V는 세 가지 모두 수행할 수 있습니다. 모션 LoRA는 high-noise 스테이지에 더 의존하고, 스타일과 캐릭터 LoRA는 low-noise 스테이지와 매우 일관된 비주얼에 더 의존합니다.


3.2 비디오 클립과 크롭핑

GIF가 아닌 실제 비디오 클립(.mp4, .mov 등)을 사용하세요. 클립 길이는 다양할 수 있습니다(예: 5-30초). AI Toolkit은 Num Frames 설정에 따라 각 클립을 따라 학습 프레임을 균등하게 샘플링합니다.

항상 수동으로 해야 할 한 가지는 관심 있는 모션이 빠르게 시작되고 처음이나 끝에 많은 "서 있는 시간"이 없도록 각 클립을 크롭하고 트림하는 것입니다. 특히 모션 LoRA의 경우 모션이 거의 전체 클립을 차지하기를 원합니다 — 예를 들어 전체 궤도, 전체 돌리 이동 또는 전체 제스처.


3.3 몇 개의 클립이 필요한가요?

대략적인 기준으로:

  • 단일 유형의 카메라 움직임을 가르치는 간단한 모션 LoRA는 일반적으로 대상 모션이 매우 명확하고 프레임의 대부분을 차지하는 10-30개의 짧은 클립(~3-8초)으로 잘 학습됩니다.
  • 스타일 LoRA는 일반적으로 다른 장면, 조명, 피사체를 다루지만 모두 동일한 룩과 컬러 트리트먼트를 공유하는 10-40개의 이미지 또는 클립이 필요합니다.
  • I2V의 캐릭터 LoRA는 이미지 LoRA와 더 유사하게 동작합니다. 최소한 다양한 포즈, 스케일, 각도, 배경에서 같은 캐릭터의 10-30개의 짧은 클립을 목표로 하세요. 20-40개 클립에 편하게 도달할 수 있다면 유사성과 견고성이 일반적으로 향상됩니다.

3.4 I2V 클립 캡션

각 비디오 파일은 선택적으로 같은 기본 이름의 .txt 캡션을 가질 수 있습니다(예: castle_orbit.mp4castle_orbit.txt). AI Toolkit은 클립에 파일별 캡션이 없을 때 사용되는 Default Caption도 지원합니다.

좋은 캡션 패턴:

  • 모션 LoRA의 경우 텍스트에 모션을 명시적으로 인코딩합니다. 예:

    orbit 360 around the subject, orbit 180 around the subject 또는 slow dolly in toward the character.

  • 스타일 LoRA의 경우 장면 내용이 아닌 룩을 설명합니다. 예:

    grainy 16mm film look, high contrast, warm tint.

  • 캐릭터 LoRA의 경우 트리거 단어와 클래스를 포함합니다. 예:

    frung, young woman, casual clothing (frung이 트리거 토큰).

JOB 패널에 설정된 Trigger Word[trigger]가 포함된 캡션을 결합할 수도 있습니다. AI Toolkit은 데이터셋 로드 시 [trigger]를 선택한 트리거 문자열로 대체하므로 모든 캡션에 트리거 이름을 하드코딩할 필요가 없습니다.


4. 이해해야 할 Wan 2.2 I2V 특성

4.1 High-noise vs Low-noise 트랜스포머

Wan의 두 트랜스포머는 대략 다음과 같이 동작합니다:

high-noise 트랜스포머는 확산 프로세스 시작 근처의 타임스텝(약 1000에서 ~875)에서 작동합니다. 전역 구성과 대략적인 형태를 설정하고 객체 위치, 카메라 움직임, 모션 궤적을 결정합니다. 모션과 레이아웃에 중요합니다.

low-noise 트랜스포머는 약 875에서 0까지의 타임스텝에서 실행됩니다. 세부 사항, 텍스처, 얼굴 유사성, 미세 움직임을 정제합니다. 아이덴티티, 텍스처, 선명도에 중요합니다.

실제로 high-noise 스테이지만 학습하면 새로운 유형의 움직임과 구성을 가르칠 수 있지만 디테일이 미흡하게 학습되는 경향이 있습니다. low-noise 스테이지만 학습하면 움직임이나 레이아웃을 크게 변경하기 어렵습니다. 대부분의 LoRA에서는 두 스테이지 모두 학습하고 TRAINING 패널의 Timestep Bias를 사용하여 강조를 조절해야 합니다.


4.2 프레임, FPS, 속도

Wan 2.2 I2V 14B는 16 FPS에서 최대 81 프레임을 생성할 수 있으며, 이는 5초입니다. 실제로 유효한 비디오 프레임 수는 "4n+1" 규칙을 따릅니다(예: 9, 13, 17, 21, 33, 41, 81…). 해당 패밀리에서 비디오 길이를 생각할 수 있습니다. 1 프레임도 지원되며 AI Toolkit Wan 2.2 I2V LoRA 트레이닝에서 I2V를 효과적으로 단일 프레임 이미지와 같은 모드로 축소합니다.

AI Toolkit에는 두 개의 별도 Num Frames 노브가 있습니다. DATASETS 패널의 Num Frames는 학습을 위해 클립당 샘플링할 프레임 수를 제어합니다. SAMPLE 패널의 Num Frames는 미리보기 비디오의 길이를 제어합니다. 정확히 일치할 필요는 없지만 비슷하게 유지하면 동작을 더 쉽게 이해할 수 있습니다.

학습의 좋은 시작점은 41 프레임(약 2.5초)입니다. 80-96 GB GPU(H100 클래스)에서는 전체 81 프레임 구성까지 갈 수 있습니다. 21 또는 33 프레임과 같은 짧은 길이는 작은 GPU에서 VRAM 부하와 스텝 시간을 줄이는 데 사용할 수 있지만 시간적 컨텍스트 캡처가 줄어듭니다.


4.3 해상도와 픽셀 면적

Wan의 공식 데모는 일반적으로 유효 면적을 약 480×832 ≈ 400k 픽셀로 유지하고, Hugging Face 스페이스는 치수를 16 또는 32의 배수로 스냅합니다.

AI Toolkit으로 Wan 2.2 I2V 14B 이미지→비디오 LoRA 학습의 경우:

  • 24 GB GPU에서는 512768 같은 해상도 버킷을 사용합니다. 매우 공격적으로 양자화하거나 레이어 오프로딩을 사용하지 않는 한 1024×1024는 피하세요. 1024²에서 41-81 프레임의 비디오는 무겁습니다.
  • 48 GB 이상 GPU 또는 H100/H200에서는 안전하게 1024 버킷을 추가하고 1024×576, 1024×608, 1024×640과 같은 값을 중심으로 한 시네마틱 와이드스크린 해상도도 사용할 수 있습니다.

AI Toolkit은 데이터셋 로드 시 비디오를 선택한 해상도로 자동 버킷팅하고 다운스케일합니다.


5. AI Toolkit Wan 2.2 I2V LoRA 트레이닝 단계별 구성

최소 24GB 클래스 GPU가 있다고 가정하므로 아래 설정은 안전한 기준입니다. 더 큰 카드가 있거나 RunComfy의 클라우드 AI Toolkit을 사용하는 경우 일부 패널에는 설정을 확장하는 방법에 대한 짧은 메모도 포함되어 있습니다.


5.1 JOB 패널

JOB 패널에서 기본 메타데이터와 선택적으로 트리거 토큰을 설정합니다.

  • Training Name

    설명적인 이름을 사용합니다. 체크포인트와 샘플의 폴더 이름이 됩니다. 예: wan_i2v_orbit_v1, wan_i2v_style_neon, wan_i2v_char_frung_v1.

  • GPU ID

    로컬 설치에서는 물리적 GPU를 가리킵니다. RunComfy 클라우드 AI Toolkit에서는 기본값으로 둘 수 있습니다. 실제 머신 유형(H100/H200)은 나중에 Training Queue에서 선택됩니다.

  • Trigger Word (선택사항)

    frung 또는 wan_cam_orbit과 같은 전용 토큰을 원하는 캐릭터 또는 스타일 LoRA에 트리거를 사용합니다. 데이터셋 캡션에 [trigger]가 포함되어 있으면 AI Toolkit이 로드 시 해당 캡션에 Trigger Word 값을 자동으로 대체합니다.

    순수 모션 LoRA의 경우 동작이 이미 "orbit 360 around the subject"와 같은 문구에 인코딩되어 있으므로 트리거 단어가 필요 없는 경우가 많습니다. 캐릭터와 스타일의 경우 나중에 LoRA의 깔끔한 온/오프 스위치를 갖기 위해 트리거를 사용하는 것이 강력히 권장됩니다.


5.2 MODEL 및 QUANTIZATION 패널

이 패널은 어떤 Wan 모델 체크포인트가 사용되고 얼마나 공격적으로 양자화되는지를 제어합니다.

MODEL 패널

  • Model Architecture

    Wan 2.2 I2V (14B)를 선택합니다.

  • Name or Path

    기본 체크포인트의 Hugging Face 모델 ID(레포 ID). 예: ai-toolkit/Wan2.2-I2V-A14B-Diffusers-bf16.

    대부분의 AI Toolkit 빌드에서 Wan 2.2 I2V (14B)를 선택하면 이 값이 자동 채워집니다. 변경할 이유가 없으면 그대로 두세요.

  • Low VRAM

    24 GB 소비자 GPU 또는 디스플레이도 구동하는 모든 카드의 경우 Low VRAM ON으로 설정합니다. 48 GB 이상 카드(H100/H200 포함)에서는 학습 부하를 합리적으로 유지하는 한(예: 512/768 버킷과 ~41 프레임) 속도를 위해 OFF로 둘 수 있습니다. 간헐적 OOM(종종 가장 큰 해상도 버킷으로 인해 발생)이 보이거나 1024 버킷 및/또는 81 프레임을 푸시하려면 안정성을 위해 Low VRAM ON으로 설정하세요.

  • Layer Offloading

    이 토글은 모든 레이어를 VRAM에 상주시키는 대신 모델의 일부를 CPU RAM으로 스트리밍합니다. 매우 작은 GPU(약 10-12 GB VRAM)에서 Wan I2V를 실행하려고 하고 시스템 RAM이 많은 경우(64 GB 이상)에만 필요합니다. 스텝 시간을 대략 2배로 늘릴 수 있지만 피크 VRAM을 ~9 GB 미만으로 낮출 수 있습니다. 24 GB GPU의 경우 Layer Offloading OFF로 시작하고 여전히 메모리 부족 오류가 발생하는 경우에만 켜세요.

대형 GPU / RunComfy:

48 GB 이상 또는 H100/H200에서는 Layer Offloading OFF로 시작합니다. 최대 속도를 원하면 Low VRAM OFF를 유지하되, 먼저 보수적인 버킷(512/768)과 프레임(≈41)과 함께 사용하세요. 1024/81을 푸시하고 OOM 스파이크가 발생하면 Low VRAM ON으로 전환하거나 1024를 제거하여 실행을 안정화하세요.

QUANTIZATION 패널

  • Transformer

    24-32 GB GPU에서는 Transformer4bit with ARA로 설정합니다. 이는 4비트 양자화와 Accuracy Recovery Adapter를 함께 사용하여 VRAM 사용량이 일반 4비트에 가까우면서 품질은 bf16에 훨씬 가깝게 유지됩니다.

  • Text Encoder

    Text Encoderfloat8(또는 qfloat8)로 설정합니다. 이는 Wan 2.2 I2V LoRA 품질에 거의 영향을 주지 않으면서 텍스트 인코더의 VRAM과 계산을 줄입니다.

이는 Wan 2.2 비디오 LoRA의 공식 AI Toolkit 예제 구성을 반영하며 24 GB 카드에서 학습이 실용적인 주된 이유입니다. 특정 설정에서 ARA의 안정성 문제나 심각한 속도 저하가 발생하면 Transformer를 qfloat8로 폴백할 수 있습니다. VRAM을 더 사용하지만 품질 면에서 매우 유사하게 동작합니다.

대형 GPU / RunComfy:

H100/H200 또는 48-96 GB 워크스테이션 카드에서는 4bit with ARA를 유지하고 추가 VRAM을 더 높은 해상도, 더 많은 프레임, 더 높은 LoRA 랭크에 사용하거나, Transformer를 순수 float8 / qfloat8 옵션으로 전환하여 더 간단한 스택을 만들 수 있습니다. WAN 2.2 로라 훈련에서 완전한 bf16으로 돌아가는 것은 거의 필요하지 않습니다.


5.3 MULTISTAGE 패널 (high / low noise)

MULTISTAGE 패널에서는 어떤 Wan 전문가를 학습할지와 트레이너가 얼마나 자주 전환할지를 결정합니다.

  • Stages to Train

    대부분의 LoRA에서 High NoiseLow Noise 모두 ON으로 유지합니다. High noise는 구성과 모션을 제어하고, low noise는 디테일과 아이덴티티를 제어합니다.

  • Switch Every

    이 값은 다른 전문가로 전환하기 전에 한 전문가에서 실행할 스텝 수를 제어합니다. High Noise = ON, Low Noise = ON, Switch Every = 10, Steps = 3000인 경우 AI Toolkit은 다음과 같이 학습합니다:

    • 스텝 1-10: high-noise 트랜스포머
    • 스텝 11-20: low-noise 트랜스포머
    • 학습이 완료될 때까지 이 교대를 반복

대형 GPU에서는 두 전문가가 VRAM에 상주하는 경우에만(Low VRAM/오프로드/스왑 없음) Switch Every = 1(매 스텝 교대)을 사용할 수 있습니다. Low VRAM 또는 오프로딩/스와핑이 관련되면 각 전환이 비용이 많이 드는 언로드/로드를 트리거할 수 있으며 Switch Every = 1은 매우 느려집니다. 이 경우 스왑 오버헤드를 줄이기 위해 Switch Every = 10-50을 선호하세요.

24 GB GPU 기준의 경우:

  • High Noise = ON
  • Low Noise = ON
  • Switch Every = 10-50

대형 GPU / RunComfy:

두 전문가가 상주하는 경우(Low VRAM OFF, 오프로딩 없음) 약간 더 부드러운 교대를 위해 Switch Every = 1을 설정할 수 있습니다. 스텝 시간이 느리거나 스와핑이 보이면 대신 10-50을 사용하세요.


5.4 TARGET 패널 (LoRA 네트워크 설정)

TARGET 패널에서 어떤 유형의 어댑터를 학습하고 얼마나 "넓은지" 구성합니다.

  • Target Type

    Target TypeLoRA로 설정합니다.

  • Linear Rank

    Linear Rank는 블록당 LoRA 용량을 제어합니다. 더 높은 랭크는 용량을 늘리지만 VRAM 사용량과 과적합 위험도 증가합니다. Wan 2.2 I2V의 실용적인 기본값:

    • 모션 및 카메라 LoRA: Rank 16이 일반적으로 충분합니다. 작은 시각적 세부 사항보다 동작을 수정하기 때문입니다.
    • 스타일 LoRA: Rank 16으로 시작합니다. 스타일이 복잡하고 VRAM 여유가 있는 경우에만 32로 이동합니다.
    • 캐릭터 LoRA: Rank 16으로 시작합니다(대형 GPU에서도). 실행이 안정적이고(OOM 스파이크 없음) 클로즈업 고해상도 얼굴에 특히 더 많은 용량이 필요한 경우에만 32로 이동합니다.

매우 큰 GPU에서 Rank 32는 풍부한 스타일과 까다로운 캐릭터 작업에 도움이 될 수 있지만 좋은 LoRA를 얻는 데 필요하지 않으며 큰 버킷과 많은 프레임과 결합할 때 OOM 스파이크 가능성을 높일 수 있습니다.


5.5 SAVE 패널

SAVE 패널은 체크포인트 작성 빈도와 정밀도를 제어합니다.

  • Data Type

    BF16 또는 FP16을 사용합니다. 둘 다 LoRA에 적합합니다. BF16은 최신 GPU에서 약간 더 수치적으로 안정적입니다.

  • Save Every

    Save Every를 약 250으로 설정합니다. 250 스텝마다 체크포인트를 제공합니다.

  • Max Step Saves to Keep

    Max Step Saves to Keep4에서 6 사이로 설정합니다. 디스크 사용량을 제어하면서 폴백용 이전 체크포인트를 남깁니다.

마지막 체크포인트를 사용할 필요가 없습니다. 매우 자주 가장 좋아 보이는 샘플은 2000-4000 스텝 근처에서 나옵니다. 아래 SAMPLE 패널 구성은 이를 판단하는 방법을 설명합니다.

학습 중 샘플링을 비활성화하는 경우(현재 Wan I2V 빌드에 권장) 몇 개의 체크포인트(예: 250 스텝마다)를 유지하고 나중에 별도의 추론 워크플로우를 사용하여 평가하세요.


5.6 TRAINING 패널

TRAINING 패널에는 배치 크기, 학습률, 타임스텝, 손실, 텍스트 인코더 처리 등 대부분의 중요한 노브가 있습니다.

핵심 하이퍼파라미터

24 GB Wan I2V 비디오 LoRA의 핵심 학습 설정을 다음과 같이 구성합니다:

  • Batch Size

    1로 시작합니다. 비디오 모델은 무겁고 24 GB 카드에서도 1이 현실적입니다. H100/H200에서는 나중에 2-4의 배치 크기로 실험할 수 있습니다.

  • Gradient Accumulation

    처음에는 Gradient Accumulation1로 둡니다. 유효 배치 크기는 배치 크기 곱하기 그래디언트 누적입니다. VRAM이 매우 빡빡하고 약간 더 큰 유효 배치를 원하면 2 또는 4로 올릴 수 있지만 비디오에서의 이득은 적습니다.

  • Learning Rate

    Learning Rate = 0.0001로 시작합니다. 이는 AI Toolkit 예제의 기본값이며 Wan LoRA에 안정적입니다. 학습이 노이즈처럼 보이거나 LoRA가 빠르게 오버슛하면 실행 중간에 0.00005로 줄이고 최신 체크포인트에서 재개할 수 있습니다.

  • Steps – 일반적인 범위:
    • ~10-20 클립의 작고 집중된 모션 LoRA: 1500-2500 스텝.
    • 20-50 클립의 캐릭터 또는 스타일 LoRA: 2000-3000 스텝.
    • 매우 큰 데이터셋은 더 높아질 수 있지만 일반적으로 3000-4000 스텝을 훨씬 넘기보다 데이터 품질(캡션, 다양성)을 개선하는 것이 좋습니다.
    • 1000 스텝: ~12-18시간
    • 1500 스텝: ~18-27시간
    • 2000 스텝: ~24-36시간
    • 3000 스텝: ~35-55시간
  • Weight Decay

    변경할 특별한 이유가 없으면 Weight Decay0.0001로 유지합니다. 가벼운 정규화를 제공합니다.

  • Loss Type

    Loss TypeMean Squared Error(MSE)로 유지합니다. Wan 2.2는 플로우 매칭 노이즈 스케줄러를 사용하며 MSE가 이 설정의 표준 손실입니다.


타임스텝 및 스케줄러

  • Timestep Type

    Wan 2.2 I2V의 경우 Linear이 기본 Timestep Type이며 대부분의 LoRA 유형에서 잘 작동합니다. 플로우 매칭 스케줄을 따라 업데이트를 균등하게 분산하고 high-noise와 low-noise 전문가 간의 분할과 잘 작동합니다.

  • Timestep Bias

    Timestep Bias는 궤적의 어느 부분을 강조할지 제어합니다:

    • Balanced – 업데이트가 high-noise와 low-noise 타임스텝에 분산됩니다. 모든 LoRA 유형의 안전한 기본값입니다.
    • Favor High Noise – Wan이 전역 레이아웃, 모션, 색상을 결정하는 초기 노이즈 스텝에 더 집중합니다.
    • Favor Low Noise – 세부 사항과 아이덴티티가 있는 후반 깨끗한 스텝에 더 집중합니다.
    • 모션/카메라 LoRATimestep Type = Linear, Timestep Bias = Balanced로 시작합니다. 매우 "순수한" 카메라 이동 LoRA의 경우 high-noise 전문가에 더 기대기 위해 Favor High Noise를 실험할 수 있습니다.
    • 스타일 LoRATimestep Type = Linear(또는 Shift)Timestep Bias = Favor High Noise를 사용하여 LoRA가 전역 톤과 색상을 다시 쓰고 기본 모델이 여전히 후반 세부 사항을 처리하도록 합니다.
    • 캐릭터 LoRATimestep Type = Sigmoid(또는 Linear)Timestep Bias = Balanced를 사용합니다. 아이덴티티와 유사성은 low-noise 스텝에 더 의존하지만 바이어스를 Balanced로 유지하면 두 전문가가 기여할 수 있습니다. 마이크로 디테일에 특히 추가 집중을 원하는 경우에만 약간의 low-noise 바이어스를 시도하세요.

내부적으로 Wan 2.2 I2V는 플로우 매칭 노이즈 스케줄러를 사용합니다. AI Toolkit은 Wan 2.2 아키텍처에 대한 스케줄러와 일치하는 샘플러를 자동으로 설정하므로 주로 위의 Timestep Type, Timestep Bias, Multi-stage 설정을 통해 동작을 조정합니다.


EMA (지수 이동 평균)

  • Use EMA

    LoRA의 경우 EMA는 선택사항이며 추가 VRAM과 시간을 소비합니다. 대부분의 Wan LoRA 사용자는 Use EMA OFF로 두며 전체 모델 파인튜닝을 하지 않는 한 거의 필요하지 않습니다.


Text Encoder 최적화

TRAINING 패널 하단에는 Text Encoder Optimizations 설정이 있습니다. 텍스트 인코더가 얼마나 공격적으로 오프로드되거나 캐시되는지를 제어합니다.

  • Unload TE

    이 모드는 텍스트 인코더 가중치를 언로드하여 스텝 간에 더 이상 VRAM을 소비하지 않도록 합니다. Wan 2.2 I2V LoRA의 경우 거의 항상 풍부한 클립별 캡션에 의존하므로 일반 캡션 기반 학습에서는 Unload TE OFF를 유지해야 합니다. 데이터셋 캡션을 전혀 사용하지 않는 매우 좁은 "트리거 전용 / 빈 프롬프트" LoRA를 의도적으로 학습하는 경우에만 Unload TE를 고려하세요.

  • Cache Text Embeddings

    이 옵션은 캡션 임베딩을 한 번 사전 계산하고 재사용하여 반복적인 텍스트 인코더 패스를 피합니다. 캡션이 정적이고 각 스텝에서 프롬프트를 수정하거나 랜덤화하는 기능을 사용하지 않는 경우에만 Cache Text Embeddings ON으로 설정하세요. Differential Output Preservation, 캡션의 동적 [trigger] 재작성, 캡션 드롭아웃 동작에 크게 의존하는 것 등입니다. 이 경우 AI Toolkit은 모든 학습 캡션을 한 번 인코딩하고 디스크에 임베딩을 캐시하며 텍스트 인코더를 VRAM에서 제거할 수 있습니다.

DOP, Caption Dropout 또는 기타 동적 프롬프트 트릭을 사용할 계획이라면 텍스트 인코더가 배치마다 실제 프롬프트를 다시 인코딩할 수 있도록 Cache Text Embeddings OFF를 유지하세요. Differential Output Preservation 및 Datasets 섹션에서 이러한 상호작용에 대해 자세히 설명합니다.


정규화 – Differential Output Preservation (DOP)

Regularization 섹션은 Differential Output Preservation(DOP)을 노출하며, 이는 LoRA가 기본 모델을 덮어쓰는 대신 잔차 편집처럼 동작하도록 돕습니다.

DOP는 기본 모델의 출력(LoRA 없음)과 LoRA 활성화 출력을 비교하고 LoRA가 대상 개념과 관련 없는 측면을 변경할 때 페널티를 추가합니다. "전체 모델 재학습"이 아닌 "트리거가 있을 때 무엇이 변하는지"를 가르치려고 합니다.

모션/카메라 LoRA의 경우 모션 동작이 이미 상당히 로컬라이즈되어 있으므로 일반적으로 DOP가 필요하지 않습니다. DOP를 활성화하면 추가 포워드 패스를 추가하여 계산이 대략 2배가 됩니다.

스타일 및 캐릭터 LoRA의 경우 DOP는 Wan의 강력한 기본 리얼리즘을 유지하는 데 매우 유용합니다. 좋은 시작 구성:

  • Differential Output Preservation: ON
  • DOP Loss Multiplier: 1
  • DOP Preservation Class: 캐릭터 LoRA의 경우 person, 빌드가 해당 옵션을 제공하는 경우 스타일 LoRA의 경우 scene 또는 landscape와 같은 적절한 클래스.

중요한 호환성 참고: Differential Output Preservation은 각 스텝에서 프롬프트 텍스트를 재작성하거나 보강합니다(예: 트리거 단어를 보존 클래스 단어로 교체). 이 때문에 DOP는 Cache Text Embeddings와 호환되지 않습니다. DOP ON으로 설정하면 텍스트 인코더가 배치마다 업데이트된 프롬프트를 볼 수 있도록 Cache Text Embeddings OFF인지 확인하세요.


5.7 ADVANCED 패널 (Differential Guidance)

AI Toolkit 빌드가 이 모델에 대해 ADVANCED 패널을 노출하는 경우 Do Differential GuidanceDifferential Guidance Scale이 포함될 수 있습니다.

Differential Guidance는 "LoRA 있음" vs "LoRA 없음" 예측을 계산하고 학습을 그 차이 방향으로 유도합니다. 정신적으로 DOP와 유사하지만 별도의 손실 항 대신 가이던스 수준에서 구현됩니다.

실용적인 권장 사항:

  • LoRA가 깔끔한 수정자처럼 동작하기를 원하는 타겟 편집 스타일 LoRA(예: "카메라 궤도 만들기", "네온 스타일 적용")의 경우 Do Differential Guidance ONDifferential Guidance Scale3으로 설정합니다.
  • 전체 룩을 다시 쓰는 매우 광범위하고 무거운 스타일 LoRA의 경우 더 낮은 스케일(1-2)을 시도하거나 LoRA가 너무 약하게 느껴지면 OFF로 둡니다.

계산이 빡빡하면 첫 실행에서는 Differential Guidance OFF를 안전하게 두고 나중에 실험할 수 있습니다.


5.8 DATASETS 패널

AI Toolkit의 각 데이터셋 블록은 datasets: 목록의 항목에 매핑되지만 UI에서는 단순히 하나 이상의 데이터셋 카드를 구성합니다.

일반적인 단일 Wan I2V 데이터셋 구성은 다음과 같습니다:

  • Target Dataset

    업로드한 Wan I2V 비디오 데이터셋 폴더를 선택합니다. 예: wan_orbit_clips.

  • Default Caption

    클립에 .txt 캡션 파일이 없을 때 사용되는 캡션입니다. 예:

    모션 LoRA: orbit 360 around the subject

    스타일 LoRA: cinematic neon cyberpunk style

    캐릭터 LoRA: frung, person, portrait (frung이 트리거 토큰).

  • Caption Dropout Rate

    학습 샘플에서 캡션이 드롭(빈 캡션으로 대체)될 확률입니다. Wan I2V LoRA의 경우 소량의 드롭아웃은 모델이 시각적 컨텍스트와 텍스트를 모두 사용하도록 장려합니다. 텍스트 인코더가 로드된 상태에서 일반적인 시작 범위는 0.05-0.10(5-10%)입니다. TRAINING 패널에서 Cache Text Embeddings를 활성화하기로 결정한 경우 클립의 하위 집합이 영구적으로 캡션이 없는 것을 피하기 위해 Caption Dropout Rate = 0으로 설정하는 것이 더 간단합니다.

  • LoRA Weight

    일반적으로 1로 설정합니다. 여러 데이터셋을 혼합하고 한 데이터셋이 학습에서 더 많이 또는 적게 카운트되기를 원하는 경우에만 변경합니다.

  • Settings → Cache Latents

    Wan I2V 비디오 데이터셋(Num Frames > 1)에서는 OFF를 유지하세요. 많은 현재 AI Toolkit 빌드는 멀티 프레임 데이터셋의 잠재 캐싱을 지원하지 않으며 다음과 같은 오류로 데이터로더 초기화 중 실패합니다:

    caching latents is not supported for multi-frame datasets

    의도적으로 Num Frames = 1(이미지와 같은 학습)로 설정하면 잠재 캐싱이 작동하고 속도를 높일 수 있습니다.

  • Settings → Is Regularization

    기본 데이터셋에서는 Is Regularization OFF를 유지합니다. 나중에 별도의 정규화 데이터셋을 추가하면 해당 데이터셋의 Is Regularization을 ON으로 설정합니다.

  • Flipping

    Flip XFlip Y는 프레임을 수평 또는 수직으로 뒤집습니다. 대부분의 비디오 작업에서 특히 뒤집기가 왼쪽/오른쪽 모션 의미를 반전시킬 수 있는 모션 LoRA 또는 비대칭 특징을 가진 캐릭터의 경우 둘 다 OFF를 유지해야 합니다. 순수 스타일 전용 LoRA의 경우 Flip X를 실험하여 변형을 늘릴 수 있습니다.

  • Resolutions

    하나 이상의 해상도 버킷을 선택합니다. 24 GB GPU에서는 일반적으로 512를 활성화하고 768과 1024는 비활성화합니다. 48 GB 이상 또는 H100/H200에서는 안정성을 위해 512와 768로 시작한 다음 VRAM 여유가 명확하고 실행이 안정적인 경우에만 1024를 추가합니다(버킷 학습은 가장 큰 버킷에 도달하면 VRAM이 스파이크할 수 있음). AI Toolkit은 클립을 가장 가까운 버킷에 자동으로 할당하고 필요에 따라 다운스케일합니다.

  • Num Frames

    Num Frames를 학습을 위해 클립당 샘플링할 프레임 수로 설정합니다. 좋은 시작점은 41입니다. 무거운 양자화와 오프로딩이 있는 매우 작은 GPU(10-12 GB)에서는 짧은 시간적 컨텍스트를 희생하고 학습을 실행하기 위해 이를 21 또는 심지어 9로 줄일 수 있습니다.

여러 데이터셋이 필요한 경우(예: 기본 모션 데이터셋 + 작은 "스타일" 데이터셋) DATASETS 패널에 모두 추가하고 LoRA WeightIs Regularization 플래그를 사용하여 상대적 영향을 제어할 수 있습니다.


5.9 SAMPLE 패널 (학습 미리보기)

SAMPLE 패널은 학습에 직접 영향을 미치지 않습니다. AI Toolkit이 주기적으로 미리보기 비디오를 생성하는 방법을 제어하여 최상의 체크포인트를 선택할 수 있습니다.

중요(Wan I2V 요구 사항): Wan 2.2 I2V 샘플링은 이미지→비디오입니다. 모든 샘플에는 프롬프트 + 컨트롤 이미지 쌍이 포함되어야 합니다.

학습 중 샘플링이 실행되고(예: disable_sampling: false, skip_first_sample: false, 또는 force_first_sample: true) 샘플에 ctrl_img가 없으면 미리보기 샘플링 스텝이 실패하고 작업이 일찍 중지될 수 있습니다. 많은 환경에서 다음과 같은 혼란스러운 텐서 불일치 오류로 나타납니다:

RuntimeError: The size of tensor a (36) must match the size of tensor b (16)

수정: samples에서 모든 prompt에 일치하는 ctrl_img가 있는지 확인하세요(항상 쌍으로 나타나야 함). 프롬프트만 있는 샘플 행을 남기지 마세요.

권장 샘플링 설정 (미리보기 활성화)

학습 중 미리보기를 원하면 다음 설정을 사용하세요:

  • Sample Every

    Sample Every250으로 설정합니다. Save Every 설정과 일치하여 각 체크포인트에 해당하는 미리보기 비디오 세트가 있습니다.

  • Sampler

    Wan의 플로우 매칭 스케줄러와 호환되는 샘플러를 사용합니다. 일반적으로 빌드에서 FlowMatch 또는 유사하게 표시됩니다.

  • Width / Height

    24 GB GPU에서는 샘플에 768 × 768 또는 704 × 1280과 같은 세로 형식을 사용합니다. 느린 샘플링이 괜찮지 않으면 1024×1024 미리보기 비디오를 피하세요. 학습 자체는 1024² 미리보기가 필요하지 않습니다.

  • Guidance Scale

    많은 Wan 2.2 데모 구성과 일치하는 3.5-4 정도의 Guidance Scale로 시작합니다.

  • Sample Steps

    Sample Steps25로 설정합니다. 더 많은 스텝은 모션 품질을 크게 변경하지 않고 주로 시간만 늘립니다.

  • Seed / Walk Seed

    42와 같은 고정 Seed를 설정합니다. 각 미리보기가 원본 근처에 클러스터링되면서 다른 시드를 얻기를 원하면 Walk Seed ON으로 설정합니다.

  • Num Frames

    SAMPLE 패널의 Num Frames를 학습 값과 같거나 가깝게 설정합니다. 41 프레임으로 학습했다면 41로 샘플링합니다. LoRA가 좋아 보이면 81 프레임에서 더 긴 클립을 생성하여 일반화를 테스트할 수 있습니다. 41에서 학습하면 종종 81 프레임 추론에 놀랍도록 잘 일반화됩니다.

  • FPS

    일반적으로 FPS = 16을 유지합니다. FPS를 변경하면 재생 속도만 영향을 받고 학습된 모션 자체에는 영향을 미치지 않습니다.

프롬프트의 경우 학습 분포를 반영하는 2-4개의 프롬프트 행을 추가합니다. 각 행에 추론 시 사용할 것과 유사한 컨트롤 이미지를 첨부합니다.


6. 모션, 스타일, 캐릭터용 Wan 2.2 I2V LoRA 학습 방법 설정

일반적인 Wan 2.2 I2V LoRA 유형에 대한 빠른 레시피입니다. 이것들을 시작점으로 취급하고 체크포인트 평가에 따라 조정하세요(학습 중 미리보기가 비활성화될 수 있음; SAMPLE 패널 참조).

6.1 모션/카메라 LoRA

목표: Wan에게 orbit 360, orbit 180 또는 특정 카메라 스윙과 같은 새로운 모션 가르치기.

대상 모션이 매우 명확하고 클립의 대부분을 차지하는 10-30개의 짧은 클립(~3-8초)을 사용합니다. 캡션은 orbit 180 around the subject 또는 orbit 360 around a futuristic city와 같이 모션을 명시적으로 설명해야 합니다.

패널 가이드라인:

  • MULTISTAGE: High Noise = ON, Low Noise = ON, Switch Every = 10 (Low VRAM/오프로딩이 느린 스와핑을 일으키면 20-50).
  • TARGET: Linear Rank = 16.
  • TRAINING: Learning Rate = 0.0001, Steps ≈ 1500-2500, Timestep Type = Linear, Timestep Bias = Balanced, DOP OFF.
  • DATASETS: Resolutions는 512/768, Num Frames = 33-41 (41에서 시작; H100/H200에서 81도 가능하지만 ~2배 시간과 더 높은 VRAM 예상), Caption Dropout Rate ≈ 0.05-0.1. 멀티 프레임 데이터셋에서 잠재 캐싱 OFF.

Save Every = 250으로 학습합니다. 샘플링 미리보기: 학습 중 미리보기를 활성화하면 Sample Every = 250으로 설정하고 samples의 모든 항목에 promptctrl_img가 모두 포함되어 있는지 확인합니다(Wan I2V 샘플링에는 컨트롤 이미지가 필요함).

체크포인트를 평가할 때 대상 모션이 다른 프롬프트와 장면에서 안정적인지에 집중합니다. 학습 클립의 거의 복제본에서만 작동하면 바이어스를 Balanced에서 멀리하기보다 데이터 다양성 개선이나 스텝을 약간 늘리는 것을 선호하세요.


6.2 스타일 LoRA (비디오 룩 / 그레이드)

목표: Wan의 기본 모션과 구성을 존중하면서 시각 스타일 변경.

모두 같은 룩을 공유하지만 다양한 장면과 피사체를 다루는 10-40개의 이미지 또는 클립을 사용합니다. 예: grainy 16mm film look, high contrast, warm tint.

패널 가이드라인:

  • MULTISTAGE: High Noise = ON, Low Noise = ON, Switch Every = 10 (Low VRAM/오프로딩이 느린 스와핑을 일으키면 20-50).
  • TARGET: Linear Rank = 간단한 스타일은 16; 복잡하거나 시네마틱 룩은 16-32.
  • TRAINING: Learning Rate = 0.0001, Steps ≈ 1500-2500, Timestep Type = Linear (또는 Shift), Timestep Bias = Favor High Noise.
  • Regularization (DOP): Differential Output Preservation ON, DOP Loss Multiplier = 1, DOP Preservation Class는 주요 피사체와 일치(종종 person 또는 scene), Cache Text Embeddings = OFF.
  • DATASETS: 24 GB에서 512/768 해상도(대형 GPU에서는 512/768, 안정 후 선택적 1024), Num Frames = 24 GB에서 33-41(시간을 감당할 수 있으면 H100/H200에서 41-81), Cache Text Embeddings OFF이면 Caption Dropout Rate 약 0.05. 멀티 프레임 데이터셋에서 잠재 캐싱 OFF.

스타일이 장면과 조명 전반에 걸쳐 일관되게 적용되는지 관찰합니다. 콘텐츠를 압도하거나 모든 것을 같게 보이게 하기 시작하면 실행 중간에 학습률을 낮추거나, 이전 체크포인트로 돌아가거나, LoRA 랭크를 줄여보세요.


6.3 캐릭터 LoRA (비디오 유사성)

I2V의 캐릭터 LoRA는 텍스트-투-이미지 모델보다 더 어렵지만 실현 가능합니다.

다양한 포즈, 스케일, 각도, 배경에서 같은 캐릭터의 10-30개의 짧은 클립을 사용합니다. 캡션에는 항상 Trigger Word와 클래스가 포함되어야 합니다. 예: frung, young woman, casual clothing. 20-40개 클립을 모을 수 있으면 아이덴티티 견고성이 일반적으로 향상되지만 사용 가능한 결과를 얻는 데 엄격히 필요하지는 않습니다.

패널 가이드라인:

  • MULTISTAGE: High Noise = ON, Low Noise = ON, Switch Every = 10 (Low VRAM/오프로딩이 느린 스와핑을 일으키면 20-50).
  • TARGET: Linear Rank = 24 GB에서 16; 고 VRAM GPU에서 16-32(여유가 있고 클로즈업 고해상도 얼굴을 신경 쓸 때 32 사용).
  • TRAINING: Learning Rate = 0.0001, Steps ≈ 2000-3000, Timestep Type = Sigmoid (또는 Linear), Timestep Bias = Balanced.
  • Regularization (DOP): Differential Output Preservation ON, DOP Loss Multiplier = 1, DOP Preservation Class = person.
  • DATASETS: 512/768로 시작(안정 후에만 1024 추가), Num Frames = 24 GB에서 33-41, 또는 H100/H200에서 41-81(81은 상당히 느림). 멀티 프레임 데이터셋에서 잠재 캐싱 OFF.

커뮤니티 경험에 따르면 아이덴티티와 유사성은 low-noise 전문가에 더 의존하지만 Timestep Bias = Balanced를 유지하고 형성된 Timestep Type(Sigmoid)을 사용하면 일반적으로 low noise 방향으로 강하게 바이어스하는 것보다 유사성과 전체 비디오 안정성 간의 더 나은 트레이드오프를 제공합니다.


7. Wan I2V LoRA 문제 해결

The size of tensor a (36) must match the size of tensor b (16) at non-singleton dimension 1

발생 이유: WAN 2.2 14B I2V(arch: wan22_14b_i2v)에서 학습 중 미리보기 샘플링은 이미지→비디오이며 컨트롤 이미지가 필요합니다. samples어떤 항목에 prompt가 있지만 ctrl_img가 없으면 미리보기 샘플링 스텝이 충돌하고 위의 텐서 불일치로 나타날 수 있습니다.

해결 방법: samples에서 모든 prompt에 일치하는 ctrl_img가 있는지 확인하세요(항상 쌍으로 나타나야 함). 프롬프트만 있는 샘플 행을 남기지 마세요.


caching latents is not supported for multi-frame datasets

비디오 데이터셋(Num Frames > 1)에서 잠재 캐싱이 활성화된 경우 발생합니다.

수정: DATASETS 패널에서 Wan I2V 비디오 데이터셋에 대해 Cache Latents / Cache Latents to Disk = OFF로 설정합니다.


소스에 비해 모션이 너무 빠름

일반적으로 추론 설정보다 적은 프레임으로 학습한 경우 발생합니다. 예를 들어 21 또는 41 프레임으로 학습했지만 FPS가 16으로 고정된 81 프레임으로 샘플링하는 경우. 같은 모션이 다르게 "늘어납니다".

SAMPLE 패널에서 FPS를 낮추거나(재생용), 시간적 동작이 더 예측 가능하도록 41과 같은 일관된 Num Frames로 학습하고 샘플링하여 수정할 수 있습니다.


카메라가 움직이지 않거나 구성이 거의 변하지 않음

카메라가 거의 움직이지 않거나 구성이 기본 모델처럼 보이면:

실제로 high-noise 스테이지를 학습하고 있는지, Timestep Bias가 낮은 타임스텝 방향으로 너무 강하게 설정되지 않았는지 확인하세요. MULTISTAGE 패널에서 High Noise가 ON이고 모션 LoRA의 경우 Timestep Bias가 Favor High인지 확인합니다. 또한 캡션이 원하는 모션을 명확하게 설명하는지 확인하세요. Wan은 보이지 않거나 이름이 지정되지 않은 모션을 학습할 수 없습니다.


디테일과 얼굴이 기본 Wan보다 나빠 보임

LoRA가 디테일을 제거하거나 얼굴을 악화시키는 경우:

Linear Rank를 약간 늘리고(예: 16에서 32) Timestep Bias에서 low noise를 선호하여 아이덴티티와 디테일이 있는 후반 타임스텝에 더 많은 학습 신호가 떨어지도록 해보세요. 학습률을 낮추고 이전 체크포인트에서 재개할 수도 있습니다.


LoRA가 과적합하여 학습과 유사한 장면에서만 작동

LoRA가 학습 데이터와 매우 유사한 장면에서만 올바르게 보이는 경우:

Steps의 총 수를 줄이고(예: 5000에서 3000), 데이터셋 다양성을 늘리고, 현재 꺼져 있다면 Differential Output Preservation을 활성화하는 것을 고려하세요. DOP가 이미 ON이고 효과가 여전히 너무 좁으면 LoRA 랭크 및/또는 학습률을 약간 낮추세요.


VRAM 메모리 부족 오류

학습이 자주 VRAM을 소진하는 경우:

다음 조합을 줄입니다:

  • 해상도 버킷(1024를 제거하고 512/768 유지)
  • Num Frames(예: 41에서 21)
  • 배치 크기(아직 아니라면 1로 유지)

Low VRAM ON으로 설정하고, 10-12 GB VRAM만 있고 시스템 RAM이 많으면 Layer Offloading ON으로 설정하고, QUANTIZATION 패널에서 트랜스포머와 텍스트 인코더 모두에 대해 양자화float8로 설정되어 있는지 확인합니다. 로컬 VRAM이 여전히 부족하면 H100 또는 H200 GPU로 RunComfy 클라우드에서 동일한 AI Toolkit 작업을 실행하는 것을 고려하세요. 거기서는 설정을 훨씬 간단하게 유지할 수 있습니다.

대형 GPU(예: H100)에서도 OOM이 발생하면 일반적으로 버킷 스파이크 문제입니다:

  • 실행이 안정될 때까지 1024 버킷을 제거한 다음 나중에 다시 추가합니다.
  • Num Frames를 줄입니다(41 → 33 → 21).
  • 정말 필요하지 않으면 Layer Offloading OFF를 유지합니다(실행이 느려지고 스왑이 많아질 수 있음).
  • 스와핑이 관련되면 스텝당 언로드/로드 오버헤드를 피하기 위해 MULTISTAGE Switch Every를 늘립니다(10-50).
  • 메모리를 위해 더 공격적인 양자화를 선호합니다: Transformer 4bit with ARA(ARA가 불안정하면 qfloat8) 및 Text Encoder float8/qfloat8.

학습이 예상보다 훨씬 느림 (스텝당 수십 초)

Wan 2.2 I2V LoRA 학습은 본질적으로 느립니다: 각 스텝은 많은 프레임을 처리하고 두 전문가를 학습하면 각 스테이지에 충분한 업데이트를 제공하기 위해 더 많은 총 스텝이 필요합니다.

현실 점검(일반적인 시간 예상): 41 프레임과 혼합 512/768/1024 버킷으로 H100에서 3000 스텝은 일반적으로 수십 시간(종종 ~35-55시간)입니다. 81 프레임에서 샘플링은 대략 ~2배의 계산/시간입니다. 더 작은 GPU(특히 양자화 + 오프로딩 사용)에서는 스텝당 수십 초가 정상일 수 있습니다.

불합리하게 느리게 느껴지거나 시간이 지남에 따라 계속 느려지면:

  • Num Frames를 줄입니다(41 → 33 → 21).
  • 1024 버킷을 제거합니다(512/768 유지).
  • 정말 필요하지 않으면 Layer Offloading을 피합니다.
  • Low VRAM/오프로드/스와핑이 활성화되어 있으면 Switch Every = 1을 사용하지 말고 10-50을 사용합니다.
  • 미리보기가 활성화되어 있으면 샘플링이 학습을 너무 자주 중단하지 않도록 샘플링을 드물게 유지합니다(예: Sample Every = 250).

👉 RunComfy AI Toolkit trainer


8. Wan I2V LoRA 내보내기 및 사용

학습이 완료되면 Wan 2.2 I2V 14B LoRA를 두 가지 간단한 방법으로 사용할 수 있습니다:

  • 모델 플레이그라운드Wan 2.2 I2V 14B LoRA 플레이그라운드를 열고 학습된 LoRA의 URL을 붙여넣어 기본 모델에서 어떻게 동작하는지 빠르게 확인합니다.
  • ComfyUI 워크플로우ComfyUI 인스턴스를 시작하고, 워크플로우를 구축하고, LoRA를 연결하고, 가중치 및 기타 설정을 미세 조정하여 더 세부적인 제어를 합니다.

더 많은 AI Toolkit LoRA 학습 가이드

Ready to start training?