AI Toolkit LoRA Training Guides

Ostris AI Toolkit로 Qwen 2512 LoRA 학습하기(Qwen-Image-2512)

이 튜토리얼은 Ostris AI Toolkit에서 Qwen-Image-2512 LoRA를 학습하는 방법을 안내합니다. 캐릭터/스타일/상품(컨셉) LoRA에 맞는 추천 기본 설정, 데이터셋과 트리거 설정, 24GB GPU에서 ARA + Low VRAM을 사용하는 시점, 학습 중 샘플 모니터링 방법, 그리고 자주 발생하는 오류/불안정 이슈 해결을 다룹니다.

Train Diffusion Models with Ostris AI Toolkit

가로로 스크롤하여 전체 양식 보기

Ostris AI ToolkitOstrisAI-Toolkit

New Training Job

Job

Model

Quantization

Target

Save

Training

Datasets

Dataset 1

Sample

Qwen‑Image‑2512(종종 Qwen 2512로 축약됨)는 대형 텍스트-이미지 기반 모델로, 작은 어댑터를 통해 파인튜닝하여 캐릭터(유사성), 스타일 또는 제품/개념을 안정적으로 학습시킬 수 있습니다. 이 가이드는 Ostris AI Toolkit을 사용하여 실용적인 Qwen Image 2512 LoRA 학습을 수행하는 방법을 안정적인 기본값과 일반적인 문제 해결 방법과 함께 설명합니다.

Qwen Image 2512 LoRA 학습 가이드를 마치면 다음을 할 수 있습니다:

  • Qwen-Image-2512에서 캐릭터 vs 스타일 vs 제품 LoRA에 적합한 기본 설정 선택
  • VRAM 요구사항을 계획하고 ARA를 사용할 시기 결정
  • 일반적인 실패 모드(과적합/블리드)를 피하는 데이터셋, 캡션 및 트리거 구축
  • 짧은 스모크 테스트를 실행한 후 자신 있게 단계와 설정 확정
이 글은 AI Toolkit LoRA 훈련 시리즈의 일부입니다. Ostris AI Toolkit이 처음이라면, 이 Qwen 2512 LoRA 훈련 가이드에 들어가기 전에 AI Toolkit LoRA 훈련 개요부터 시작하세요.

목차


1. Qwen‑Image‑2512 개요: 이 텍스트-이미지 모델로 할 수 있는 것

Qwen Image 2512 LoRA 학습이란 (그리고 "좋은" 것의 의미)

Qwen Image 2512 LoRA 학습에서는 기본 모델을 교체하는 것이 아니라, 특정 아이덴티티, 스타일 또는 제품 개념을 향해 미세 조정하는 작은 어댑터를 추가하는 것입니다.

강력한 LoRA는 세 가지 특성을 가집니다:

  • 강도: 활성화 시 출력을 명확하게 변경
  • 제어: 원할 때만 활성화
  • 일반화: 훈련 이미지뿐만 아니라 새로운 프롬프트에서도 작동

목표 선택: 캐릭터 vs 스타일 vs 제품/개념

목표에 따라 Qwen-Image-2512 LoRA 트레이닝에서 데이터셋 설계와 훈련 설정의 최적 기본값이 결정됩니다.

캐릭터 / 유사성

  • 최적: 특정 인물, 캐릭터, 유명인 유사성, 일관된 얼굴/아이덴티티
  • 주요 위험: 아이덴티티 블리드(다른 사람에게 영향), 과도하게 처리된 얼굴, 빠른 과적합
  • 필요: 더 엄격한 timestep 전략, 신중한 단계, 보통 트리거, 종종 DOP

스타일

  • 최적: 룩/그레이드, 일러스트 스타일, 조명 스타일, 텍스처 언어
  • 주요 위험: "모든 것 필터"가 됨, 프롬프트 충실도 상실
  • 필요: 더 많은 다양성, 보통 캐릭터보다 적은 반복/이미지, 트리거는 선택사항

제품 / 개념

  • 최적: 특정 제품(신발, 병), 로고가 있는 패키지, 새로운 객체 개념
  • 주요 위험: 형태 드리프트, 일관되지 않은 재질, 불안정한 지오메트리
  • 필요: 일관된 프레이밍 + 깨끗한 캡션; 트리거 보통 권장
확실하지 않다면, 스모크 테스트(짧은 실행)로 Qwen Image 2512 LoRA 학습을 시작하고, 데이터셋이 얼마나 빨리 "각인"되는지 확인한 후 최종 단계를 확정하세요.

2. 환경 옵션: 로컬 AI Toolkit vs RunComfy 클라우드 AI Toolkit

Qwen 2512 LoRA 훈련을 위해 다른 AI Toolkit LoRA 워크플로우와 동일한 두 가지 환경을 사용할 수 있습니다:

  • 자체 GPU에서의 로컬 AI Toolkit
  • 대형 GPU(H100 / H200)를 갖춘 RunComfy 클라우드 AI Toolkit

훈련 UI, 파라미터 및 워크플로우는 두 경우 모두 동일합니다. 유일한 차이점은 GPU의 위치와 사용 가능한 VRAM의 양입니다.


2.1 로컬 AI Toolkit (자체 GPU)

AI Toolkit GitHub 저장소에서 AI Toolkit을 설치한 다음 Web UI를 실행하세요. 로컬 훈련은 다음 경우에 좋은 선택입니다:

  • 이미 NVIDIA GPU를 보유(일반적으로 편안한 1024 훈련에 24GB VRAM 이상)
  • CUDA, 드라이버, 디스크 공간 및 장시간 실행 작업 관리에 익숙

2.2 RunComfy 클라우드 AI Toolkit (H100 / H200)

RunComfy 클라우드 AI Toolkit에서 AI-Toolkit Qwen 2512 LoRA 학습이 브라우저에서 완전히 실행됩니다:

  • 로컬에 아무것도 설치하지 않음
  • 브라우저를 열고 로그인하면 AI Toolkit 훈련 인터페이스로 직접 이동
  • 작업 시작 시 H100(80GB) 또는 H200(141GB)과 같은 대형 GPU 선택 가능
  • 데이터셋, 설정 및 체크포인트가 저장되고 세션 간에 재사용할 수 있는 영구 워크스페이스 획득

이 환경은 특히 Qwen Image 2512 LoRA 학습에서 다음 경우에 유용합니다:

  • 공격적인 메모리 트릭 없이 1024×1024에서 더 빠른 반복이 필요
  • 더 큰 LoRA 랭크, 더 많은 버킷 또는 더 높은 배치 크기로 실험하고 싶음
  • CUDA 또는 드라이버 문제 디버깅에 시간을 쓰고 싶지 않음

👉 여기에서 열기: RunComfy 클라우드 AI Toolkit


3. Qwen-Image-2512 LoRA 트레이닝을 위한 하드웨어 및 VRAM 요구사항

3.1 하드웨어 계획: VRAM 티어와 ARA가 중요해지는 시점

Qwen 2512는 큽니다. 실용적인 Qwen Image 2512 LoRA 학습을 위해 티어로 생각하세요:

  • 24GB VRAM (일반적): 실행 가능하지만, 1024 훈련에는 일반적으로 저비트 양자화 + ARA가 필요
  • 40–48GB VRAM: 더 적은 타협으로 편안한 1024 훈련
  • 80GB+ VRAM: 가장 단순한 설정, 가장 빠른 반복, 메모리 최적화 필요성 감소

24GB 미만인 경우: 공격적인 메모리 전술로 더 낮은 해상도(예: 768)에서 훈련할 수 있지만, 더 느린 실행과 더 불안정한 안정성을 예상하세요.


3.2 ARA 설명: 그것이 무엇인지, 언제 사용하는지, 훈련에 미치는 영향

ARA란

ARA(Accuracy Recovery Adapter)는 매우 저비트 양자화(일반적으로 3비트 또는 4비트)와 함께 사용되는 복구 메커니즘입니다. 기본 모델은 VRAM을 절약하기 위해 양자화된 상태로 실행되며, ARA는 양자화로 손실된 정확도를 복구하는 데 도움을 줍니다.

Qwen 2512에서 ARA를 사용할 때

다음 중 하나가 필요한 경우 ARA를 사용하세요:

  • 24GB에서 1024×1024 Qwen 2512 훈련
  • OOM 문제 감소
  • 무거운 CPU 오프로드 없이 안정적인 수렴

ARA가 훈련에 미치는 영향 (트레이드오프)

장점

  • 소비자 GPU에서 1024 훈련 가능하게 함
  • "단순 저비트" 양자화에 비해 안정성이 향상되는 경우가 많음

단점

  • 추가적인 움직이는 부품 추가(도구/버전 호환성 중요)
  • 양자화가 실패하면 양자화 모드를 조정하거나 환경을 업데이트해야 할 수 있음

Qwen Image 2512 LoRA 학습 실용 가이드

  • 24GB에서 3비트 ARA로 시작
  • 양자화 오류 발생 시 4비트 ARA 시도
  • 문제가 지속되면 일시적으로 더 높은 정밀도의 양자화 모드를 사용하여 파이프라인의 나머지를 검증한 후 ARA로 돌아감

4. Qwen Image 2512 LoRA 학습용 데이터셋 구축

4.1 데이터셋 설계: 각 목표에 대해 수집할 것

대부분의 Qwen Image 2512 LoRA 학습 실패는 위장된 데이터셋 실패입니다.

보편적 규칙

  • 모든 것을 RGB로 변환(그레이스케일/CMYK 피하기)
  • 손상된/손상된 이미지 제거
  • 의도적으로 해당 샷이 지배하길 원하지 않는 한 거의 중복 피하기
  • 가능한 한 해상도를 일관되게 유지(또는 작은 버킷 세트 사용)

캐릭터 데이터셋 (15–50 이미지)

목표:

  • 30–60% 클로즈업 / 머리와 어깨
  • 30–50% 미디엄 샷
  • 10–20% 전신(선택사항이지만 의상/포즈 일반화에 도움)

"아이덴티티"가 일관된 신호가 되도록 조명과 배경을 충분히 다양하게 유지하세요.

스타일 데이터셋 (30–200 이미지)

목표:

  • 넓은 주제 다양성(사람, 객체, 환경)
  • 다양한 구도와 색상 상황
  • 일관된 스타일 단서(붓, 셰이딩, 팔레트, 필름 그레인 등)

Qwen-Image-2512 LoRA 트레이닝에서 스타일 LoRA는 스타일이 유일한 일관된 요소일 때 더 잘 일반화됩니다.

제품 / 개념 데이터셋 (20–80 이미지)

목표:

  • 일관된 각도와 프레이밍(정면/측면/45도)
  • 프레임 내 일관된 제품 스케일(극단적인 줌 차이 피하기)
  • 재질이 중요한 경우 여러 조명 조건(매트 vs 광택)
  • 깨끗한 배경이 초기에 도움(나중에 복잡한 장면 추가 가능)

4.2 캡션 및 트리거: 캐릭터 / 스타일 / 제품용 템플릿

Qwen 2512를 트리거만 또는 짧은 일관된 캡션으로 훈련할 수 있습니다.

4.2.1 핵심 캡션 규칙

많은 훈련 이미지에 특징이 나타나지만 캡션에서 언급하지 않으면, 모델은 트리거가 암시적으로 그 특징을 의미한다고 학습할 수 있습니다—따라서 트리거를 사용할 때마다 그것을 재현하려고 합니다.

이것이 LoRA가 활성화될 때마다 헤어스타일, 의상, 배경색 또는 카메라 스타일을 "강제"하는 일반적인 이유입니다.

4.2.2 캐릭터 캡션 템플릿

권장: 트리거 사용. 캡션은 짧게 유지.

  • 트리거만:

    [trigger]

  • 짧은 캡션:

    portrait photo of [trigger], studio lighting, sharp focus

    photo of [trigger], natural skin texture, realistic

얼굴 부분(눈, 코 등)을 과도하게 설명하는 것을 피하세요. 모델이 이미지에서 아이덴티티를 학습하게 하세요.

4.2.3 스타일 캡션 템플릿

트리거는 선택사항입니다. 사용하면 온/오프 스위치를 얻습니다.

  • 트리거 없음, 짧은 캡션:

    in a watercolor illustration style, soft edges, pastel palette

  • 트리거 + 짧은 캡션:

    [trigger], watercolor illustration, pastel palette, soft edges

스타일의 경우 캡션은 장면 내용이 아닌 스타일 속성을 설명해야 합니다.

4.2.4 제품/개념 캡션 템플릿

제어를 위해 트리거를 강력히 권장합니다.

  • 간단:

    product photo of [trigger], clean background, studio lighting

  • 제품에 정의적인 특징이 있는 경우:

    product photo of [trigger], transparent bottle, blue label, studio lighting

긴 캡션을 피하세요. 제품의 경우 일관된 표현이 지오메트리 안정성을 향상시킵니다.


5. 단계별: AI Toolkit에서 Qwen 2512 로라 학습

이 섹션은 AI Toolkit 훈련 인터페이스와 동일한 흐름을 따릅니다. 먼저 데이터셋을 만든 다음 패널별로 새 작업을 구성합니다.

5.1 단계 0 – 목표 선택 (캐릭터 vs 스타일 vs 제품)

설정을 건드리기 전에 무엇을 훈련할지 결정하세요. 이것이 캡션, 단계 및 정규화의 최적 기본값을 결정합니다.

  • 캐릭터 / 유사성: 가장 강한 아이덴티티 일관성(얼굴/외모). 블리드와 빠른 과적합의 위험이 가장 높음.
  • 스타일: 일관된 시각적 룩(팔레트/텍스처/조명). "모든 것 필터"가 될 위험이 가장 높음.
  • 제품 / 개념: 안정적인 객체 아이덴티티와 지오메트리. 형태/재질 드리프트 위험이 가장 높음.

확실하지 않다면 먼저 짧은 스모크 테스트를 실행하고(아래 TRAINING + SAMPLE 참조), 데이터셋이 얼마나 빨리 "각인"되는지 확인한 후 단계를 확정하세요.


5.2 단계 1 – AI Toolkit에서 데이터셋 생성

AI Toolkit 인터페이스에서 Datasets 탭을 엽니다.

최소 하나의 데이터셋을 생성합니다(예시 이름):

  • my_dataset_2512

이 데이터셋에 이미지를 업로드합니다.

데이터셋 품질 규칙 (모든 목표)

  • 모든 것을 RGB로 변환(그레이스케일/CMYK 피하기).
  • 손상된/손상된 파일 제거.
  • 의도적으로 해당 룩/포즈가 지배하길 원하지 않는 한 거의 중복 피하기.

권장 데이터셋 크기

  • 캐릭터: 15–50 이미지
  • 스타일: 30–200 이미지(더 많은 다양성이 도움)
  • 제품: 20–80 이미지(일관된 프레이밍이 도움)

5.3 단계 2 – 새 작업 생성

New Job 탭을 엽니다. 표시되는 순서대로 각 패널을 구성합니다.


5.3.1 JOB 패널 – Training Name, GPU ID, Trigger Word

  • Training Name

    나중에 인식할 수 있는 명확한 이름을 선택하세요(예: qwen_2512_character_v1, qwen_2512_style_v1, qwen_2512_product_v1).

  • GPU ID – 로컬 설치에서는 머신의 GPU를 선택합니다. RunComfy 클라우드 AI Toolkit에서는 GPU ID를 기본값으로 유지하세요. 실제 머신 유형(H100 / H200)은 Training Queue에서 작업을 시작할 때 나중에 선택합니다.
  • Trigger Word

    목표에 따른 권장 사용법:

    • 캐릭터: 강력히 권장(깨끗한 온/오프 제어를 제공하고 블리드 방지에 도움).
    • 스타일: 선택사항(항상 켜짐 대신 "호출 가능한 스타일"을 원할 경우 사용).
    • 제품: 강력히 권장(학습된 개념을 제어 가능하게 유지하는 데 도움).

트리거를 사용하는 경우 캡션에 [trigger]와 같은 플레이스홀더를 포함하고 일관된 템플릿을 따를 수 있습니다(아래 참조).


5.3.2 MODEL 패널 – Model Architecture, Name or Path, Options

  • Model Architecture

    Qwen-Image-2512를 선택합니다.

  • Name or Path

    Qwen/Qwen-Image-2512를 사용합니다. 대부분의 AI Toolkit 빌드에서 Qwen‑Image‑2512를 선택하면 이 값이 자동 입력됩니다.

    재정의하는 경우 Hugging Face 저장소 ID 형식 사용: org-or-user/model-name(선택적으로 org-or-user/model-name@revision).

  • Options
    • Low VRAM: Qwen Image 2512 LoRA 학습 시 24GB GPU에서 켜세요.
    • Layer Offloading: 양자화, 낮은 랭크, 적은 버킷을 사용해도 여전히 OOM이 발생하면 최후의 수단으로 취급합니다.

오프로딩 순서 (모범 사례):

1) ARA + Low VRAM

2) 랭크 줄이기

3) 해상도 버킷 줄이기

4) 샘플링 빈도/해상도 줄이기

5) 그 다음 Layer Offloading 활성화


5.3.3 QUANTIZATION 패널 – Transformer, Text Encoder

여기서 24GB에서의 대부분의 Qwen Image 2512 LoRA 학습 실행이 성공하거나 실패합니다.

  • 24GB 베이스라인 (1024 훈련에 권장)
    • Transformer를 양자화하고 ARA 사용(먼저 3비트, 필요시 4비트).
    • 추가 VRAM 여유가 필요하면 Text Encoder를 float8로 양자화.
  • 대용량 VRAM GPU

    훈련이 안정적이고 충분히 빠르면 단순성을 위해 양자화를 줄이거나 비활성화할 수 있습니다.

양자화가 실패하면(dtype/quantize 오류), 먼저 도구 호환성 문제로 취급하세요:

  • 3비트 ↔ 4비트 ARA 전환,
  • AI Toolkit/종속성 업데이트,
  • 또는 일시적으로 더 높은 정밀도 모드를 사용하여 작업 설정의 나머지를 검증한 후 ARA로 돌아감.

5.3.4 TARGET 패널 – Target Type, Linear Rank

  • Target Type: LoRA를 선택합니다.
  • Linear Rank

    목표별 권장 시작점:

    • 캐릭터: 32
    • 스타일: 16–32
    • 제품: 32

일반 규칙:

  • OOM인 경우 → 다른 모든 것을 건드리기 전에 랭크를 낮춤.
  • 언더피팅인 경우 → 먼저 timesteps/steps/LR을 조정한 후 랭크 증가를 고려.
  • 오버피팅인 경우 → 반복/단계 줄이기, 랭크 줄이기, 다양성 추가, DOP 고려.

5.3.5 SAVE 패널 – Data Type, Save Every, Max Step Saves to Keep

  • Data Type: BF16(안정적인 기본값).
  • Save Every: 250(좋은 체크포인트 간격).
  • Max Step Saves to Keep: 4(디스크 사용량 통제 유지).

5.3.6 TRAINING 패널 – 핵심 하이퍼파라미터

대부분의 실행이 시작하는 기본값입니다:

  • Batch Size: 1
  • Gradient Accumulation: 1
  • Optimizer: AdamW8Bit
  • Learning Rate: 0.0001
  • Weight Decay: 0.0001
  • Timestep Type: Weighted
  • Timestep Bias: Balanced
  • Loss Type: Mean Squared Error
  • Use EMA: OFF (Qwen 2512 LoRA의 경우)

목표별 Timestep Type 가이드

  • 캐릭터: Weighted는 안전한 베이스라인; 유사성이 고정되지 않거나 일관되지 않게 보이면 더 아이덴티티 친화적인 timestep 설정을 시도(종종 캐릭터 각인 개선).
  • 스타일: Weighted는 보통 괜찮음; 단계를 늘리기 전에 다양성을 늘림.
  • 제품: Weighted는 안정적인 베이스라인; 지오메트리가 드리프트하면 먼저 반복을 줄이거나 캡션/트리거를 조임.
단계: 캐릭터 vs 스타일 vs 제품의 권장 값

단계는 단일 마법의 숫자가 아니어야 합니다. 더 신뢰할 수 있는 방법은 이미지당 반복입니다:

  • 반복 ≈ (steps × batch_size × grad_accum) ÷ num_images
  • batch_size=1, grad_accum=1인 경우: steps ≈ 반복 × num_images

gradient accumulation을 2 또는 4로 늘리면 단계를 비례적으로 줄이세요.

캐릭터 (유사성) 이미지당 반복

  • 스모크 테스트: 30–50
  • 일반적인 스윗 스팟: 50–90
  • 고유사성 푸시: 90–120(블리드 주의)

예시 (batch=1, accum=1):

이미지 30–50 반복 50–90 반복 90–120 반복
15 450–750 750–1350 1350–1800
25 750–1250 1250–2250 2250–3000
40 1200–2000 2000–3600 3600–4800

스타일 이미지당 반복

  • 스모크 테스트: 15–30
  • 일반적인 스윗 스팟: 25–60
  • 상한: 60–80(크고 다양한 데이터셋에서만 사용)

예시 (batch=1, accum=1):

이미지 15–30 반복 25–60 반복 60–80 반복
30 450–900 750–1800 1800–2400
100 1500–3000 2500–6000 6000–8000

제품 / 개념 이미지당 반복

  • 스모크 테스트: 20–40
  • 일반적인 스윗 스팟: 30–70
  • 고충실도 푸시: 70–90(형태/재질이 여전히 언더피팅인 경우에만)

예시 (batch=1, accum=1):

이미지 20–40 반복 30–70 반복 70–90 반복
20 400–800 600–1400 1400–1800
50 1000–2000 1500–3500 3500–4500
80 1600–3200 2400–5600 5600–7200

Text Encoder 최적화 (TRAINING 오른쪽)
  • Unload TE

    VRAM 사용을 최소화하고 이미지별 캡션에 의존하지 않는 트리거 전용 워크플로우에만 사용.

  • Cache Text Embeddings

    다음 경우에만 활성화:

    • 캡션이 정적,
    • caption dropout이 OFF,
    • DOP가 OFF.

caption dropout이나 DOP를 사용하면 OFF로 유지하세요.


정규화 (TRAINING 오른쪽)

Differential Output Preservation (DOP)는 블리드를 방지하는 데 도움이 될 수 있습니다.

  • DOP의 역할

    LoRA가 제어된 델타로 동작하도록 권장:

    • 트리거가 있을 때 강한 효과,
    • 트리거가 없을 때 최소한의 효과.
  • DOP를 활성화할 때
    • 캐릭터: 보통 예(특히 깨끗한 트리거 온/오프 동작을 위해).
    • 스타일: 선택사항(호출 가능한 스타일을 원할 경우 사용).
    • 제품: 제품 아이덴티티가 모든 곳에 누출되면 권장.

Qwen Image 2512 LoRA 학습의 주요 호환성 규칙

DOP가 ON이면 text embeddings를 캐시하지 마세요.

Blank Prompt Preservation

빈 프롬프트에 대한 동작을 보존해야 할 특정 이유가 없으면 OFF로 유지하세요.


5.3.7 ADVANCED 패널 – 속도 및 안정성 옵션

  • Do Differential Guidance

    "학습 신호"를 높이는 선택적 노브. 활성화하면 보수적으로(중간 값으로) 시작하고 학습이 너무 느리다고 느껴질 때만 증가시키세요.

  • Latent 캐싱

    DATASETS 섹션에서 Cache Latents를 활성화할 수 있습니다(디스크가 충분하고 더 빠른 반복을 원하면 속도를 위해 권장).


5.3.8 DATASETS 패널 – Target Dataset, Default Caption, Settings, Resolutions

Dataset 1 내에서:

  • Target Dataset

    업로드한 데이터셋을 선택합니다(예: my_dataset_2512).

  • Default Caption

    캡션 전략에 따라 선택:

    • 트리거만: 비워두거나 [trigger]
    • 짧은 캡션: 전체 데이터셋에 대해 하나의 일관된 템플릿 사용

캡션 템플릿:

  • 캐릭터: portrait photo of [trigger], studio lighting, sharp focus
  • 스타일: [trigger], watercolor illustration, pastel palette, soft edges(트리거 선택사항)
  • 제품: product photo of [trigger], clean background, studio lighting

핵심 캡션 규칙

많은 훈련 이미지에 특징이 나타나지만 캡션에서 언급하지 않으면, 모델은 트리거가 암시적으로 그 특징을 의미한다고 학습할 수 있습니다—따라서 트리거를 사용할 때마다 그것을 재현하려고 합니다.

  • Caption Dropout Rate

    text embeddings를 캐시하지 않는 경우 0.05가 일반적인 시작점입니다.

    text embedding 캐싱을 활성화하면 dropout을 0으로 설정.

  • Settings
    • Cache Latents: 속도를 위해 권장(특히 대형 데이터셋에서).
    • Is Regularization: 이 데이터셋이 정규화 데이터셋인 경우에만 사용.
    • Flip X / Flip Y: 기본적으로 OFF. 미러 플립이 주제/제품에 안전한 경우에만 활성화(참고: 플립은 텍스트/로고를 깨뜨릴 수 있음).
  • Resolutions

    단순하게 시작:

    • 캐릭터: 1024만(깨끗한 각인), 필요시 나중에 768 추가
    • 스타일: 데이터셋이 크기를 혼합하면 768 + 1024
    • 제품: 처음에는 1024만, 형태가 안정되면 다른 버킷 추가

5.3.9 SAMPLE 패널 – 훈련 미리보기

샘플링은 Qwen Image 2512 LoRA 학습의 조기 경보 시스템입니다.

권장 기본값:

  • Sample Every: 250
  • Sampler: FlowMatch(훈련에 맞춤)
  • Guidance Scale: 4
  • Sample Steps: 25
  • Width/Height: 메인 훈련 버킷에 맞춤(종종 1024×1024)
  • Seed: 42
  • Walk Seed: 선택사항(미리보기에서 더 많은 다양성)

조기 중단 신호

  • 캐릭터: 유사성이 피크에 도달한 후 과도하게 처리됨; 아이덴티티 블리드 시작; 프롬프트 충실도 하락.
  • 스타일: "모든 것 필터"가 됨; 반복 텍스처 나타남; 프롬프트가 더 이상 존중되지 않음.
  • 제품: 개선 후 지오메트리가 왜곡됨; 라벨/로고가 과도하게 주장적이 됨; 재질이 저하됨.

5.4 단계 3 – 훈련 시작 및 모니터링

작업을 구성한 후 Training Queue로 이동하여 작업을 선택하고 훈련을 시작합니다.

두 가지를 관찰하세요:

  • VRAM 사용량(특히 24GB GPU에서)
  • 샘플 이미지(언제 중단해야 하는지, 어느 체크포인트가 최선인지 알려줌)

대부분의 사용자는 항상 최대 단계를 완료하는 대신 샘플링에서 최적의 체크포인트(종종 더 이른 시점)를 선택하여 더 나은 Qwen 2512 로라 학습 결과를 얻습니다.


6. VRAM 티어별 AI-Toolkit Qwen 2512 LoRA 학습 추천 설정

Qwen 2512는 큽니다. 실용적인 Qwen 2512 LoRA 훈련을 위해 티어로 생각하세요:

  • 24GB VRAM (일반적): 실행 가능하지만, 1024 훈련에는 일반적으로 저비트 양자화 + ARA가 필요
  • 40–48GB VRAM: 더 적은 타협으로 편안한 1024 훈련
  • 80GB+ VRAM: 가장 단순한 설정, 가장 빠른 반복, 메모리 최적화 필요성 감소

24GB 미만인 경우: 공격적인 메모리 전술로 더 낮은 해상도(예: 768)에서 훈련할 수 있지만, 더 느린 실행과 더 불안정한 안정성을 예상하세요.

다음 중 하나가 필요한 경우 ARA를 사용하세요:

  • 24GB에서 1024×1024 Qwen 2512 훈련
  • OOM 문제 감소
  • 무거운 CPU 오프로드 없이 안정적인 수렴

7. 일반적인 Qwen Image 2512 LoRA 학습 문제와 해결 방법

7.1 시작 시 양자화 실패 (Qwen-Image-2512에서 ARA / dtype 불일치)

증상

  • 시작 중 훈련이 즉시 중단.
  • "Failed to quantize … Expected dtype …"과 같은 오류.

원인

  • 선택한 ARA 또는 양자화 모드가 현재 AI Toolkit 빌드 또는 환경과 완전히 호환되지 않음.

해결 (가장 빠른 순서)

  1. Qwen-Image-2512를 지원하는 것으로 알려진 버전으로 AI Toolkit 및 종속성 업데이트.
  2. ARA 모드 전환:
    • 3비트 ARA 실패 → 4비트 ARA 시도.
    • 4비트 ARA 실패 → 3비트 ARA 시도.
  3. 일시적으로 더 높은 정밀도의 양자화 모드를 사용하여 훈련 설정의 나머지가 작동하는지 확인한 후 ARA로 돌아감.

7.2 배치 크기 > 1일 때 캐릭터 아이덴티티가 일반적으로 됨

증상

  • 초기 샘플은 유망해 보이지만 최종 LoRA는 "평균화"된 느낌.
  • 캐릭터가 더 이상 특정 사람처럼 보이지 않음.

원인

  • 더 큰 배치는 캐릭터를 위한 Qwen-Image-2512 LoRA 트레이닝에서 과도한 일반화를 촉진할 수 있음.

해결

  • Batch Size = 1Gradient Accumulation = 1을 선호.
  • 더 큰 유효 배치가 필요하면 Batch Size 대신 Gradient Accumulation을 늘리고 샘플을 면밀히 모니터링.

7.3 유사성이 "고정되지 않음" (잘못된 timestep 동작)

증상

  • 의상, 포즈 또는 분위기는 맞지만 얼굴이나 아이덴티티가 일관되지 않음.
  • 결과가 프롬프트 간에 많이 다름.

원인

  • 사실적인 캐릭터의 경우 Qwen-Image-2512는 가중 timesteps보다 sigmoid형 timestep 동작에 더 잘 반응하는 경우가 많음.

해결

  • 캐릭터(및 종종 제품) LoRA의 경우 Timestep Typesigmoid로 전환.
  • 초기에 샘플을 평가; 훈련 끝까지 기다리지 않음.

7.4 후반 체크포인트에서 얼굴이 "튀겨지거나" 왁스처럼 됨

증상

  • 한 체크포인트는 훌륭해 보이지만 이후 체크포인트는 과도하게 샤프닝되거나 플라스틱처럼 또는 불안정해 보임.
  • 아이덴티티 블리드가 빠르게 증가.

원인

  • Qwen-Image-2512 LoRA 학습에서 캐릭터 LoRA는 이미지당 약 ~100 반복을 초과하면 빠르게 저하될 수 있음.

해결

  1. 더 이른 체크포인트를 선택(종종 최선의 해결책).
  2. 총 반복/단계를 줄이고 권장 범위에 더 가깝게 유지.
  3. 필요하면 단계를 늘리기 전에 LoRA 랭크를 낮추거나 더 많은 데이터셋 다양성을 추가.

7.5 스타일 LoRA가 일관되지 않거나 "모든 것 필터"처럼 동작

증상

  • 때때로 스타일이 나타나고, 때때로 나타나지 않음.
  • 또는 항상 프롬프트 내용을 덮어씀.

원인

  • 스타일 LoRA는 종종 캐릭터 LoRA보다 더 많은 데이터셋 폭과 더 긴 전체 훈련이 필요.

해결

  • 더 다양한 스타일 예시 추가(사람, 객체, 환경).
  • 이미지당 반복을 합리적으로 유지하고 극단적인 반복 대신 더 많은 이미지로 총 신호를 증가.
  • 스타일이 둔탁한 글로벌 필터가 되는 것을 피하기 위해 자주 샘플링.

8. 훈련 후 Qwen 2512 LoRA 사용하기

훈련이 완료되면 Qwen 2512 LoRA를 두 가지 간단한 방법으로 사용할 수 있습니다:

  • Model playgroundQwen‑Image‑2512 LoRA 플레이그라운드를 열고 훈련된 LoRA의 URL을 붙여넣어 기본 모델에서 어떻게 동작하는지 빠르게 확인.
  • ComfyUI 워크플로우ComfyUI 인스턴스를 시작하고 자체 워크플로우를 구축하거나 Qwen Image 2512와 같은 워크플로우를 로드하고, LoRA 로더 노드를 추가하고 LoRA를 넣고, 더 세부적인 제어를 위해 LoRA 가중치 및 기타 설정을 미세 조정합니다.

Qwen 2512 LoRA 추론 테스트

캐릭터 테스트

  • 클로즈업 초상화 프롬프트
  • 미디엄 샷 프롬프트
  • 전신 프롬프트

스타일 테스트

  • 여러 주제 범주(인간/객체/환경)

제품 테스트

  • 깨끗한 스튜디오 프롬프트 + 하나의 복잡한 장면 프롬프트

더 많은 AI Toolkit LoRA 훈련 가이드

Ready to start training?