AI Toolkit LoRA Training Guides

Ostris AI Toolkit로 Qwen 2511 LoRA 학습하기(Qwen-Image-Edit-2511) (업데이트 가이드)

이 튜토리얼은 Ostris AI Toolkit에서 Qwen 2511(Qwen-Image-Edit-2511) LoRA를 학습해 멀티 이미지·geometry-aware 편집에 적용하는 방법을 설명합니다. 편집 데이터셋(컨트롤 + 지시문 → 타깃) 구성, 1~3개의 컨트롤 스트림을 고려한 VRAM 계획, 핵심 파라미터 튜닝, 그리고 자주 발생하는 오류를 해결하는 방법을 다룹니다.

Train Diffusion Models with Ostris AI Toolkit

가로로 스크롤하여 전체 양식 보기

Ostris AI ToolkitOstrisAI-Toolkit

New Training Job

Job

Model

Quantization

Target

Save

Training

Datasets

Dataset 1

Sample

Qwen‑Image‑Edit‑2511(흔히 Qwen 2511로 줄여 부름)은 Qwen의 "일관성 우선" 이미지 편집 체크포인트입니다: 이미지 드리프트를 줄이고, 창의적인 편집에서도 아이덴티티를 보존하며, 이미지의 일부만 편집할 때 구조적 충실도를 유지하도록 설계되었습니다. 또한 기본 가중치에 통합 LoRA 기능이 탑재되어 있고, 더 강력한 산업/제품 디자인 출력과 개선된 기하학적 추론을 제공하여 실용적이고 반복 가능한 편집 LoRA에 특히 매력적입니다.

이 가이드는 Ostris AI Toolkit을 사용한 Qwen 2511 LoRA 훈련 방법을 보여줍니다.

이 문서는 AI Toolkit LoRA 훈련 시리즈의 일부입니다. Ostris AI Toolkit이 처음이시라면, 이 가이드에 들어가기 전에 AI Toolkit LoRA 훈련 개요부터 시작하세요.

목차


1. Qwen 2511 vs 2509: 무엇이 다른가

Qwen 2511은 "예쁜 이미지 만들기" 체크포인트가 아닙니다 — 지시를 따르는 이미지 편집기입니다. Qwen 2509 LoRA 훈련에서 오셨다면, 2511을 "일관성 우선" 반복으로 생각하세요: 드리프트를 줄이고, 아이덴티티/구조를 보존하며, 요청한 부분에만 편집을 국한하도록 튜닝되어 있습니다(특히 제품/산업 디자인 작업과 기하학에 민감한 배치에서).

Qwen 2509와의 세 가지 차이점이 Qwen 2511 LoRA 훈련에 직접적으로 관련됩니다:

첫째: 더 강한 드리프트 저항과 아이덴티티 유지. Qwen 2509와 비교하여, Qwen 2511은 "변경되지 않은" 부분을 더 안정적으로 유지하는 경향이 있어, LoRA가 얼굴, 배경, 구도에 효과를 실수로 굽는 대신 더 깨끗한 편집 규칙을 학습할 수 있습니다.

둘째: 멀티 이미지 컨디셔닝은 여전히 핵심이지만, 컨트롤 신호가 깨끗해야 합니다. Qwen 2509처럼, Qwen 2511은 1-3개의 참조 이미지와 지시를 제공할 때 가장 잘 작동합니다. 실용적인 차이점은 2511이 잘 정렬된 컨트롤 스트림을 보상한다는 것입니다; 페어링이 잘못되었거나 컨트롤이 약하면 과도한 편집과 드리프트가 더 많이 발생합니다.

셋째: 더 많은 내장 LoRA 친화성(그리고 더 큰 특이성 필요). Qwen 2511은 기본 가중치에 더 강력한 내장 LoRA 용량을 가지고 있습니다. 이것은 실용적이고 반복 가능한 편집 LoRA에 훌륭하지만, 모호한 "만능 필터"가 되지 않도록 명확하고 좁은 매핑으로 훈련해야 함을 의미합니다.


2. 핵심 멘탈 모델: Edit LoRA가 실제로 학습하는 것

Qwen 2511의 경우, LoRA는 변환 규칙을 학습합니다:

"이 참조 이미지(들)와 이 지시가 주어지면, 일관성을 유지해야 하는 부분을 보존하면서 편집된 결과를 생성한다."

이것이 편집 데이터셋에 세 가지 구성 요소가 모두 필요한 이유입니다:

  • 컨트롤/참조 이미지: 보존해야 할 것 (아이덴티티, 기하학, 조명, 배경 — 작업에 필요한 것)
  • 지시 (캡션/프롬프트): 변경해야 할 것을 명시적으로 기술
  • 타겟 이미지: 변경을 보여주는 "이후" 결과

"이후" 이미지만 제공하면, 모델은 무엇을 유지해야 하는지에 대한 안정적인 신호가 없으므로 노이즈가 많은 지름길을 학습합니다: 아이덴티티, 배경 또는 구도에 변경 사항을 구워 넣을 수 있습니다. 이것은 "LoRA가 강하다"처럼 보이지만, 실제로는 제어되지 않는 드리프트입니다.

데이터셋이 "편집에 적합한지" 판단하는 가장 간단한 방법은 이것입니다: 지시를 제거하면, 사람이 컨트롤과 타겟을 비교하여 무엇이 변경되었는지 추론할 수 있습니까? 그렇다면, 학습 가능한 편집 신호가 있습니다. 그렇지 않다면(또는 변경이 모호하다면), LoRA는 취약할 것입니다.


3. 어디서 훈련할 것인가: 로컬 AI Toolkit vs RunComfy Cloud AI Toolkit

로컬 AI Toolkit은 이미 호환되는 NVIDIA GPU가 있고, CUDA/PyTorch 버전 관리에 익숙하며, 파일과 반복에 대한 최대한의 제어를 원할 때 가장 좋습니다. (Ostris의 GitHub 저장소에서 AI Toolkit 설치: ostris/ai-toolkit.) Qwen 2511 LoRA 훈련의 경우, 로컬 훈련은 완전히 실행 가능합니다 — 하지만 모델이 무겁고, 멀티 이미지 컨디셔닝이 VRAM을 빠르게 증가시킬 수 있으므로, 양자화, 저 VRAM 모드 또는 더 작은 해상도 버킷에 의존하게 될 것입니다.

RunComfy Cloud AI Toolkit은 "설정 건너뛰기" 경로이며 Qwen 2511 LoRA 훈련에 특히 실용적인 선택입니다. 브라우저에서 동일한 AI Toolkit UI를 실행하지만, 큰 GPU를 사용할 수 있고(환경 서프라이즈도 적음). 팀에도 편리합니다: 데이터셋, 구성, 체크포인트가 영구 워크스페이스에 유지되므로 일회성 로컬 실험이 아닌 제품 워크플로우처럼 반복할 수 있습니다.

👉 여기서 열기: RunComfy의 Cloud AI Toolkit


4. Qwen-Edit-2511 LoRA 훈련을 위한 하드웨어 및 VRAM 계획

Qwen 2511은 큰 백본을 가지고 있으며 최상의 결과를 위해 기본적으로 1024×1024에서 실행되도록 설계되었습니다. 또한, 각 추가 컨트롤 이미지 스트림이 메모리 사용량을 증가시킵니다, 왜냐하면 모델이 더 많은 컨디셔닝 정보를 처리해야 하기 때문입니다.

실제로, Qwen 2511 LoRA 훈련에는 세 가지 실행 가능한 티어가 있습니다:

티어 A: 24-32GB VRAM (힘들지만 가능).

공격적인 전략을 예상하세요: 저 VRAM 모드, 그래디언트 체크포인팅, 더 작은 버킷(종종 768이 시작점), 양자화(빌드가 제공하는 경우 Accuracy Recovery Adapter 옵션이 이상적). 배치 크기를 1로 유지하고 그래디언트 누적으로 스케일합니다.

티어 B: 40-48GB VRAM (편안함).

종종 하나 또는 두 개의 컨트롤 스트림으로 1024에서 훈련할 수 있으며, 적당한 양자화 또는 거의 bf16으로(정확한 설정에 따라). 이 티어는 Qwen Edit LoRA 훈련이 "섬세한" 대신 "반복 가능한"이 되는 지점입니다.

티어 C: 80GB+ VRAM (빠르고 마찰 적음).

더 많은 구성 요소를 bf16으로 유지하고, 멀티 컨트롤 데이터셋을 편안하게 실행하고, 더 자주 샘플링하고, 빠르게 반복할 수 있습니다 — 이것은 RunComfy Cloud AI Toolkit에서 큰 GPU로 얻는 설정입니다.

핵심 아이디어: 해상도와 컨트롤 스트림 수가 가장 큰 VRAM 레버입니다. 막히면, 학습률을 무작위로 조정하기 전에 이것들을 변경하세요.


5. Qwen Edit 모델에서 실제로 작동하는 데이터셋 설계

5.1 AI Toolkit Qwen Edit 트레이너에 맞는 폴더 구조

90%의 버그를 방지하는 실용적인 구조:

  • targets/ → 편집된 "이후" 이미지
  • control_1/ → 첫 번째 참조 이미지 스트림(종종 "이전" 이미지)
  • control_2/ → 두 번째 참조 스트림(선택 사항; 두 번째 인물/제품/배경/디자인)
  • control_3/ → 세 번째 스트림(드묾; 워크플로우가 정말 필요한 경우에만)
  • captions/ → 파일 이름으로 정렬된 선택적 .txt 캡션(또는 워크플로우에 따라 타겟 옆에 저장된 캡션)

중요한 부분은 페어링입니다. AI Toolkit은 targets/0001.pngcontrol_1/0001.png(및 control_2/0001.png 등)와 매칭할 수 있을 때만 올바르게 훈련할 수 있습니다. 파일 순서가 다르면, LoRA는 잘못된 매핑을 학습하고 "훈련되지만 무작위로 보인다"는 결과를 얻게 됩니다.


5.2 대부분의 실제 LoRA를 커버하는 세 가지 데이터셋 패턴

패턴 A: 단일 참조 편집(1개의 컨트롤 이미지).

사용 대상: 색상 변경, 로컬 오브젝트 교체, 리라이팅, 배경 교체, "이것을 수채화로 만들기" 등. control_1은 원본 이미지, 타겟은 편집 결과, 캡션은 직접적인 지시("모자를 빨간색으로 만들기")입니다. 이 패턴은 훈련과 디버그가 가장 쉽습니다.

패턴 B: 멀티 참조 퓨전(2-3개의 컨트롤 이미지).

사용 대상: 인물 + 인물, 인물 + 장면, 제품 + 배경, "이 두 아이덴티티 병합", 또는 모델이 여러 소스를 보존하기를 원하는 모든 상황. 캡션은 각 참조의 역할을 명확히 해야 합니다("ref1에서 인물 사용, ref2에서 배경 사용").

패턴 C: 디자인 삽입 트리플렛(빈 + 디자인 → 적용됨).

이것은 상업 작업에서 ROI가 가장 높은 데이터셋 패턴입니다: 셔츠에 로고, 제품에 스티커, 천에 패턴, 패키지에 라벨. control_1은 디자인이 없는 제품/인물, control_2는 디자인 이미지, 타겟은 최종 "디자인 적용" 이미지입니다. 이 분리는 LoRA에게 무엇을 보존할지(기하학/조명/재질) vs 무엇을 변경할지(디자인 영역)를 정확히 가르칩니다.


5.3 도움이 되는(해가 되지 않는) 캡션

Edit LoRA의 경우, 캡션은 설명이 아닌 지시처럼 작동해야 합니다. "야외에서 셔츠를 입은 남자"는 유용하지 않습니다; "제공된 로고를 가슴 중앙에 배치하고, 천 주름과 조명을 보존"이 유용합니다.

좋은 지시 캡션은 보통 다음을 포함합니다:

  • 의도된 변경
  • 보존해야 할 것
  • 배치 또는 기하학 제약(특히 디자인 삽입의 경우)

데이터셋 전체에서 캡션을 일관되게 유지하세요. 일관성은 매핑을 학습하기 쉽게 만들고 추론 시 LoRA를 더 제어 가능하게 만듭니다.


5.4 얼마나 많은 샘플이 필요한가?

좁고 반복 가능한 편집(로고 삽입, 특정 리라이팅 규칙, 일관된 재질 변환)의 경우, 종종 20-60개의 잘 구성된 트리플렛으로 시작할 수 있습니다. 더 넓은 스타일화나 멀티 주제 퓨전의 경우, "일관성을 유지해야 하는 것"의 공간이 더 크기 때문에 60-200+ 예제를 계획하세요.

확실하지 않으면, 8-12개 샘플의 "스모크 테스트" 세트로 작게 시작하세요. 스모크 테스트의 목표는 품질이 아닙니다 — 긴 실행에 투자하기 전에 페어링과 컨트롤 배선이 작동하는지 확인하는 것입니다.


6. 단계별: AI Toolkit에서 Qwen 2511 LoRA 훈련하기

6.1 AI Toolkit에서 데이터셋 생성(Targets + Control Streams)

DATASETS에서(폴더 구조 로직은 섹션 5 참조):

  • targets/에 대한 데이터셋을 생성한 다음, 사용하는 경우 control_1 / control_2 / control_3을 추가합니다.
  • 타겟과 컨트롤 간에 개수와 파일 이름 페어링이 일치하는지 확인합니다(~10개 샘플 스팟 체크).
  • 캡션을 사용하는 경우, 캡션 확장자(보통 .txt)를 설정하고 캡션 파일 이름을 타겟과 일치시킵니다.

6.2 새 작업 생성

JOB에서:

  • 나중에 인식할 수 있는 훈련 이름을 선택합니다.
  • 단일 키워드로 LoRA를 "호출 가능"하게 만들고 싶은 경우에만 트리거 워드를 설정합니다. 많은 Edit LoRA의 경우, 지시 자체로 충분하며 트리거는 선택 사항입니다.
  • 첫 번째 실행에서는 Steps를 보수적으로 설정합니다(완벽한 최종 모델이 아닌 설정을 검증하고 있습니다).

MODEL에서:

  • Qwen Image Edit "Plus" 아키텍처(멀티 이미지 편집 변형)를 선택합니다.
  • Name or Path – 기본 체크포인트의 Hugging Face model id(repo id), 예: Qwen/Qwen-Image-Edit-2511.

    대부분의 AI Toolkit 빌드에서 모델 아키텍처를 선택하면 이 값이 자동으로 채워집니다; 변경할 이유가 없으면 그대로 두세요.

  • GPU가 지원하는 경우 bf16을 사용합니다; 그렇지 않으면 FP16도 작동하지만, 사용 가능한 경우 bf16이 일반적으로 더 안정적입니다.
  • 필요한 경우에만 "Low VRAM" 또는 오프로딩 옵션을 활성화합니다; 가능하면 간단하게 시작하세요.

QUANTIZATION에서(필요한 경우에만):

  • 24-32GB에서는 먼저 트랜스포머/백본을 양자화합니다. 빌드가 Qwen 2511용 "with ARA" 옵션을 제공하는 경우, 더 많은 품질을 유지하는 경향이 있으므로 일반 저비트 양자화보다 선호합니다.
  • 트랜스포머 양자화 후에도 VRAM이 빠듯한 경우에만 텍스트 인코더/컨디셔닝 측을 양자화합니다.

TARGET / NETWORK에서(LoRA 설정):

  • 적당한 랭크로 시작합니다. "규칙 같은" 편집(로고 삽입, 리라이팅)의 경우, 극단적인 랭크가 필요하지 않은 경우가 많습니다.
  • 빌드가 별도의 linear/conv 랭크를 노출하는 경우, 특정 작업에 도움이 된다는 증거가 없으면 conv를 보수적으로 유지합니다. 과도한 파라미터화는 오버피팅과 드리프트로 가는 빠른 길입니다.

TRAINING에서:

  • Batch Size = 1을 유지하고 필요한 경우 효과적인 배치를 늘리기 위해 Gradient Accumulation을 사용합니다.
  • VRAM이 제한된 경우 AdamW 8-bit으로 시작합니다.
  • 빌드가 제공하는 Qwen 권장/기본 스케줄러 설정을 사용합니다(Qwen Edit 작업의 경우 일반적으로 플로우 매칭 스케줄러).
  • 언어 동작을 적응시킬 특정 이유가 없으면 첫 번째 성공적인 실행에서 "train text encoder"를 끄고 두세요. 대부분의 실용적인 Edit LoRA는 백본/트랜스포머 적응만 필요합니다.
  • VRAM이 빠듯한 경우 Gradient Checkpointing을 켭니다.

DATASETS / RESOLUTIONS (Buckets)에서:

  • 가능하다면, 1024는 Qwen Edit 품질을 위한 강력한 기본값입니다.
  • VRAM이 제한된 경우, 첫 번째 실행에서 768을 사용한 다음 파이프라인이 올바르게 배선되었음을 확인한 후 스케일업합니다.
  • 매핑을 불일치하게 만드는 혼란스러운 분포 대신 작은 버킷 세트(예: 768과 1024)를 선호합니다.

SAMPLE / PREVIEWS에서:

샘플링은 조기 경고 시스템입니다. 실제 사용 사례를 나타내는 1-3개의 미리보기 프롬프트를 구성하고, 체크포인트를 시각적으로 비교할 수 있도록 항상 동일한 고정 컨트롤 이미지와 시드를 사용합니다.

초기 실행을 위한 좋은 샘플링 빈도:

  • 초기에 100-250 스텝마다 샘플
  • 250-500 스텝마다 체크포인트 저장
  • 디스크 부풀림을 피하기 위해 최근 체크포인트만 유지

6.3 훈련이 작동하는지 알 수 있는 방법

~200-500 스텝에서 다음 중 적어도 하나를 볼 수 있어야 합니다:

  • 편집이 일관되게 발생하기 시작함
  • 보존된 부분(아이덴티티/배경/기하학)이 "무작위 생성"보다 더 안정적으로 유지됨
  • 변경이 캡션 지시와 방향적으로 일치함

노이즈만 보이거나 모델이 컨트롤을 무시하면, 먼저 학습률로 "수정"하지 마세요. 먼저 페어링, 컨트롤 배선, zero_cond_t를 수정하세요.


7. 2511 전용 스위치: zero_cond_t

이것은 중요한 2511 전용 세부 사항입니다. zero_cond_t는 모델이 하나의 디노이즈된 스트림(생성되는 이미지)과 컨디셔닝 스트림(참조/컨트롤 이미지)을 가질 때 타임스텝이 스트림 간에 어떻게 적용되는지를 변경합니다. zero_cond_t가 활성화되면, 컨디셔닝 이미지는 깨끗한 참조(사실상 타임스텝 0)로 처리되고, 메인 이미지는 정상적인 디퓨전 타임스텝 스케줄을 따릅니다.

컨디셔닝 이미지가 메인 스트림과 함께 "노이즈"가 추가되면, 모델은 아이덴티티/구조에 대해 더 약하고 흐릿한 참조를 갖게 됩니다. 이것은 직접적으로 드리프트를 증가시키고 편집 충실도를 감소시킵니다. 컨트롤을 타임스텝 0에 유지하는 것은 "참조 보존" 목표와 일치하는 깔끔한 엔지니어링 선택입니다.

Qwen 2511의 경우, zero_cond_t를 하이퍼파라미터가 아닌 호환성 요구 사항으로 취급하세요:

  • 훈련에서 활성화합니다.
  • 추론에서도 활성화된 상태로 유지합니다.
  • 결과가 2511로 알려진 것보다 예상치 못하게 더 드리프트되는 것처럼 보이면, 이것이 먼저 확인해야 할 사항입니다.

8. 일반적인 훈련 실패와 해결책

8.1 "Missing control images for QwenImageEditPlusModel"

이것이 보이면, AI Toolkit이 훈련 시간에 컨트롤 이미지를 받지 못했다고 알려주는 것입니다. 가장 일반적인 원인은:

  • 타겟 데이터셋을 첨부했지만 데이터셋/작업 배선에서 control_1 / control_2를 할당하지 않음
  • 컨트롤 폴더 경로가 잘못되었거나 비어 있음
  • 타겟/컨트롤 개수가 일치하지 않아 일부 샘플에서 컨트롤 로드 실패

컨트롤을 명시적으로 만들어 수정합니다: 데이터셋 할당을 다시 확인하고, 폴더 경로를 확인하고, 파일 이름/개수가 스트림 간에 일치하는지 확인합니다.


8.2 "tuple index out of range" / 훈련 초기 텐서 형상 오류

이것은 거의 항상 로더가 이미지 텐서를 기대했지만 None 또는 예상치 못한 형상을 받았음을 의미합니다. 근본적인 이유는 보통 지루하지만 수정 가능합니다:

  • 손상된 이미지 파일
  • 지원되지 않는 이미지 모드(CMYK, 그레이스케일)
  • 특정 인덱스에 대한 컨트롤 이미지 누락(페어링 불일치)

수정 루프는 다음과 같아야 합니다: 데이터 무결성 검증 → 페어링 검증 → 큰 작업을 다시 시작하기 전에 작은 스모크 테스트(3-5개 샘플) 실행.


8.3 KeyError: 'pixel_values' (종종 그레이스케일 이미지로 인해 발생)

Qwen Edit 파이프라인은 일반적으로 RGB 이미지를 기대합니다. 그레이스케일 이미지(단일 채널)는 특징 추출을 깨뜨리고 pixel_values 오류를 발생시킬 수 있습니다. 데이터셋 이미지를 표준 3채널 RGB PNG/JPG로 변환하고 다시 시도하세요.


8.4 Out of memory (OOM), 특히 샘플링 중

멀티 이미지 편집 훈련은 추가 포워드 패스를 실행하고 더 큰 중간 버퍼를 사용할 수 있기 때문에 미리보기 샘플링 중에 VRAM이 급증할 수 있습니다.

이 순서로 OOM을 수정합니다:

  1. 미리보기 빈도 또는 미리보기 해상도 줄이기
  2. 배치 크기를 1로 유지하고 그래디언트 누적 증가
  3. 버킷 줄이기(또는 768로 내리기)
  4. 양자화/오프로딩 활성화
  5. 디버깅 중 일시적으로 더 적은 컨트롤 스트림으로 훈련
  6. 여전히 로컬에서 OOM이 발생하면, RunComfy Cloud AI Toolkit에서 더 큰 GPU로 동일한 작업 실행

8.5 LoRA가 로드되지만 ComfyUI에서 "아무것도 하지 않음"(또는 키가 누락된 상태로 로드됨)

LoRA가 아무것도 하지 않을 때, 보통 다음 중 하나입니다:

  • 훈련된 아키텍처와 다른 아키텍처에 로드하고 있음
  • LoRA 스케일이 너무 낮아 눈에 띄지 않음
  • 추론 스택이 기대하는 것과 트레이너가 저장한 것 사이에 키 접두사 불일치가 있음

특히 Qwen LoRA에 대해 누락된 키 경고가 보이면, 알려진 해결 방법은 LoRA 상태 딕트 키 접두사를 다시 작성하는 것입니다(예: diffusion_model. 키를 transformer. 키로 매핑). AI Toolkit 빌드와 ComfyUI 노드가 모두 최신이면 이미 수정되었을 수 있습니다 — 하지만 체계적인 "keys not loaded" 문제가 보이면 먼저 시도해볼 사항입니다.


9. 훈련된 LoRA 사용하기 (Playground + ComfyUI)

훈련이 완료되면, Qwen 2511 LoRA를 검증하는 가장 빠른 방법은 Qwen‑Image‑Edit‑2511 LoRA Playground에 로드하는 것입니다; 실제 작업을 위한 반복 가능한 노드 그래프를 원하면, Qwen‑Image‑Edit‑2511 ComfyUI 워크플로우에서 시작하여 LoRA를 교체하세요.


더 많은 AI Toolkit LoRA 훈련 가이드

Ready to start training?