Qwen‑Image‑Edit‑2511(흔히 Qwen 2511로 줄여 부름)은 Qwen의 "일관성 우선" 이미지 편집 체크포인트입니다: 이미지 드리프트를 줄이고, 창의적인 편집에서도 아이덴티티를 보존하며, 이미지의 일부만 편집할 때 구조적 충실도를 유지하도록 설계되었습니다. 또한 기본 가중치에 통합 LoRA 기능이 탑재되어 있고, 더 강력한 산업/제품 디자인 출력과 개선된 기하학적 추론을 제공하여 실용적이고 반복 가능한 편집 LoRA에 특히 매력적입니다.
이 가이드는 Ostris AI Toolkit을 사용한 Qwen 2511 LoRA 훈련 방법을 보여줍니다.
이 문서는 AI Toolkit LoRA 훈련 시리즈의 일부입니다. Ostris AI Toolkit이 처음이시라면, 이 가이드에 들어가기 전에 AI Toolkit LoRA 훈련 개요부터 시작하세요.
목차
- 1. Qwen 2511 vs 2509: 무엇이 다른가
- 2. 핵심 멘탈 모델: Edit LoRA가 실제로 학습하는 것
- 3. 어디서 훈련할 것인가: 로컬 AI Toolkit vs RunComfy Cloud AI Toolkit
- 4. Qwen-Edit-2511 LoRA 훈련을 위한 하드웨어 및 VRAM 계획
- 5. Qwen Edit 모델에서 실제로 작동하는 데이터셋 설계
- 6. 단계별: AI Toolkit에서 Qwen 2511 LoRA 훈련하기
- 7. 2511 전용 스위치:
zero_cond_t - 8. 일반적인 훈련 실패와 해결책
- 9. 훈련된 LoRA 사용하기 (Playground + ComfyUI)
1. Qwen 2511 vs 2509: 무엇이 다른가
Qwen 2511은 "예쁜 이미지 만들기" 체크포인트가 아닙니다 — 지시를 따르는 이미지 편집기입니다. Qwen 2509 LoRA 훈련에서 오셨다면, 2511을 "일관성 우선" 반복으로 생각하세요: 드리프트를 줄이고, 아이덴티티/구조를 보존하며, 요청한 부분에만 편집을 국한하도록 튜닝되어 있습니다(특히 제품/산업 디자인 작업과 기하학에 민감한 배치에서).
Qwen 2509와의 세 가지 차이점이 Qwen 2511 LoRA 훈련에 직접적으로 관련됩니다:
첫째: 더 강한 드리프트 저항과 아이덴티티 유지. Qwen 2509와 비교하여, Qwen 2511은 "변경되지 않은" 부분을 더 안정적으로 유지하는 경향이 있어, LoRA가 얼굴, 배경, 구도에 효과를 실수로 굽는 대신 더 깨끗한 편집 규칙을 학습할 수 있습니다.
둘째: 멀티 이미지 컨디셔닝은 여전히 핵심이지만, 컨트롤 신호가 깨끗해야 합니다. Qwen 2509처럼, Qwen 2511은 1-3개의 참조 이미지와 지시를 제공할 때 가장 잘 작동합니다. 실용적인 차이점은 2511이 잘 정렬된 컨트롤 스트림을 보상한다는 것입니다; 페어링이 잘못되었거나 컨트롤이 약하면 과도한 편집과 드리프트가 더 많이 발생합니다.
셋째: 더 많은 내장 LoRA 친화성(그리고 더 큰 특이성 필요). Qwen 2511은 기본 가중치에 더 강력한 내장 LoRA 용량을 가지고 있습니다. 이것은 실용적이고 반복 가능한 편집 LoRA에 훌륭하지만, 모호한 "만능 필터"가 되지 않도록 명확하고 좁은 매핑으로 훈련해야 함을 의미합니다.
2. 핵심 멘탈 모델: Edit LoRA가 실제로 학습하는 것
Qwen 2511의 경우, LoRA는 변환 규칙을 학습합니다:
"이 참조 이미지(들)와 이 지시가 주어지면, 일관성을 유지해야 하는 부분을 보존하면서 편집된 결과를 생성한다."
이것이 편집 데이터셋에 세 가지 구성 요소가 모두 필요한 이유입니다:
- 컨트롤/참조 이미지: 보존해야 할 것 (아이덴티티, 기하학, 조명, 배경 — 작업에 필요한 것)
- 지시 (캡션/프롬프트): 변경해야 할 것을 명시적으로 기술
- 타겟 이미지: 변경을 보여주는 "이후" 결과
"이후" 이미지만 제공하면, 모델은 무엇을 유지해야 하는지에 대한 안정적인 신호가 없으므로 노이즈가 많은 지름길을 학습합니다: 아이덴티티, 배경 또는 구도에 변경 사항을 구워 넣을 수 있습니다. 이것은 "LoRA가 강하다"처럼 보이지만, 실제로는 제어되지 않는 드리프트입니다.
데이터셋이 "편집에 적합한지" 판단하는 가장 간단한 방법은 이것입니다: 지시를 제거하면, 사람이 컨트롤과 타겟을 비교하여 무엇이 변경되었는지 추론할 수 있습니까? 그렇다면, 학습 가능한 편집 신호가 있습니다. 그렇지 않다면(또는 변경이 모호하다면), LoRA는 취약할 것입니다.
3. 어디서 훈련할 것인가: 로컬 AI Toolkit vs RunComfy Cloud AI Toolkit
로컬 AI Toolkit은 이미 호환되는 NVIDIA GPU가 있고, CUDA/PyTorch 버전 관리에 익숙하며, 파일과 반복에 대한 최대한의 제어를 원할 때 가장 좋습니다. (Ostris의 GitHub 저장소에서 AI Toolkit 설치: ostris/ai-toolkit.) Qwen 2511 LoRA 훈련의 경우, 로컬 훈련은 완전히 실행 가능합니다 — 하지만 모델이 무겁고, 멀티 이미지 컨디셔닝이 VRAM을 빠르게 증가시킬 수 있으므로, 양자화, 저 VRAM 모드 또는 더 작은 해상도 버킷에 의존하게 될 것입니다.
RunComfy Cloud AI Toolkit은 "설정 건너뛰기" 경로이며 Qwen 2511 LoRA 훈련에 특히 실용적인 선택입니다. 브라우저에서 동일한 AI Toolkit UI를 실행하지만, 큰 GPU를 사용할 수 있고(환경 서프라이즈도 적음). 팀에도 편리합니다: 데이터셋, 구성, 체크포인트가 영구 워크스페이스에 유지되므로 일회성 로컬 실험이 아닌 제품 워크플로우처럼 반복할 수 있습니다.
👉 여기서 열기: RunComfy의 Cloud AI Toolkit
4. Qwen-Edit-2511 LoRA 훈련을 위한 하드웨어 및 VRAM 계획
Qwen 2511은 큰 백본을 가지고 있으며 최상의 결과를 위해 기본적으로 1024×1024에서 실행되도록 설계되었습니다. 또한, 각 추가 컨트롤 이미지 스트림이 메모리 사용량을 증가시킵니다, 왜냐하면 모델이 더 많은 컨디셔닝 정보를 처리해야 하기 때문입니다.
실제로, Qwen 2511 LoRA 훈련에는 세 가지 실행 가능한 티어가 있습니다:
티어 A: 24-32GB VRAM (힘들지만 가능).
공격적인 전략을 예상하세요: 저 VRAM 모드, 그래디언트 체크포인팅, 더 작은 버킷(종종 768이 시작점), 양자화(빌드가 제공하는 경우 Accuracy Recovery Adapter 옵션이 이상적). 배치 크기를 1로 유지하고 그래디언트 누적으로 스케일합니다.
티어 B: 40-48GB VRAM (편안함).
종종 하나 또는 두 개의 컨트롤 스트림으로 1024에서 훈련할 수 있으며, 적당한 양자화 또는 거의 bf16으로(정확한 설정에 따라). 이 티어는 Qwen Edit LoRA 훈련이 "섬세한" 대신 "반복 가능한"이 되는 지점입니다.
티어 C: 80GB+ VRAM (빠르고 마찰 적음).
더 많은 구성 요소를 bf16으로 유지하고, 멀티 컨트롤 데이터셋을 편안하게 실행하고, 더 자주 샘플링하고, 빠르게 반복할 수 있습니다 — 이것은 RunComfy Cloud AI Toolkit에서 큰 GPU로 얻는 설정입니다.
핵심 아이디어: 해상도와 컨트롤 스트림 수가 가장 큰 VRAM 레버입니다. 막히면, 학습률을 무작위로 조정하기 전에 이것들을 변경하세요.
5. Qwen Edit 모델에서 실제로 작동하는 데이터셋 설계
5.1 AI Toolkit Qwen Edit 트레이너에 맞는 폴더 구조
90%의 버그를 방지하는 실용적인 구조:
targets/→ 편집된 "이후" 이미지control_1/→ 첫 번째 참조 이미지 스트림(종종 "이전" 이미지)control_2/→ 두 번째 참조 스트림(선택 사항; 두 번째 인물/제품/배경/디자인)control_3/→ 세 번째 스트림(드묾; 워크플로우가 정말 필요한 경우에만)captions/→ 파일 이름으로 정렬된 선택적.txt캡션(또는 워크플로우에 따라 타겟 옆에 저장된 캡션)
중요한 부분은 페어링입니다. AI Toolkit은 targets/0001.png를 control_1/0001.png(및 control_2/0001.png 등)와 매칭할 수 있을 때만 올바르게 훈련할 수 있습니다. 파일 순서가 다르면, LoRA는 잘못된 매핑을 학습하고 "훈련되지만 무작위로 보인다"는 결과를 얻게 됩니다.
5.2 대부분의 실제 LoRA를 커버하는 세 가지 데이터셋 패턴
패턴 A: 단일 참조 편집(1개의 컨트롤 이미지).
사용 대상: 색상 변경, 로컬 오브젝트 교체, 리라이팅, 배경 교체, "이것을 수채화로 만들기" 등. control_1은 원본 이미지, 타겟은 편집 결과, 캡션은 직접적인 지시("모자를 빨간색으로 만들기")입니다. 이 패턴은 훈련과 디버그가 가장 쉽습니다.
패턴 B: 멀티 참조 퓨전(2-3개의 컨트롤 이미지).
사용 대상: 인물 + 인물, 인물 + 장면, 제품 + 배경, "이 두 아이덴티티 병합", 또는 모델이 여러 소스를 보존하기를 원하는 모든 상황. 캡션은 각 참조의 역할을 명확히 해야 합니다("ref1에서 인물 사용, ref2에서 배경 사용").
패턴 C: 디자인 삽입 트리플렛(빈 + 디자인 → 적용됨).
이것은 상업 작업에서 ROI가 가장 높은 데이터셋 패턴입니다: 셔츠에 로고, 제품에 스티커, 천에 패턴, 패키지에 라벨. control_1은 디자인이 없는 제품/인물, control_2는 디자인 이미지, 타겟은 최종 "디자인 적용" 이미지입니다. 이 분리는 LoRA에게 무엇을 보존할지(기하학/조명/재질) vs 무엇을 변경할지(디자인 영역)를 정확히 가르칩니다.
5.3 도움이 되는(해가 되지 않는) 캡션
Edit LoRA의 경우, 캡션은 설명이 아닌 지시처럼 작동해야 합니다. "야외에서 셔츠를 입은 남자"는 유용하지 않습니다; "제공된 로고를 가슴 중앙에 배치하고, 천 주름과 조명을 보존"이 유용합니다.
좋은 지시 캡션은 보통 다음을 포함합니다:
- 의도된 변경
- 보존해야 할 것
- 배치 또는 기하학 제약(특히 디자인 삽입의 경우)
데이터셋 전체에서 캡션을 일관되게 유지하세요. 일관성은 매핑을 학습하기 쉽게 만들고 추론 시 LoRA를 더 제어 가능하게 만듭니다.
5.4 얼마나 많은 샘플이 필요한가?
좁고 반복 가능한 편집(로고 삽입, 특정 리라이팅 규칙, 일관된 재질 변환)의 경우, 종종 20-60개의 잘 구성된 트리플렛으로 시작할 수 있습니다. 더 넓은 스타일화나 멀티 주제 퓨전의 경우, "일관성을 유지해야 하는 것"의 공간이 더 크기 때문에 60-200+ 예제를 계획하세요.
확실하지 않으면, 8-12개 샘플의 "스모크 테스트" 세트로 작게 시작하세요. 스모크 테스트의 목표는 품질이 아닙니다 — 긴 실행에 투자하기 전에 페어링과 컨트롤 배선이 작동하는지 확인하는 것입니다.
6. 단계별: AI Toolkit에서 Qwen 2511 LoRA 훈련하기
6.1 AI Toolkit에서 데이터셋 생성(Targets + Control Streams)
DATASETS에서(폴더 구조 로직은 섹션 5 참조):
targets/에 대한 데이터셋을 생성한 다음, 사용하는 경우control_1/control_2/control_3을 추가합니다.- 타겟과 컨트롤 간에 개수와 파일 이름 페어링이 일치하는지 확인합니다(~10개 샘플 스팟 체크).
- 캡션을 사용하는 경우, 캡션 확장자(보통
.txt)를 설정하고 캡션 파일 이름을 타겟과 일치시킵니다.
6.2 새 작업 생성
JOB에서:
- 나중에 인식할 수 있는 훈련 이름을 선택합니다.
- 단일 키워드로 LoRA를 "호출 가능"하게 만들고 싶은 경우에만 트리거 워드를 설정합니다. 많은 Edit LoRA의 경우, 지시 자체로 충분하며 트리거는 선택 사항입니다.
- 첫 번째 실행에서는 Steps를 보수적으로 설정합니다(완벽한 최종 모델이 아닌 설정을 검증하고 있습니다).
MODEL에서:
- Qwen Image Edit "Plus" 아키텍처(멀티 이미지 편집 변형)를 선택합니다.
- Name or Path – 기본 체크포인트의 Hugging Face model id(repo id), 예:
Qwen/Qwen-Image-Edit-2511.대부분의 AI Toolkit 빌드에서 모델 아키텍처를 선택하면 이 값이 자동으로 채워집니다; 변경할 이유가 없으면 그대로 두세요.
- GPU가 지원하는 경우 bf16을 사용합니다; 그렇지 않으면 FP16도 작동하지만, 사용 가능한 경우 bf16이 일반적으로 더 안정적입니다.
- 필요한 경우에만 "Low VRAM" 또는 오프로딩 옵션을 활성화합니다; 가능하면 간단하게 시작하세요.
QUANTIZATION에서(필요한 경우에만):
- 24-32GB에서는 먼저 트랜스포머/백본을 양자화합니다. 빌드가 Qwen 2511용 "with ARA" 옵션을 제공하는 경우, 더 많은 품질을 유지하는 경향이 있으므로 일반 저비트 양자화보다 선호합니다.
- 트랜스포머 양자화 후에도 VRAM이 빠듯한 경우에만 텍스트 인코더/컨디셔닝 측을 양자화합니다.
TARGET / NETWORK에서(LoRA 설정):
- 적당한 랭크로 시작합니다. "규칙 같은" 편집(로고 삽입, 리라이팅)의 경우, 극단적인 랭크가 필요하지 않은 경우가 많습니다.
- 빌드가 별도의 linear/conv 랭크를 노출하는 경우, 특정 작업에 도움이 된다는 증거가 없으면 conv를 보수적으로 유지합니다. 과도한 파라미터화는 오버피팅과 드리프트로 가는 빠른 길입니다.
TRAINING에서:
- Batch Size = 1을 유지하고 필요한 경우 효과적인 배치를 늘리기 위해 Gradient Accumulation을 사용합니다.
- VRAM이 제한된 경우 AdamW 8-bit으로 시작합니다.
- 빌드가 제공하는 Qwen 권장/기본 스케줄러 설정을 사용합니다(Qwen Edit 작업의 경우 일반적으로 플로우 매칭 스케줄러).
- 언어 동작을 적응시킬 특정 이유가 없으면 첫 번째 성공적인 실행에서 "train text encoder"를 끄고 두세요. 대부분의 실용적인 Edit LoRA는 백본/트랜스포머 적응만 필요합니다.
- VRAM이 빠듯한 경우 Gradient Checkpointing을 켭니다.
DATASETS / RESOLUTIONS (Buckets)에서:
- 가능하다면, 1024는 Qwen Edit 품질을 위한 강력한 기본값입니다.
- VRAM이 제한된 경우, 첫 번째 실행에서 768을 사용한 다음 파이프라인이 올바르게 배선되었음을 확인한 후 스케일업합니다.
- 매핑을 불일치하게 만드는 혼란스러운 분포 대신 작은 버킷 세트(예: 768과 1024)를 선호합니다.
SAMPLE / PREVIEWS에서:
샘플링은 조기 경고 시스템입니다. 실제 사용 사례를 나타내는 1-3개의 미리보기 프롬프트를 구성하고, 체크포인트를 시각적으로 비교할 수 있도록 항상 동일한 고정 컨트롤 이미지와 시드를 사용합니다.
초기 실행을 위한 좋은 샘플링 빈도:
- 초기에 100-250 스텝마다 샘플
- 250-500 스텝마다 체크포인트 저장
- 디스크 부풀림을 피하기 위해 최근 체크포인트만 유지
6.3 훈련이 작동하는지 알 수 있는 방법
~200-500 스텝에서 다음 중 적어도 하나를 볼 수 있어야 합니다:
- 편집이 일관되게 발생하기 시작함
- 보존된 부분(아이덴티티/배경/기하학)이 "무작위 생성"보다 더 안정적으로 유지됨
- 변경이 캡션 지시와 방향적으로 일치함
노이즈만 보이거나 모델이 컨트롤을 무시하면, 먼저 학습률로 "수정"하지 마세요. 먼저 페어링, 컨트롤 배선, zero_cond_t를 수정하세요.
7. 2511 전용 스위치: zero_cond_t
이것은 중요한 2511 전용 세부 사항입니다. zero_cond_t는 모델이 하나의 디노이즈된 스트림(생성되는 이미지)과 컨디셔닝 스트림(참조/컨트롤 이미지)을 가질 때 타임스텝이 스트림 간에 어떻게 적용되는지를 변경합니다. zero_cond_t가 활성화되면, 컨디셔닝 이미지는 깨끗한 참조(사실상 타임스텝 0)로 처리되고, 메인 이미지는 정상적인 디퓨전 타임스텝 스케줄을 따릅니다.
컨디셔닝 이미지가 메인 스트림과 함께 "노이즈"가 추가되면, 모델은 아이덴티티/구조에 대해 더 약하고 흐릿한 참조를 갖게 됩니다. 이것은 직접적으로 드리프트를 증가시키고 편집 충실도를 감소시킵니다. 컨트롤을 타임스텝 0에 유지하는 것은 "참조 보존" 목표와 일치하는 깔끔한 엔지니어링 선택입니다.
Qwen 2511의 경우, zero_cond_t를 하이퍼파라미터가 아닌 호환성 요구 사항으로 취급하세요:
- 훈련에서 활성화합니다.
- 추론에서도 활성화된 상태로 유지합니다.
- 결과가 2511로 알려진 것보다 예상치 못하게 더 드리프트되는 것처럼 보이면, 이것이 먼저 확인해야 할 사항입니다.
8. 일반적인 훈련 실패와 해결책
8.1 "Missing control images for QwenImageEditPlusModel"
이것이 보이면, AI Toolkit이 훈련 시간에 컨트롤 이미지를 받지 못했다고 알려주는 것입니다. 가장 일반적인 원인은:
- 타겟 데이터셋을 첨부했지만 데이터셋/작업 배선에서
control_1/control_2를 할당하지 않음 - 컨트롤 폴더 경로가 잘못되었거나 비어 있음
- 타겟/컨트롤 개수가 일치하지 않아 일부 샘플에서 컨트롤 로드 실패
컨트롤을 명시적으로 만들어 수정합니다: 데이터셋 할당을 다시 확인하고, 폴더 경로를 확인하고, 파일 이름/개수가 스트림 간에 일치하는지 확인합니다.
8.2 "tuple index out of range" / 훈련 초기 텐서 형상 오류
이것은 거의 항상 로더가 이미지 텐서를 기대했지만 None 또는 예상치 못한 형상을 받았음을 의미합니다. 근본적인 이유는 보통 지루하지만 수정 가능합니다:
- 손상된 이미지 파일
- 지원되지 않는 이미지 모드(CMYK, 그레이스케일)
- 특정 인덱스에 대한 컨트롤 이미지 누락(페어링 불일치)
수정 루프는 다음과 같아야 합니다: 데이터 무결성 검증 → 페어링 검증 → 큰 작업을 다시 시작하기 전에 작은 스모크 테스트(3-5개 샘플) 실행.
8.3 KeyError: 'pixel_values' (종종 그레이스케일 이미지로 인해 발생)
Qwen Edit 파이프라인은 일반적으로 RGB 이미지를 기대합니다. 그레이스케일 이미지(단일 채널)는 특징 추출을 깨뜨리고 pixel_values 오류를 발생시킬 수 있습니다. 데이터셋 이미지를 표준 3채널 RGB PNG/JPG로 변환하고 다시 시도하세요.
8.4 Out of memory (OOM), 특히 샘플링 중
멀티 이미지 편집 훈련은 추가 포워드 패스를 실행하고 더 큰 중간 버퍼를 사용할 수 있기 때문에 미리보기 샘플링 중에 VRAM이 급증할 수 있습니다.
이 순서로 OOM을 수정합니다:
- 미리보기 빈도 또는 미리보기 해상도 줄이기
- 배치 크기를 1로 유지하고 그래디언트 누적 증가
- 버킷 줄이기(또는 768로 내리기)
- 양자화/오프로딩 활성화
- 디버깅 중 일시적으로 더 적은 컨트롤 스트림으로 훈련
- 여전히 로컬에서 OOM이 발생하면, RunComfy Cloud AI Toolkit에서 더 큰 GPU로 동일한 작업 실행
8.5 LoRA가 로드되지만 ComfyUI에서 "아무것도 하지 않음"(또는 키가 누락된 상태로 로드됨)
LoRA가 아무것도 하지 않을 때, 보통 다음 중 하나입니다:
- 훈련된 아키텍처와 다른 아키텍처에 로드하고 있음
- LoRA 스케일이 너무 낮아 눈에 띄지 않음
- 추론 스택이 기대하는 것과 트레이너가 저장한 것 사이에 키 접두사 불일치가 있음
특히 Qwen LoRA에 대해 누락된 키 경고가 보이면, 알려진 해결 방법은 LoRA 상태 딕트 키 접두사를 다시 작성하는 것입니다(예: diffusion_model. 키를 transformer. 키로 매핑). AI Toolkit 빌드와 ComfyUI 노드가 모두 최신이면 이미 수정되었을 수 있습니다 — 하지만 체계적인 "keys not loaded" 문제가 보이면 먼저 시도해볼 사항입니다.
9. 훈련된 LoRA 사용하기 (Playground + ComfyUI)
훈련이 완료되면, Qwen 2511 LoRA를 검증하는 가장 빠른 방법은 Qwen‑Image‑Edit‑2511 LoRA Playground에 로드하는 것입니다; 실제 작업을 위한 반복 가능한 노드 그래프를 원하면, Qwen‑Image‑Edit‑2511 ComfyUI 워크플로우에서 시작하여 LoRA를 교체하세요.
더 많은 AI Toolkit LoRA 훈련 가이드
Ready to start training?

