Z‑Image는 Tongyi‑MAI에서 개발한 60억 파라미터 이미지 생성 모델로, Scalable Single‑Stream Diffusion Transformer (S3‑DiT) 기반으로 구축되었습니다. 크기 대비 매우 효율적이며 소비자용 GPU에서 1024×1024로 실행되도록 설계되었습니다.
이 Z-Image Turbo LoRA 훈련 가이드에서는 Z‑Image Turbo LoRA 학습의 가장 일반적이고 실용적인 두 가지 접근 방식을 다룹니다:
1) Z‑Image Turbo (Training Adapter 포함) — 훈련 후 LoRA가 진정한 8스텝 Turbo 속도로 실행되기를 원할 때 최적.
2) Z‑Image De‑Turbo (De‑Distilled) — 어댑터 없이 훈련할 수 있는 탈증류 베이스가 필요하거나 더 긴 파인튜닝에 최적.
이 가이드를 마치면 다음을 할 수 있게 됩니다:
- 목표에 맞는 올바른 Z‑Image 베이스(Turbo+어댑터 vs De‑Turbo)를 선택하기.
- Turbo 스타일 증류 훈련에 작동하는 데이터셋 준비하기.
- Ostris AI Toolkit (로컬 또는 RunComfy Cloud AI Toolkit)을 패널별로 구성하기.
- 각 파라미터가 왜 중요한지 이해하여, 복사/붙여넣기 대신 조정할 수 있게 되기.
이 문서는 AI Toolkit LoRA 훈련 시리즈의 일부입니다. Ostris AI Toolkit이 처음이라면, 이 가이드에 들어가기 전에 AI Toolkit LoRA 훈련 개요부터 시작하세요.
빠른 시작 (권장 베이스라인)
옵션 A — Turbo + Training Adapter (대부분의 LoRA에 권장)
Z-Image Turbo LoRA 학습을 수행하고 훈련 후 LoRA가 Turbo의 빠른 8스텝 동작을 유지하기를 원한다면 이 옵션을 사용하세요.
왜 중요한가:
- Turbo는 증류된 "학생" 모델입니다: 더 느린 다중 스텝 확산 과정을 약 8스텝으로 압축합니다.
- 일반 모델처럼 Turbo에서 훈련하면, 업데이트가 증류를 되돌릴 수 있고("Turbo 드리프트"), 같은 품질을 얻기 위해 더 많은 스텝 / 더 높은 CFG가 필요해집니다.
- Training Adapter는 훈련 중에 일시적으로 Turbo를 "탈증류"하여 LoRA가 Turbo의 8스텝 동작을 깨뜨리지 않고 컨셉을 학습할 수 있게 합니다. 추론 시에는 어댑터를 제거하고 LoRA만 유지합니다.
베이스라인 설정:
- MODEL → Model Architecture:
Z‑Image Turbo (w/ Training Adapter) - MODEL → Name or Path:
Tongyi-MAI/Z-Image-Turbo - MODEL → Training Adapter Path:
- UI가 자동 입력하면 기본값 유지(RunComfy는 보통 v2를 기본값으로 사용), 또는 명시적으로 설정:
- v1:
ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v1.safetensors - v2:
ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v2.safetensors - TARGET → Linear Rank:
16 - TRAINING → Learning Rate:
0.0001 - TRAINING → Steps:
2500–3000(10–30개 이미지 기준) - DATASETS → Resolutions:
512 / 768 / 1024및 Cache Latents = ON - SAMPLE (미리보기용):
1024×1024, 8스텝 (파이프라인이 9를 "8 DiT forwards"로 처리하면9)- Guidance scale = 0 (Turbo는 guidance 증류됨)
250스텝마다 샘플
옵션 B — De‑Turbo (탈증류 베이스)
Training Adapter 없이 훈련하거나 더 긴 훈련을 계획한다면 이 옵션을 사용하세요.
Turbo와의 차이점:
- De‑Turbo는 훈련과 샘플링에서 "일반" 확산 모델처럼 동작합니다.
- 일반적으로 더 많은 스텝과 낮은(하지만 0이 아닌) CFG로 샘플링합니다.
- MODEL → Model Architecture:
Z‑Image De‑Turbo (De‑Distilled) - MODEL → Name or Path:
ostris/Z-Image-De-Turbo(또는 AI Toolkit 빌드가 사전 선택하는 것) - Training Adapter Path: 없음 (필요 없음)
- 동일한 LoRA 설정(rank/LR/steps)을 베이스라인으로 유지.
- SAMPLE (미리보기용):
- 20–30스텝
- CFG (guidance scale) ≈ 2–3
250스텝마다 샘플
설정 없이 시작하고 싶다면 RunComfy Cloud AI Toolkit을 사용하고 동일한 패널을 따르세요.
목차
- 1. 어떤 Z‑Image 베이스로 훈련해야 하나? (Turbo+어댑터 vs De‑Turbo)
- 2. Z‑Image Training Adapter v1 vs v2 (무엇이 바뀌나, 언제 사용하나)
- 3. Z‑Image / Z‑Image‑Turbo 요약 (LoRA 훈련용)
- 4. Z‑Image 훈련 장소: 로컬 vs 클라우드 AI Toolkit
- 5. Z‑Image LoRA 훈련용 데이터셋 설계
- 6. AI Toolkit에서의 Z‑Image LoRA 구성 – 파라미터별 설명
- 7. Z‑Image LoRA 훈련 실전 레시피
- 8. 문제 해결 (Turbo 드리프트, 과적합, VRAM, 샘플링)
- 9. Z‑Image LoRA 내보내기 및 사용
- FAQ
1. 어떤 Z‑Image 베이스로 훈련해야 하나? (Turbo+어댑터 vs De‑Turbo)
AI Toolkit은 Z-Image-Turbo LoRA 훈련을 위해 두 가지 "Model Architecture" 선택지를 제공합니다:
1.1 Z‑Image Turbo (Training Adapter 포함)
최적 용도: 일반적인 LoRA(캐릭터, 스타일, 제품)로, 최종 목표가 8스텝에서 Turbo 추론을 실행하는 것.
왜 존재하나:
- Z‑Image Turbo는 스텝 증류 모델입니다. 스텝 증류 모델에서 "정상적으로" LoRA를 훈련하면, 증류가 빠르게 무너질 수 있고, Turbo가 더 느린 비증류 모델처럼 동작하기 시작합니다(품질 변화, 더 많은 스텝 필요 등).
- Training Adapter는 훈련 중에 임시 "탈증류 LoRA"로 작동합니다. LoRA는 컨셉을 학습하면서 Turbo의 빠른 8스텝 동작은 안정적으로 유지됩니다.
- 추론 시에는 Training Adapter를 제거하고 실제 Turbo 베이스 위에 LoRA를 유지합니다.
올바른 선택을 했다는 실용적인 신호:
- 미리보기 샘플이 8스텝, guidance ≈ 0에서 좋아 보인다.
- LoRA가 깨끗해 보이기 위해 갑자기 20–30스텝이 필요하지 않다(Turbo 드리프트의 일반적인 신호).
1.2 Z‑Image De‑Turbo (De‑Distilled)
최적 용도: 어댑터 없이 훈련하거나, Turbo+어댑터가 결국 드리프트할 더 긴 파인튜닝.
이것이 무엇인가:
- De‑Turbo는 훈련을 위해 일반 확산 모델처럼 동작하도록 설계된 Turbo의 탈증류 버전입니다.
- 어댑터 없이 직접 훈련할 수 있고 추론에도 사용할 수 있습니다(일반적으로 20–30스텝, 낮은 CFG).
1.3 빠른 결정 가이드
Turbo + Training Adapter를 선택하는 경우:
- 훈련 후 LoRA가 Turbo 속도(8스텝)로 실행되기를 원한다.
- 일반적인 LoRA 훈련(수천에서 수만 스텝)을 수행하고 있다.
De‑Turbo를 선택하는 경우:
- 훈련과 샘플링에서 "일반 모델" 동작을 원한다.
- 더 오래 훈련하거나, Training Adapter를 깔끔하게 지원하지 않는 워크플로우로 실험하고 있다.
2. Z‑Image Training Adapter v1 vs v2 (무엇이 바뀌나, 언제 사용하나)
Training Adapter 저장소에는 보통 두 개의 파일이 있습니다:
..._v1.safetensors..._v2.safetensors
실용적으로 알아야 할 것:
- v1은 안전한 베이스라인.
- v2는 훈련 역학과 결과를 바꿀 수 있는 새로운 변형.
권장: A/B 테스트로 취급:
- 데이터셋, LR, 스텝, rank를 동일하게 유지
- v1으로 한 번, v2로 한 번 훈련
- 같은 체크포인트에서 샘플 그리드 비교
RunComfy UI가 기본값으로 v2를 사용하고 훈련이 안정적으로 보이면 유지. 불안정성(노이즈, Turbo 드리프트, 이상한 아티팩트)이 보이면 v1으로 전환.
3. Z‑Image / Z‑Image‑Turbo 요약 (LoRA 훈련용)
공식 Z‑Image 소스에서:
- 60억 파라미터, S3‑DiT 아키텍처 — 텍스트 토큰, 시각적 시맨틱 토큰, VAE 잠재 변수가 단일 트랜스포머 스트림으로 연결됩니다.
- 모델 패밀리 — Z‑Image 시리즈에는 Turbo, Base, Edit 변형이 있습니다.
- Turbo 사양 — 빠른 추론에 최적화됨; Turbo 추론에서 guidance는 일반적으로 0.
LoRA 훈련에 유용한 멘탈 모델:
- 고노이즈 타임스텝은 주로 구성(레이아웃, 포즈, 전체 색조)을 제어.
- 저노이즈 타임스텝은 주로 디테일(얼굴, 손, 텍스처)을 제어.
그래서 타임스텝 설정과 바이어스가 LoRA가 "전역 스타일" vs "정체성/디테일" 중 어떻게 느껴지는지를 눈에 띄게 바꿀 수 있습니다.
4. Z‑Image 훈련 장소: 로컬 vs 클라우드 AI Toolkit
4.1 로컬 AI Toolkit
Ostris AI Toolkit은 GitHub에서 오픈 소스입니다. AI 툴킷 Z-Image Turbo LoRA 훈련, FLUX, Wan, Qwen 등을 통합된 UI와 구성 시스템을 통해 지원합니다.
로컬이 적합한 경우:
- 이미 NVIDIA GPU가 있고 Python / Git 설정을 신경 쓰지 않는다.
- 파일, 로그, 사용자 정의 변경에 대한 완전한 제어를 원한다.
저장소: ostris/ai-toolkit
4.2 RunComfy Cloud AI Toolkit
CUDA 설치와 드라이버 문제를 건너뛰고 싶다면, RunComfy Cloud AI Toolkit을 사용하세요:
- 설정 불필요 — 브라우저를 열고 훈련.
- 일관된 VRAM — 하드웨어 마찰 없이 가이드를 따르기 쉬움.
- 영구 스토리지 — 더 쉬운 반복과 체크포인트 관리.
👉 여기서 열기: RunComfy Cloud AI Toolkit
5. Z‑Image LoRA 훈련용 데이터셋 설계
5.1 실제로 몇 장의 이미지가 필요한가?
- 10–30장이 대부분의 캐릭터 또는 스타일 LoRA에 적합한 범위.
- 약 50장을 초과하면 스타일 범위가 매우 넓지 않는 한 수확 체감이 자주 발생.
Z‑Image는 그래디언트에서 강하게 학습("뜨겁게 학습")하므로, 데이터셋 품질과 다양성이 이미지 수보다 더 중요:
- 너무 적은 이미지 + 너무 많은 훈련은 종종 과적합된 얼굴, 반복되는 포즈, 지저분한 배경으로 나타남.
- 작지만 다양한 데이터셋(각도, 조명, 배경)은 크고 반복적인 것보다 더 잘 일반화하는 경향.
5.2 캐릭터 vs 스타일 LoRA
캐릭터 LoRA
- 같은 피사체의 12–30장의 이미지를 목표로.
- 클로즈업과 전신, 각도, 조명, 의상을 혼합.
- 캡션은 문자 그대로이고 일관되어도 됨; 선택적 트리거 토큰.
스타일 LoRA
- 다양한 피사체(사람, 인테리어, 풍경, 오브젝트)에 걸쳐 15–40장의 이미지를 목표로.
- 장면을 정상적으로 캡션; 트리거 전용으로 원하지 않는 한 스타일을 과도하게 설명하지 않기.
- 이것은 "이 스타일로 무엇이든 렌더링"하도록 가르치며, "특별한 키워드를 말할 때만 스타일 적용"이 아님.
5.3 캡션, 트리거 워드, 텍스트 파일
image_01.png→image_01.txt.txt가 없으면, AI Toolkit은 Default Caption을 사용.- 캡션에서
[trigger]를 사용하고 JOB 패널에서 Trigger Word를 설정할 수 있음. - 나중에 DOP(Differential Output Preservation)를 활성화하여 LoRA를 더 "옵트인"으로 만들 때 특히 유용.
6. AI Toolkit에서의 Z‑Image LoRA 구성 – 파라미터별 설명
이 섹션에서는 Z Image LoRA 훈련 튜토리얼의 UI 패널을 살펴보고 각 중요 필드가 하는 일을 설명합니다.
6.1 JOB 패널
- Training Name —
zimage_char_redhair_v1과 같은 설명적 라벨 - GPU ID — 로컬 GPU 선택기; 클라우드에서는 기본값 유지
- Trigger Word (선택사항) —
zchar_redhair/zstyle_pencil
6.2 MODEL 패널 (가장 중요)
여기서 두 가지 베이스 선택이 중요합니다:
Turbo + 어댑터를 선택하는 경우
- Model Architecture —
Z‑Image Turbo (w/ Training Adapter) - Name or Path —
Tongyi-MAI/Z-Image-Turbo - 이것은 Hugging Face 모델 id(저장소 id)입니다. 대부분의 AI Toolkit 빌드에서 Model Architecture를 선택하면 이것이 자동 입력됩니다; 변경할 이유가 없으면 그대로 두세요.
- 오버라이드하는 경우, Hugging Face 저장소 id 형식을 사용:
org-or-user/model-name(선택적으로org-or-user/model-name@revision). - Training Adapter Path — 기본값 유지 또는 선택:
- v1:
ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v1.safetensors - v2:
ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v2.safetensors
팁: 실수로 어댑터 없이 Turbo를 훈련하면, 가장 흔한 증상은 스텝/CFG를 올려야만 LoRA가 "작동"하는 것이며, 이는 Turbo의 의미를 무효화합니다.
De‑Turbo를 선택하는 경우
- Model Architecture —
Z‑Image De‑Turbo (De‑Distilled) - Name or Path —
ostris/Z-Image-De-Turbo - Training Adapter Path — 없음
옵션:
- Low VRAM / Layer Offloading — VRAM이 제한된 경우 활성화
6.3 QUANTIZATION 패널
- 24GB 이상에서는 충실도를 위해
BF16/none선호 - 16GB에서는
float8이 일반적으로 최적의 절충안
6.4 TARGET 패널 – LoRA 구성
- Target Type —
LoRA - Linear Rank —
8–16으로 시작 16은 더 강한 스타일/텍스처용8은 더 작고 미묘한 LoRA용
6.5 SAVE 패널
- Data Type —
BF16 - Save Every —
250 - Max Step Saves to Keep —
4–12
6.6 TRAINING 패널 – 핵심 하이퍼파라미터
- Batch Size —
1 - Optimizer —
AdamW8Bit - Learning Rate —
0.0001로 시작불안정/노이지하면
0.00005–0.00008로 낮춤.너무 높은 값(예:
0.0002+)은 피함 — Turbo 스타일 모델은 빠르게 불안정해질 수 있음. - Weight Decay —
0.0001 - Steps — 10–30장 이미지에
2500–3000데이터셋이 매우 작으면(<10장), 과적합을 줄이기 위해
1500–2200고려. - Loss Type —
Mean Squared Error - Timestep Type —
Weighted - Timestep Bias —
Balanced - 더 강한 전역 스타일/분위기를 원하면 High Noise 선호.
- 정체성/디테일을 추구하면 Low Noise 선호(고급; Balanced로 시작).
- EMA — OFF
Text Encoder:
- Cache Text Embeddings — 캡션이 정적이고 VRAM이 부족하면 ON
(그러면 Caption Dropout을 0으로 설정)
- Unload TE — 캡션 기반 훈련에서는 OFF 유지
정규화:
- DOP — 첫 실행에서는 OFF 유지; 나중에 프로덕션 트리거 전용 LoRA에 추가
(DOP는 강력하지만 복잡성을 추가; 이미 안정적인 베이스라인이 있을 때 가장 쉬움.)
6.7 DATASETS 패널
- Caption Dropout Rate
- 텍스트 임베딩을 캐시하지 않으면
0.05 - 임베딩을 캐시하면
0 - Cache Latents — ON
- Resolutions —
512 / 768 / 1024가 강력한 베이스라인
6.8 SAMPLE 패널 (베이스에 맞추기!)
Turbo 훈련 시:
1024×1024, 8스텝, guidance = 0,250마다 샘플
De‑Turbo 훈련 시:
1024×1024, 20–30스텝, CFG 2–3,250마다 샘플
실제 사용을 반영하는 5–10개의 프롬프트 사용; 누수를 감지하기 위해 트리거 없는 프롬프트 몇 개 포함.
6.9 ADVANCED 패널 – Differential Guidance (선택사항)
- Do Differential Guidance — 더 빠른 수렴을 원하면 ON
- Scale —
3으로 시작샘플이 초기에 과도하게 선명/노이지하면
2로 줄임. 학습이 느리면 나중에4테스트 가능.
7. Z‑Image LoRA 훈련 실전 레시피
Turbo LoRA를 위한 강력한 베이스라인:
- Turbo + Training Adapter (v1 또는 v2)
rank=16,lr=1e-4,steps=2500–3000512/768/1024버킷, cache latents ON- 250스텝마다 샘플, 8스텝, guidance 0
LoRA가 "너무 강하다"고 느껴지면:
- 훈련은 동일하게 유지하되, 더 낮은 LoRA 가중치(예:
0.6–0.8)로 추론을 실행할 계획.
8. 문제 해결
"내 LoRA가 Turbo를 망가뜨렸다 — 이제 더 많은 스텝/CFG가 필요하다."
- 가장 흔한 원인:
- Training Adapter 없이 Turbo에서 훈련함, 또는
- LR이 너무 오랫동안 너무 높았음.
- 수정:
- Turbo + Training Adapter 아키텍처 사용
- LR ≤ 1e‑4 유지
- 초기에 드리프트가 보이면 스텝 감소
"스타일이 너무 강하다."
- 추론 시 LoRA 가중치 낮추기 (0.6–0.8)
- 프로덕션 LoRA에는 트리거 + DOP 사용 (옵트인 동작)
"손/배경이 지저분하다."
- 해당 케이스를 포함하는 이미지 몇 장 추가
- 저노이즈 타임스텝을 약간 선호하는 것을 고려 (고급)
"VRAM 부족 / 너무 느리다."
- 높은 버킷 비활성화 (512–1024 유지)
- Low VRAM + 오프로딩 활성화
- float8로 양자화
- 잠재 변수 캐시 (선택적으로 텍스트 임베딩도 캐시)
9. Z‑Image LoRA 사용하기
- Model playground — Z‑Image Turbo LoRA playground에서 베이스 모델로 LoRA 테스트
- ComfyUI 워크플로우 — ComfyUI의 Z‑Image 워크플로우와 같은 워크플로우에 LoRA 로드
FAQ
Z-Image Turbo LoRA 훈련에서 v1 또는 v2 어댑터를 사용해야 하나요?
UI 기본값으로 시작하세요. 결과가 불안정하거나 Z‑Image Turbo 드리프트가 보이면, 다른 모든 설정을 동일하게 유지하고 다른 버전을 테스트하세요.
Z‑Image를 Turbo+어댑터와 De‑Turbo 중 어디서 훈련해야 하나요?
8스텝 Turbo 동작을 유지해야 하는 대부분의 Z‑Image LoRA에는 Turbo+어댑터. 어댑터 없는 훈련이나 더 긴 파인튜닝을 원하면 De‑Turbo.
훈련 후 어떤 Z‑Image 추론 설정을 사용해야 하나요?
Z‑Image Turbo는 일반적으로 낮은/제로 CFG와 약 8스텝을 사용. De‑Turbo는 일반 모델처럼 동작 (20–30스텝, 낮은 CFG). 항상 실제로 사용하는 베이스에 샘플링 설정을 맞추세요.
더 많은 AI Toolkit LoRA 훈련 가이드
Ready to start training?

