Z-Image LoRA 학습(Z-Image Turbo + De-Turbo) 가이드: Ostris AI Toolkit

Z‑Image는 Tongyi‑MAI에서 개발한 60억 파라미터 이미지 생성 모델로, Scalable Single‑Stream Diffusion Transformer (S3‑DiT) 기반으로 구축되었습니다. 크기 대비 매우 효율적이며 소비자용 GPU에서 1024×1024로 실행되도록 설계되었습니다.

이 Z-Image Turbo LoRA 훈련 가이드에서는 Z‑Image Turbo LoRA 학습의 가장 일반적이고 실용적인 두 가지 접근 방식을 다룹니다:

1) Z‑Image Turbo (Training Adapter 포함) — 훈련 후 LoRA가 진정한 8스텝 Turbo 속도로 실행되기를 원할 때 최적.

2) Z‑Image De‑Turbo (De‑Distilled) — 어댑터 없이 훈련할 수 있는 탈증류 베이스가 필요하거나 더 긴 파인튜닝에 최적.

이 가이드를 마치면 다음을 할 수 있게 됩니다:

목표에 맞는 올바른 Z‑Image 베이스(Turbo+어댑터 vs De‑Turbo)를 선택하기.
Turbo 스타일 증류 훈련에 작동하는 데이터셋 준비하기.
Ostris AI Toolkit (로컬 또는 RunComfy Cloud AI Toolkit)을 패널별로 구성하기.
각 파라미터가 왜 중요한지 이해하여, 복사/붙여넣기 대신 조정할 수 있게 되기.

이 문서는 AI Toolkit LoRA 훈련 시리즈의 일부입니다. Ostris AI Toolkit이 처음이라면, 이 가이드에 들어가기 전에 AI Toolkit LoRA 훈련 개요부터 시작하세요.

빠른 시작 (권장 베이스라인)

옵션 A — Turbo + Training Adapter (대부분의 LoRA에 권장)

Z-Image Turbo LoRA 학습을 수행하고 훈련 후 LoRA가 Turbo의 빠른 8스텝 동작을 유지하기를 원한다면 이 옵션을 사용하세요.

왜 중요한가:

Turbo는 증류된 "학생" 모델입니다: 더 느린 다중 스텝 확산 과정을 약 8스텝으로 압축합니다.
일반 모델처럼 Turbo에서 훈련하면, 업데이트가 증류를 되돌릴 수 있고("Turbo 드리프트"), 같은 품질을 얻기 위해 더 많은 스텝 / 더 높은 CFG가 필요해집니다.
Training Adapter는 훈련 중에 일시적으로 Turbo를 "탈증류"하여 LoRA가 Turbo의 8스텝 동작을 깨뜨리지 않고 컨셉을 학습할 수 있게 합니다. 추론 시에는 어댑터를 제거하고 LoRA만 유지합니다.

베이스라인 설정:

MODEL → Model Architecture: Z‑Image Turbo (w/ Training Adapter)
MODEL → Name or Path: Tongyi-MAI/Z-Image-Turbo
MODEL → Training Adapter Path:

UI가 자동 입력하면 기본값 유지(RunComfy는 보통 v2를 기본값으로 사용), 또는 명시적으로 설정:

v1: ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v1.safetensors
v2: ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v2.safetensors

TARGET → Linear Rank: 16
TRAINING → Learning Rate: 0.0001
TRAINING → Steps: 2500–3000 (10–30개 이미지 기준)
DATASETS → Resolutions: 512 / 768 / 1024 및 Cache Latents = ON
SAMPLE (미리보기용):

1024×1024, 8스텝 (파이프라인이 9를 "8 DiT forwards"로 처리하면 9)
Guidance scale = 0 (Turbo는 guidance 증류됨)
250 스텝마다 샘플

옵션 B — De‑Turbo (탈증류 베이스)

Training Adapter 없이 훈련하거나 더 긴 훈련을 계획한다면 이 옵션을 사용하세요.

Turbo와의 차이점:

De‑Turbo는 훈련과 샘플링에서 "일반" 확산 모델처럼 동작합니다.
일반적으로 더 많은 스텝과 낮은(하지만 0이 아닌) CFG로 샘플링합니다.

MODEL → Model Architecture: Z‑Image De‑Turbo (De‑Distilled)
MODEL → Name or Path: ostris/Z-Image-De-Turbo (또는 AI Toolkit 빌드가 사전 선택하는 것)
Training Adapter Path: 없음 (필요 없음)
동일한 LoRA 설정(rank/LR/steps)을 베이스라인으로 유지.
SAMPLE (미리보기용):

20–30스텝
CFG (guidance scale) ≈ 2–3
250 스텝마다 샘플

설정 없이 시작하고 싶다면 RunComfy Cloud AI Toolkit을 사용하고 동일한 패널을 따르세요.

1. 어떤 Z‑Image 베이스로 훈련해야 하나? (Turbo+어댑터 vs De‑Turbo)
2. Z‑Image Training Adapter v1 vs v2 (무엇이 바뀌나, 언제 사용하나)
3. Z‑Image / Z‑Image‑Turbo 요약 (LoRA 훈련용)
4. Z‑Image 훈련 장소: 로컬 vs 클라우드 AI Toolkit
5. Z‑Image LoRA 훈련용 데이터셋 설계
6. AI Toolkit에서의 Z‑Image LoRA 구성 – 파라미터별 설명
7. Z‑Image LoRA 훈련 실전 레시피
8. 문제 해결 (Turbo 드리프트, 과적합, VRAM, 샘플링)
9. Z‑Image LoRA 내보내기 및 사용
FAQ

1. 어떤 Z‑Image 베이스로 훈련해야 하나? (Turbo+어댑터 vs De‑Turbo)

AI Toolkit은 Z-Image-Turbo LoRA 훈련을 위해 두 가지 "Model Architecture" 선택지를 제공합니다:

1.1 Z‑Image Turbo (Training Adapter 포함)

최적 용도: 일반적인 LoRA(캐릭터, 스타일, 제품)로, 최종 목표가 8스텝에서 Turbo 추론을 실행하는 것.

왜 존재하나:

Z‑Image Turbo는 스텝 증류 모델입니다. 스텝 증류 모델에서 "정상적으로" LoRA를 훈련하면, 증류가 빠르게 무너질 수 있고, Turbo가 더 느린 비증류 모델처럼 동작하기 시작합니다(품질 변화, 더 많은 스텝 필요 등).
Training Adapter는 훈련 중에 임시 "탈증류 LoRA"로 작동합니다. LoRA는 컨셉을 학습하면서 Turbo의 빠른 8스텝 동작은 안정적으로 유지됩니다.
추론 시에는 Training Adapter를 제거하고 실제 Turbo 베이스 위에 LoRA를 유지합니다.

올바른 선택을 했다는 실용적인 신호:

미리보기 샘플이 8스텝, guidance ≈ 0에서 좋아 보인다.
LoRA가 깨끗해 보이기 위해 갑자기 20–30스텝이 필요하지 않다(Turbo 드리프트의 일반적인 신호).

1.2 Z‑Image De‑Turbo (De‑Distilled)

최적 용도: 어댑터 없이 훈련하거나, Turbo+어댑터가 결국 드리프트할 더 긴 파인튜닝.

이것이 무엇인가:

De‑Turbo는 훈련을 위해 일반 확산 모델처럼 동작하도록 설계된 Turbo의 탈증류 버전입니다.
어댑터 없이 직접 훈련할 수 있고 추론에도 사용할 수 있습니다(일반적으로 20–30스텝, 낮은 CFG).

1.3 빠른 결정 가이드

Turbo + Training Adapter를 선택하는 경우:

훈련 후 LoRA가 Turbo 속도(8스텝)로 실행되기를 원한다.
일반적인 LoRA 훈련(수천에서 수만 스텝)을 수행하고 있다.

De‑Turbo를 선택하는 경우:

훈련과 샘플링에서 "일반 모델" 동작을 원한다.
더 오래 훈련하거나, Training Adapter를 깔끔하게 지원하지 않는 워크플로우로 실험하고 있다.

2. Z‑Image Training Adapter v1 vs v2 (무엇이 바뀌나, 언제 사용하나)

Training Adapter 저장소에는 보통 두 개의 파일이 있습니다:

..._v1.safetensors
..._v2.safetensors

실용적으로 알아야 할 것:

v1은 안전한 베이스라인.
v2는 훈련 역학과 결과를 바꿀 수 있는 새로운 변형.

권장: A/B 테스트로 취급:

데이터셋, LR, 스텝, rank를 동일하게 유지
v1으로 한 번, v2로 한 번 훈련
같은 체크포인트에서 샘플 그리드 비교

RunComfy UI가 기본값으로 v2를 사용하고 훈련이 안정적으로 보이면 유지. 불안정성(노이즈, Turbo 드리프트, 이상한 아티팩트)이 보이면 v1으로 전환.

3. Z‑Image / Z‑Image‑Turbo 요약 (LoRA 훈련용)

공식 Z‑Image 소스에서:

60억 파라미터, S3‑DiT 아키텍처 — 텍스트 토큰, 시각적 시맨틱 토큰, VAE 잠재 변수가 단일 트랜스포머 스트림으로 연결됩니다.
모델 패밀리 — Z‑Image 시리즈에는 Turbo, Base, Edit 변형이 있습니다.
Turbo 사양 — 빠른 추론에 최적화됨; Turbo 추론에서 guidance는 일반적으로 0.

LoRA 훈련에 유용한 멘탈 모델:

고노이즈 타임스텝은 주로 구성(레이아웃, 포즈, 전체 색조)을 제어.
저노이즈 타임스텝은 주로 디테일(얼굴, 손, 텍스처)을 제어.

그래서 타임스텝 설정과 바이어스가 LoRA가 "전역 스타일" vs "정체성/디테일" 중 어떻게 느껴지는지를 눈에 띄게 바꿀 수 있습니다.

4. Z‑Image 훈련 장소: 로컬 vs 클라우드 AI Toolkit

4.1 로컬 AI Toolkit

Ostris AI Toolkit은 GitHub에서 오픈 소스입니다. AI 툴킷 Z-Image Turbo LoRA 훈련, FLUX, Wan, Qwen 등을 통합된 UI와 구성 시스템을 통해 지원합니다.

로컬이 적합한 경우:

이미 NVIDIA GPU가 있고 Python / Git 설정을 신경 쓰지 않는다.
파일, 로그, 사용자 정의 변경에 대한 완전한 제어를 원한다.

저장소: ostris/ai-toolkit

4.2 RunComfy Cloud AI Toolkit

CUDA 설치와 드라이버 문제를 건너뛰고 싶다면, RunComfy Cloud AI Toolkit을 사용하세요:

설정 불필요 — 브라우저를 열고 훈련.
일관된 VRAM — 하드웨어 마찰 없이 가이드를 따르기 쉬움.
영구 스토리지 — 더 쉬운 반복과 체크포인트 관리.

👉 여기서 열기: RunComfy Cloud AI Toolkit

5. Z‑Image LoRA 훈련용 데이터셋 설계

5.1 실제로 몇 장의 이미지가 필요한가?

10–30장이 대부분의 캐릭터 또는 스타일 LoRA에 적합한 범위.
약 50장을 초과하면 스타일 범위가 매우 넓지 않는 한 수확 체감이 자주 발생.

Z‑Image는 그래디언트에서 강하게 학습("뜨겁게 학습")하므로, 데이터셋 품질과 다양성이 이미지 수보다 더 중요:

너무 적은 이미지 + 너무 많은 훈련은 종종 과적합된 얼굴, 반복되는 포즈, 지저분한 배경으로 나타남.
작지만 다양한 데이터셋(각도, 조명, 배경)은 크고 반복적인 것보다 더 잘 일반화하는 경향.

5.2 캐릭터 vs 스타일 LoRA

캐릭터 LoRA

같은 피사체의 12–30장의 이미지를 목표로.
클로즈업과 전신, 각도, 조명, 의상을 혼합.
캡션은 문자 그대로이고 일관되어도 됨; 선택적 트리거 토큰.

스타일 LoRA

다양한 피사체(사람, 인테리어, 풍경, 오브젝트)에 걸쳐 15–40장의 이미지를 목표로.
장면을 정상적으로 캡션; 트리거 전용으로 원하지 않는 한 스타일을 과도하게 설명하지 않기.

이것은 "이 스타일로 무엇이든 렌더링"하도록 가르치며, "특별한 키워드를 말할 때만 스타일 적용"이 아님.

5.3 캡션, 트리거 워드, 텍스트 파일

image_01.png → image_01.txt
.txt가 없으면, AI Toolkit은 Default Caption을 사용.
캡션에서 [trigger]를 사용하고 JOB 패널에서 Trigger Word를 설정할 수 있음.

나중에 DOP(Differential Output Preservation)를 활성화하여 LoRA를 더 "옵트인"으로 만들 때 특히 유용.

6. AI Toolkit에서의 Z‑Image LoRA 구성 – 파라미터별 설명

이 섹션에서는 Z Image LoRA 훈련 튜토리얼의 UI 패널을 살펴보고 각 중요 필드가 하는 일을 설명합니다.

6.1 JOB 패널

Training Name — zimage_char_redhair_v1과 같은 설명적 라벨
GPU ID — 로컬 GPU 선택기; 클라우드에서는 기본값 유지
Trigger Word (선택사항) — zchar_redhair / zstyle_pencil

6.2 MODEL 패널 (가장 중요)

여기서 두 가지 베이스 선택이 중요합니다:

Turbo + 어댑터를 선택하는 경우

Model Architecture — Z‑Image Turbo (w/ Training Adapter)
Name or Path — Tongyi-MAI/Z-Image-Turbo

이것은 Hugging Face 모델 id(저장소 id)입니다. 대부분의 AI Toolkit 빌드에서 Model Architecture를 선택하면 이것이 자동 입력됩니다; 변경할 이유가 없으면 그대로 두세요.
오버라이드하는 경우, Hugging Face 저장소 id 형식을 사용: org-or-user/model-name (선택적으로 org-or-user/model-name@revision).

Training Adapter Path — 기본값 유지 또는 선택:

v1: ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v1.safetensors
v2: ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v2.safetensors

팁: 실수로 어댑터 없이 Turbo를 훈련하면, 가장 흔한 증상은 스텝/CFG를 올려야만 LoRA가 "작동"하는 것이며, 이는 Turbo의 의미를 무효화합니다.

De‑Turbo를 선택하는 경우

Model Architecture — Z‑Image De‑Turbo (De‑Distilled)
Name or Path — ostris/Z-Image-De-Turbo
Training Adapter Path — 없음

옵션:

Low VRAM / Layer Offloading — VRAM이 제한된 경우 활성화

6.3 QUANTIZATION 패널

24GB 이상에서는 충실도를 위해 BF16/none 선호
16GB에서는 float8이 일반적으로 최적의 절충안

6.4 TARGET 패널 – LoRA 구성

Target Type — LoRA
Linear Rank — 8–16으로 시작

16은 더 강한 스타일/텍스처용
8은 더 작고 미묘한 LoRA용

6.5 SAVE 패널

Data Type — BF16
Save Every — 250
Max Step Saves to Keep — 4–12

6.6 TRAINING 패널 – 핵심 하이퍼파라미터

Batch Size — 1
Optimizer — AdamW8Bit
Learning Rate — 0.0001로 시작
불안정/노이지하면 0.00005–0.00008로 낮춤.

너무 높은 값(예: 0.0002+)은 피함 — Turbo 스타일 모델은 빠르게 불안정해질 수 있음.
Weight Decay — 0.0001
Steps — 10–30장 이미지에 2500–3000
데이터셋이 매우 작으면(<10장), 과적합을 줄이기 위해 1500–2200 고려.
Loss Type — Mean Squared Error
Timestep Type — Weighted
Timestep Bias — Balanced

더 강한 전역 스타일/분위기를 원하면 High Noise 선호.
정체성/디테일을 추구하면 Low Noise 선호(고급; Balanced로 시작).

EMA — OFF

Text Encoder:

Cache Text Embeddings — 캡션이 정적이고 VRAM이 부족하면 ON
(그러면 Caption Dropout을 0으로 설정)
Unload TE — 캡션 기반 훈련에서는 OFF 유지

정규화:

DOP — 첫 실행에서는 OFF 유지; 나중에 프로덕션 트리거 전용 LoRA에 추가
(DOP는 강력하지만 복잡성을 추가; 이미 안정적인 베이스라인이 있을 때 가장 쉬움.)

6.7 DATASETS 패널

Caption Dropout Rate

텍스트 임베딩을 캐시하지 않으면 0.05
임베딩을 캐시하면 0

Cache Latents — ON
Resolutions — 512 / 768 / 1024가 강력한 베이스라인

6.8 SAMPLE 패널 (베이스에 맞추기!)

Turbo 훈련 시:

1024×1024, 8스텝, guidance = 0, 250마다 샘플

De‑Turbo 훈련 시:

1024×1024, 20–30스텝, CFG 2–3, 250마다 샘플

실제 사용을 반영하는 5–10개의 프롬프트 사용; 누수를 감지하기 위해 트리거 없는 프롬프트 몇 개 포함.

6.9 ADVANCED 패널 – Differential Guidance (선택사항)

Do Differential Guidance — 더 빠른 수렴을 원하면 ON
Scale — 3으로 시작
샘플이 초기에 과도하게 선명/노이지하면 2로 줄임. 학습이 느리면 나중에 4 테스트 가능.

7. Z‑Image LoRA 훈련 실전 레시피

Turbo LoRA를 위한 강력한 베이스라인:

Turbo + Training Adapter (v1 또는 v2)
rank=16, lr=1e-4, steps=2500–3000
512/768/1024 버킷, cache latents ON
250스텝마다 샘플, 8스텝, guidance 0

LoRA가 "너무 강하다"고 느껴지면:

훈련은 동일하게 유지하되, 더 낮은 LoRA 가중치(예: 0.6–0.8)로 추론을 실행할 계획.

8. 문제 해결

"내 LoRA가 Turbo를 망가뜨렸다 — 이제 더 많은 스텝/CFG가 필요하다."

가장 흔한 원인:

Training Adapter 없이 Turbo에서 훈련함, 또는
LR이 너무 오랫동안 너무 높았음.

수정:

Turbo + Training Adapter 아키텍처 사용
LR ≤ 1e‑4 유지
초기에 드리프트가 보이면 스텝 감소

"스타일이 너무 강하다."

추론 시 LoRA 가중치 낮추기 (0.6–0.8)
프로덕션 LoRA에는 트리거 + DOP 사용 (옵트인 동작)

"손/배경이 지저분하다."

해당 케이스를 포함하는 이미지 몇 장 추가
저노이즈 타임스텝을 약간 선호하는 것을 고려 (고급)

"VRAM 부족 / 너무 느리다."

높은 버킷 비활성화 (512–1024 유지)
Low VRAM + 오프로딩 활성화
float8로 양자화
잠재 변수 캐시 (선택적으로 텍스트 임베딩도 캐시)

FAQ

Z-Image Turbo LoRA 훈련에서 v1 또는 v2 어댑터를 사용해야 하나요?

UI 기본값으로 시작하세요. 결과가 불안정하거나 Z‑Image Turbo 드리프트가 보이면, 다른 모든 설정을 동일하게 유지하고 다른 버전을 테스트하세요.

Z‑Image를 Turbo+어댑터와 De‑Turbo 중 어디서 훈련해야 하나요?

8스텝 Turbo 동작을 유지해야 하는 대부분의 Z‑Image LoRA에는 Turbo+어댑터. 어댑터 없는 훈련이나 더 긴 파인튜닝을 원하면 De‑Turbo.

훈련 후 어떤 Z‑Image 추론 설정을 사용해야 하나요?

Z‑Image Turbo는 일반적으로 낮은/제로 CFG와 약 8스텝을 사용. De‑Turbo는 일반 모델처럼 동작 (20–30스텝, 낮은 CFG). 항상 실제로 사용하는 베이스에 샘플링 설정을 맞추세요.

9. Z‑Image LoRA 사용하기

Run LoRA — Z‑Image Turbo Run LoRA page를 여세요. 이 베이스 모델 inference 페이지에서 RunComfy에서 학습한 LoRA asset을 선택하거나 AI Toolkit으로 학습한 LoRA 파일을 import한 뒤, playground 또는 API로 inference를 실행할 수 있습니다. RunComfy는 사용자의 training config에 있는 동일한 base model과 AI Toolkit 전체 pipeline definition을 그대로 사용하므로, training에서 보던 결과가 inference에서도 그대로 나오며, training/inference 파라미터 정합을 통해 샘플과 추론 결과의 일관성을 특히 잘 보장합니다.
ComfyUI 워크플로우 — ComfyUI의 Z‑Image 워크플로우와 같은 워크플로우에 LoRA 로드

OstrisAI-Toolkit

New Training Job

Job

Model

Quantization

Target

Save

Training

Advanced

Datasets

Dataset 1

Sample