Ostris AI Toolkit로 Z‑Image (Base) LoRA 훈련하기
Z‑Image (Base)는 Z‑Image의 전체 체크포인트입니다(8스텝 Turbo가 아님). CFG + 네거티브 프롬프트와 더 많은 샘플링 스텝을 전제로 고품질 text‑to‑image를 목표로 설계되었고, 캐릭터/스타일/제품/타이포그래피 중심 컨셉처럼 깨끗하고 완전히 제어 가능한 LoRA를 만들고 싶을 때도 가장 좋은 선택입니다.
이 Z‑Image LoRA 훈련 가이드를 끝내면 다음을 할 수 있게 됩니다:
- Ostris AI Toolkit(로컬 또는 클라우드)에서 Z‑Image LoRA 훈련을 진행하기.
- Z‑Image Base 추론 동작(스텝 + CFG + 해상도)에 맞는 기본값 선택하기.
- Z‑Image Base LoRA 훈련에서 흔한 실수 피하기(Turbo 설정, “LoRA가 안 먹음”, Base↔Turbo 불일치).
- 바로 추론 UI에서 쓸 수 있는 체크포인트 내보내기.
이 문서는 AI Toolkit LoRA 훈련 시리즈의 일부입니다. Ostris AI Toolkit이 처음이라면, 이 Z‑Image LoRA 훈련에 들어가기 전에 AI Toolkit LoRA 훈련 개요부터 시작하세요:
https://www.runcomfy.com/ko/trainer/ai-toolkit/getting-started
목차
- 1. Z‑Image 개요: 무엇을 할 수 있나(그리고 Turbo와의 차이)
- 2. 환경 옵션: 로컬 AI Toolkit vs RunComfy 클라우드 AI Toolkit
- 3. Z‑Image Base LoRA 훈련을 위한 하드웨어 & VRAM 요구사항
- 4. Z‑Image Base LoRA 훈련 데이터셋 만들기
- 5. 단계별: AI Toolkit에서 Z‑Image LoRA 훈련
- 6. VRAM 티어별 권장 Z‑Image LoRA 훈련 설정
- 7. Z‑Image Base 훈련에서 흔한 문제와 해결법
- 8. 훈련 후 Z‑Image Base LoRA 사용하기
1. Z‑Image 개요: 무엇을 할 수 있나(그리고 Turbo와의 차이)
1.1 “Z‑Image Base”의 의미
“Z‑Image Base”는 비증류(non‑distilled) Z‑Image 체크포인트를 의미합니다. 실전에서는:
- 더 많은 샘플링 스텝을 기대합니다(대략 ~30–50, 8이 아님).
- CFG와 네거티브 프롬프트를 효과적으로 사용합니다.
- 최대한의 제어와 품질을 원한다면 LoRA 파인튜닝(대체 키워드 1회)과 Z‑Image LoRA 훈련의 타겟으로 가장 적합합니다.
1.2 Base vs Turbo (훈련에 중요한 함의)
Z‑Image LoRA 훈련에서 자주 하는 실수는 Base를 Turbo처럼 훈련/평가하는 것입니다.
- Turbo 설정(8 스텝, 낮거나 없는 CFG)은 Base 결과를 덜 익은 것처럼 보이게 만들고, LoRA가 “안 되는 것 같다”는 착각을 유발할 수 있습니다.
- Base 설정(30–50 스텝 + 일반적인 CFG)으로 평가하는 것이 올바릅니다.
요령:
Base LoRA를 훈련했다면, 평가도 Base에서 Base 스타일 샘플링으로 하세요.
2. 환경 옵션: 로컬 AI Toolkit vs RunComfy 클라우드 AI Toolkit
이 Z‑Image LoRA 훈련 튜토리얼은 두 가지 방식으로 진행할 수 있습니다:
- 로컬 AI Toolkit(자신의 GPU)
GitHub repo에서 AI Toolkit을 설치하고 Web UI를 실행합니다. 로컬 Z‑Image LoRA 훈련은 NVIDIA GPU가 있고 CUDA/드라이버 관리가 가능하며, LoRA를 반복적으로 개선할 영구적인 환경이 필요한 경우에 적합합니다.
https://github.com/ostris/ai-toolkit
- RunComfy 클라우드 AI Toolkit(H100 / H200)
브라우저에서 대형 GPU로 AI Toolkit을 실행합니다:
- 설치 없음(UI만 열면 됨)
- 더 높은 해상도 버킷(1280 / 1536)에 필요한 큰 VRAM
- 데이터셋/설정/과거 실행을 위한 영구 워크스페이스
두 환경에서 Z‑Image LoRA 훈련 워크플로우는 동일하며, GPU 위치만 달라집니다.
3. Z‑Image Base LoRA 훈련을 위한 하드웨어 & VRAM 요구사항
Z‑Image는 추론 시 비교적 낮은 사양의 GPU에서도 구동 가능하지만, Z‑Image LoRA 훈련은 아래 요소에 따라 VRAM 요구량이 크게 변합니다:
- 해상도 버킷 (768 vs 1024 vs 1536)
- 양자화(float8)
- LoRA rank
- 훈련 중 샘플링 설정(프리뷰 해상도 + 프리뷰 스텝)
Z‑Image LoRA 훈련을 현실적으로 보면:
- 12–16GB VRAM: 설정을 신중히 하면 512/768에서 가능
- 24GB VRAM: 1024 LoRA 훈련에 무난
- 48GB+ VRAM: 1280/1536 버킷과 빠른 반복에 가장 유리
타이포그래피 중심 또는 제품 충실도가 목표라면, 더 높은 해상도를 계획하고 VRAM이 빠르게 증가한다는 점을 감안하세요.
4. Z‑Image Base LoRA 훈련 데이터셋 만들기
Z‑Image Base는 데이터셋 형식 자체가 “특별”하진 않지만, 품질을 어떻게 평가하느냐에는 민감합니다. 따라서 Z‑Image LoRA 훈련 데이터셋은 추론에서 원하는 동작(CFG + 높은 스텝)에 맞춰 설계해야 합니다.
4.1 목표 선택(데이터셋 형태)
- 캐릭터/유사도: 15–50장
클로즈업 + 미드샷 + 조명 다양성 섞기.
- 스타일: 30–200장
피사체 다양성을 최대화하여 “한 장면”이 아닌 “스타일 신호”를 학습하게 하기.
- 제품/컨셉: 20–80장
일관된 프레이밍과 특징(재질, 라벨 텍스트, 형태)을 명확히 하는 캡션.
4.2 캡션 + 트리거(단순하게)
- 캐릭터/제품 LoRA처럼 깔끔한 온/오프를 원하면 트리거를 쓰세요(Z‑Image LoRA 훈련에서 권장).
- 캡션은 짧고 일관되게. 캡션이 길면 우연한 바인딩(헤어/배경이 “트리거의 일부”가 됨)이 늘어납니다.
빠른 템플릿
- 캐릭터:
[trigger]또는
photo of [trigger], portrait, natural lighting - 스타일:
in a [style] illustration style, soft shading, muted palette - 제품:
product photo of [trigger], studio lighting, clean background
5. 단계별: AI Toolkit에서 Z‑Image LoRA 훈련
이 섹션은 새 Z‑Image LoRA 훈련 작업을 만들 때 보이는 AI Toolkit UI 패널 흐름에 맞춰 작성했습니다.
5.1 JOB 패널(Training Name, GPU ID, Trigger Word)
- Training Name: 설명적인 run 이름(예:
zimage_base_character_v1) - GPU ID: 로컬은 GPU 선택, 클라우드는 기본값 유지
- Trigger Word(선택 사항이지만 캐릭터/제품 Z‑Image LoRA 훈련에는 권장):
예:
zimgAlice
5.2 MODEL 패널(Model Architecture, Name or Path, Options)
- Model Architecture: Z‑Image 선택
- Name or Path: 베이스 모델 repo 설정(보통):
Tongyi-MAI/Z-Image - Options
- Low VRAM: ≤ 24GB이면 ON
- Layer Offloading: 기본 OFF; 해상도/rank를 낮춘 후에도 OOM이면 ON
5.3 QUANTIZATION 패널(Transformer, Text Encoder)
- Transformer:
float8 (default)는 큰 버킷을 맞추기 위한 강력한 기본값 - Text Encoder: VRAM이 부족하면
float8 (default)
VRAM이 넉넉하다면 양자화를 낮출 수 있지만, Z‑Image LoRA 훈련의 안전한 베이스라인으로 float8은 보통 무난합니다.
5.4 TARGET 패널(Target Type, Linear Rank)
- Target Type:
LoRA - Linear Rank(Z‑Image LoRA 훈련 실용 기본값)
- 16: 스타일 LoRA, 저VRAM 실행
- 32: 캐릭터/제품 LoRA, 더 높은 충실도
- 48+: VRAM이 매우 많고 언더피팅이 명확할 때만
5.5 SAVE 패널(Data Type, Save Every, Max Step Saves to Keep)
- Data Type:
BF16 - Save Every:
250(최적 체크포인트를 고를 수 있을 만큼 저장) - Max Step Saves to Keep:
4(디스크 팽창 방지)
5.6 TRAINING 패널(Batch Size, Steps, Optimizer, LR, Timesteps)
Z‑Image LoRA 훈련 안정 베이스라인
- Batch Size:
1 - Gradient Accumulation:
1(VRAM 없이 실효 배치를 늘리고 싶다면 증가) - Steps: 아래 참고(목표별 범위)
- Optimizer:
AdamW8Bit - Learning Rate:
0.0001(불안정하면0.00005) - Weight Decay:
0.0001 - Timestep Type:
Weighted - Timestep Bias:
Balanced - Loss Type:
Mean Squared Error - EMA: 대부분의 LoRA 실행에서 OFF
Steps: Z‑Image Base 친화 가이드
Z‑Image Base는 Turbo 스타일의 증류 모델보다 더 긴 훈련을 견디는 편이지만, 프롬프트 충실도가 무너지기 전에 멈추는 것이 중요합니다.
- 캐릭터/유사도: 3000–7000 steps (데이터셋 크기에 따라 달라짐)
- 스타일: 2000–6000 steps
- 제품/컨셉: 2500–6500 steps
빠른 스모크 테스트로는 1000–1500 steps만 돌려 샘플을 확인한 뒤, Z‑Image LoRA 훈련 전체 실행으로 가는 방식을 추천합니다.
5.7 Text Encoder 최적화 + 정규화(오른쪽)
- Unload TE: 캡션 없이 트리거만으로 동작시키려는 의도가 아니라면 OFF
- Cache Text Embeddings: 캡션이 고정이고 caption dropout을 쓰지 않을 때만 ON
Differential Output Preservation (DOP)
UI 빌드에 있다면:
- “프롬프트했을 때만 LoRA가 활성화”가 중요하면 Differential Output Preservation를 켜세요
- DOP가 ON이면 text embeddings 캐시를 쓰지 마세요(개념적으로 충돌)
5.8 ADVANCED 패널
- Do Differential Guidance: 평소 워크플로우에서 이미 사용하고 튜닝 포인트를 아는 경우가 아니라면 OFF
5.9 DATASETS 패널(Target Dataset, Caption Dropout, Cache Latents, Resolutions)
Z‑Image LoRA 훈련에서는 UI에 보이는 데이터셋 설정을 그대로 따라가면 됩니다:
- Target Dataset: 데이터셋 선택
- Default Caption: 짧은 템플릿(또는 이미지별
.txt를 쓰면 비워둠) - Caption Dropout Rate:
0.05(text embeddings 캐시를 쓰면0) - Cache Latents: 속도를 위해 ON
- Is Regularization: 메인 데이터셋은 OFF
- Flip X / Flip Y: 기본 OFF(로고/텍스트 특히)
- Resolutions(Z‑Image Base LoRA 훈련에서 가장 중요한 레버)
- 저VRAM: 512 + 768
- 24GB: 768 + 1024 (데이터가 일관적이면 1024만도 가능)
- 고VRAM: 제품/텍스트 충실도를 원하면 1280 / 1536 추가
5.10 SAMPLE 패널(Base vs Turbo가 가장 중요한 곳)
Z‑Image Base의 Z‑Image LoRA 훈련에서 가장 자주 잘못 설정되는 지점입니다.
Base 샘플링 권장 기본값
- Sample Every:
250 - Sampler:
FlowMatch(훈련 스케줄러 계열과 매칭) - Guidance Scale:
4(Base 일반 범위는 ~3–5; 취향에 맞춰 조정) - Sample Steps: 30–50 (먼저 30)
- Width / Height: 메인 버킷과 일치(1024×1024 권장)
- 다음을 커버하는 소수 프롬프트를 추가:
- 트리거(사용 시)
- 다양한 구도
- 정체성/스타일/제품 지오메트리를 강하게 요구하는 “하드” 프롬프트
옵션 네거티브 프롬프트(Base는 잘 지원)
프리뷰에서 짧은 네거티브 프롬프트로 아티팩트를 줄일 수 있습니다. 예:
low quality, blurry, deformed, bad anatomy, watermark, text artifacts
5.11 훈련 실행 & 모니터링
작업을 시작하고 Z‑Image LoRA 훈련 중에는 다음을 확인하세요:
- Samples(250 steps마다)
- 프롬프트 충실도(프롬프트가 여전히 잘 반영되는가?)
- 오버핏 신호(같은 얼굴/텍스처가 반복, 배경 붕괴)
LoRA가 강하게 적용되면서도 항상 켜진 필터가 되지 않는 체크포인트를 선택하세요.
6. VRAM 티어별 권장 Z‑Image LoRA 훈련 설정
Tier 1 — 12–16GB (VRAM이 빡빡함)
- Low VRAM: ON
- Quantization: Transformer + Text Encoder 모두 float8
- Linear Rank: 16
- Resolutions: 512 + 768
- Sample Steps: 30 (필요하면 프리뷰 크기를 768로)
- Steps: 데이터셋 크기에 따라 2000–5000
Tier 2 — 24GB (로컬에서 가장 실용적)
- Low VRAM: ON (안정되면 OFF도 테스트)
- Quantization: float8
- Linear Rank: 32 (캐릭터/제품), 16–32 (스타일)
- Resolutions: 768 + 1024 (또는 일관적이면 1024만)
- Sample Steps: 30–40
- Steps: 목표에 따라 3000–7000
Tier 3 — 48GB+ (또는 클라우드 H100/H200)
- Low VRAM: OFF (옵션)
- Quantization: 옵션 (float8도 충분히 OK)
- Linear Rank: 32–48
- Resolutions: 1024 + 1280 + 1536 (데이터셋이 지원한다면)
- Sample Steps: 40–50 (최고 프리뷰 품질)
- Steps: 목표별 범위는 동일, 더 빠르게 반복 가능
7. Z‑Image Base 훈련에서 흔한 문제와 해결법
여기서는 Z‑Image Base 특화 문제만 다룹니다(AI Toolkit 일반 오류가 아님).
“Base가 덜 익었고/디테일이 부족함”
가능한 원인: 스텝이 너무 적거나 해상도가 너무 낮음.
해결
- sample steps를 40–50으로 증가
- VRAM이 허용하면 더 높은 버킷(1280/1536) 시도
- 추론 워크플로우에 “shift” 파라미터가 있다면, 일부 사용자는 중간 값(예: ~4–6)에서 더 좋은 일관성을 보고했습니다. steps/CFG가 맞는 뒤에 미세 조정으로만 사용하세요.
“Base에서는 되는데 Turbo에서는 LoRA가 안 먹음”
많은 경우 정상입니다:
- Turbo는 증류 모델이라 동작이 다릅니다(특히 CFG/네거티브, LoRA 강도).
해결
- Turbo 배포가 목적이라면 Base↔Turbo 전이가 1:1일 거라 기대하지 말고, Turbo 중심 워크플로우로 훈련하는 것을 고려하세요.
- 최선의 결과를 위해 같은 계열에서 훈련하고 배포하세요(Base→Base).
“텍스트/로고가 불안정함”
Z‑Image Base는 타이포그래피도 잘하지만, Z‑Image LoRA 훈련에서는 해상도/샘플링에 민감합니다.
해결
- 1024+에서 훈련(가능하면 1280/1536도 고려)
- 평가 시 40–50 steps 사용
- 텍스트가 중요하면 Flip X를 피하기
- 핵심 텍스트 특징을 캡션에 일관되게 포함(트리거에만 의존하지 않기)
8. 훈련 후 Z‑Image Base LoRA 사용하기
Run LoRA — Z‑Image Run LoRA 페이지를 여세요. 이 베이스 모델 추론 페이지에서 RunComfy에서 훈련한 LoRA asset을 선택하거나 AI Toolkit에서 훈련한 LoRA 파일을 import한 뒤, playground 또는 API로 추론할 수 있습니다. RunComfy는 동일한 베이스 모델과 훈련 설정의 AI Toolkit 파이프라인 정의를 그대로 사용하므로, 훈련 중에 본 결과가 추론에서도 그대로 나올 가능성이 높아지고 Z‑Image LoRA 훈련 샘플과의 일관성도 좋아집니다. 또한 Deployments 페이지에서 LoRA 모델을 전용 엔드포인트로 배포할 수도 있습니다.
더 많은 AI Toolkit LoRA 훈련 가이드
Ready to start training?

