AI Toolkit LoRA Training Guides

Ostris AI Toolkit로 Z-Image LoRA 학습하기(Z-Image Turbo + De-Turbo)

이 가이드는 Ostris AI Toolkit에서 고품질 Z-Image LoRA를 학습하는 방법을 설명합니다. Turbo + training adapter vs De-Turbo 중 어떤 베이스를 선택할지부터, 데이터셋/ rank/LR/steps /샘플링 설정을 조정해 안정적인 결과를 얻는 과정과 Turbo drift를 피하는 팁을 다룹니다.

Train Diffusion Models with Ostris AI Toolkit

가로로 스크롤하여 전체 양식 보기

Ostris AI ToolkitOstrisAI-Toolkit

New Training Job

Job

Model

Quantization

Target

Save

Training

Datasets

Dataset 1

Sample

Z‑Image는 Tongyi‑MAI에서 개발한 60억 파라미터 이미지 생성 모델로, Scalable Single‑Stream Diffusion Transformer (S3‑DiT) 기반으로 구축되었습니다. 크기 대비 매우 효율적이며 소비자용 GPU에서 1024×1024로 실행되도록 설계되었습니다.

Z-Image Turbo LoRA 훈련 가이드에서는 Z‑Image Turbo LoRA 학습의 가장 일반적이고 실용적인 두 가지 접근 방식을 다룹니다:

1) Z‑Image Turbo (Training Adapter 포함) — 훈련 후 LoRA가 진정한 8스텝 Turbo 속도로 실행되기를 원할 때 최적.

2) Z‑Image De‑Turbo (De‑Distilled) — 어댑터 없이 훈련할 수 있는 탈증류 베이스가 필요하거나 더 긴 파인튜닝에 최적.

이 가이드를 마치면 다음을 할 수 있게 됩니다:

  • 목표에 맞는 올바른 Z‑Image 베이스(Turbo+어댑터 vs De‑Turbo)를 선택하기.
  • Turbo 스타일 증류 훈련에 작동하는 데이터셋 준비하기.
  • Ostris AI Toolkit (로컬 또는 RunComfy Cloud AI Toolkit)을 패널별로 구성하기.
  • 각 파라미터가 중요한지 이해하여, 복사/붙여넣기 대신 조정할 수 있게 되기.
이 문서는 AI Toolkit LoRA 훈련 시리즈의 일부입니다. Ostris AI Toolkit이 처음이라면, 이 가이드에 들어가기 전에 AI Toolkit LoRA 훈련 개요부터 시작하세요.

빠른 시작 (권장 베이스라인)

옵션 A — Turbo + Training Adapter (대부분의 LoRA에 권장)

Z-Image Turbo LoRA 학습을 수행하고 훈련 후 LoRA가 Turbo의 빠른 8스텝 동작을 유지하기를 원한다면 이 옵션을 사용하세요.

왜 중요한가:

  • Turbo는 증류된 "학생" 모델입니다: 더 느린 다중 스텝 확산 과정을 약 8스텝으로 압축합니다.
  • 일반 모델처럼 Turbo에서 훈련하면, 업데이트가 증류를 되돌릴 수 있고("Turbo 드리프트"), 같은 품질을 얻기 위해 더 많은 스텝 / 더 높은 CFG가 필요해집니다.
  • Training Adapter는 훈련 중에 일시적으로 Turbo를 "탈증류"하여 LoRA가 Turbo의 8스텝 동작을 깨뜨리지 않고 컨셉을 학습할 수 있게 합니다. 추론 시에는 어댑터를 제거하고 LoRA만 유지합니다.

베이스라인 설정:

  1. MODEL → Model Architecture: Z‑Image Turbo (w/ Training Adapter)
  2. MODEL → Name or Path: Tongyi-MAI/Z-Image-Turbo
  3. MODEL → Training Adapter Path:
    • UI가 자동 입력하면 기본값 유지(RunComfy는 보통 v2를 기본값으로 사용), 또는 명시적으로 설정:
      • v1: ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v1.safetensors
      • v2: ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v2.safetensors
  4. TARGET → Linear Rank: 16
  5. TRAINING → Learning Rate: 0.0001
  6. TRAINING → Steps: 2500–3000 (10–30개 이미지 기준)
  7. DATASETS → Resolutions: 512 / 768 / 1024Cache Latents = ON
  8. SAMPLE (미리보기용):
    • 1024×1024, 8스텝 (파이프라인이 9를 "8 DiT forwards"로 처리하면 9)
    • Guidance scale = 0 (Turbo는 guidance 증류됨)
    • 250 스텝마다 샘플

옵션 B — De‑Turbo (탈증류 베이스)

Training Adapter 없이 훈련하거나 더 긴 훈련을 계획한다면 이 옵션을 사용하세요.

Turbo와의 차이점:

  • De‑Turbo는 훈련과 샘플링에서 "일반" 확산 모델처럼 동작합니다.
  • 일반적으로 더 많은 스텝낮은(하지만 0이 아닌) CFG로 샘플링합니다.
  1. MODEL → Model Architecture: Z‑Image De‑Turbo (De‑Distilled)
  2. MODEL → Name or Path: ostris/Z-Image-De-Turbo (또는 AI Toolkit 빌드가 사전 선택하는 것)
  3. Training Adapter Path: 없음 (필요 없음)
  4. 동일한 LoRA 설정(rank/LR/steps)을 베이스라인으로 유지.
  5. SAMPLE (미리보기용):
    • 20–30스텝
    • CFG (guidance scale) ≈ 2–3
    • 250 스텝마다 샘플
설정 없이 시작하고 싶다면 RunComfy Cloud AI Toolkit을 사용하고 동일한 패널을 따르세요.

목차


1. 어떤 Z‑Image 베이스로 훈련해야 하나? (Turbo+어댑터 vs De‑Turbo)

AI Toolkit은 Z-Image-Turbo LoRA 훈련을 위해 두 가지 "Model Architecture" 선택지를 제공합니다:

1.1 Z‑Image Turbo (Training Adapter 포함)

최적 용도: 일반적인 LoRA(캐릭터, 스타일, 제품)로, 최종 목표가 8스텝에서 Turbo 추론을 실행하는 것.

왜 존재하나:

  • Z‑Image Turbo는 스텝 증류 모델입니다. 스텝 증류 모델에서 "정상적으로" LoRA를 훈련하면, 증류가 빠르게 무너질 수 있고, Turbo가 더 느린 비증류 모델처럼 동작하기 시작합니다(품질 변화, 더 많은 스텝 필요 등).
  • Training Adapter는 훈련 중에 임시 "탈증류 LoRA"로 작동합니다. LoRA는 컨셉을 학습하면서 Turbo의 빠른 8스텝 동작은 안정적으로 유지됩니다.
  • 추론 시에는 Training Adapter를 제거하고 실제 Turbo 베이스 위에 LoRA를 유지합니다.

올바른 선택을 했다는 실용적인 신호:

  • 미리보기 샘플이 8스텝, guidance ≈ 0에서 좋아 보인다.
  • LoRA가 깨끗해 보이기 위해 갑자기 20–30스텝이 필요하지 않다(Turbo 드리프트의 일반적인 신호).

1.2 Z‑Image De‑Turbo (De‑Distilled)

최적 용도: 어댑터 없이 훈련하거나, Turbo+어댑터가 결국 드리프트할 더 긴 파인튜닝.

이것이 무엇인가:

  • De‑Turbo는 훈련을 위해 일반 확산 모델처럼 동작하도록 설계된 Turbo의 탈증류 버전입니다.
  • 어댑터 없이 직접 훈련할 수 있고 추론에도 사용할 수 있습니다(일반적으로 20–30스텝, 낮은 CFG).

1.3 빠른 결정 가이드

Turbo + Training Adapter를 선택하는 경우:

  • 훈련 후 LoRA가 Turbo 속도(8스텝)로 실행되기를 원한다.
  • 일반적인 LoRA 훈련(수천에서 수만 스텝)을 수행하고 있다.

De‑Turbo를 선택하는 경우:

  • 훈련과 샘플링에서 "일반 모델" 동작을 원한다.
  • 더 오래 훈련하거나, Training Adapter를 깔끔하게 지원하지 않는 워크플로우로 실험하고 있다.

2. Z‑Image Training Adapter v1 vs v2 (무엇이 바뀌나, 언제 사용하나)

Training Adapter 저장소에는 보통 두 개의 파일이 있습니다:

  • ..._v1.safetensors
  • ..._v2.safetensors

실용적으로 알아야 할 것:

  • v1은 안전한 베이스라인.
  • v2는 훈련 역학과 결과를 바꿀 수 있는 새로운 변형.

권장: A/B 테스트로 취급:

  • 데이터셋, LR, 스텝, rank를 동일하게 유지
  • v1으로 한 번, v2로 한 번 훈련
  • 같은 체크포인트에서 샘플 그리드 비교

RunComfy UI가 기본값으로 v2를 사용하고 훈련이 안정적으로 보이면 유지. 불안정성(노이즈, Turbo 드리프트, 이상한 아티팩트)이 보이면 v1으로 전환.


3. Z‑Image / Z‑Image‑Turbo 요약 (LoRA 훈련용)

공식 Z‑Image 소스에서:

  • 60억 파라미터, S3‑DiT 아키텍처 — 텍스트 토큰, 시각적 시맨틱 토큰, VAE 잠재 변수가 단일 트랜스포머 스트림으로 연결됩니다.
  • 모델 패밀리 — Z‑Image 시리즈에는 Turbo, Base, Edit 변형이 있습니다.
  • Turbo 사양 — 빠른 추론에 최적화됨; Turbo 추론에서 guidance는 일반적으로 0.

LoRA 훈련에 유용한 멘탈 모델:

  • 고노이즈 타임스텝은 주로 구성(레이아웃, 포즈, 전체 색조)을 제어.
  • 저노이즈 타임스텝은 주로 디테일(얼굴, 손, 텍스처)을 제어.

그래서 타임스텝 설정과 바이어스가 LoRA가 "전역 스타일" vs "정체성/디테일" 중 어떻게 느껴지는지를 눈에 띄게 바꿀 수 있습니다.


4. Z‑Image 훈련 장소: 로컬 vs 클라우드 AI Toolkit

4.1 로컬 AI Toolkit

Ostris AI Toolkit은 GitHub에서 오픈 소스입니다. AI 툴킷 Z-Image Turbo LoRA 훈련, FLUX, Wan, Qwen 등을 통합된 UI와 구성 시스템을 통해 지원합니다.

로컬이 적합한 경우:

  • 이미 NVIDIA GPU가 있고 Python / Git 설정을 신경 쓰지 않는다.
  • 파일, 로그, 사용자 정의 변경에 대한 완전한 제어를 원한다.

저장소: ostris/ai-toolkit


4.2 RunComfy Cloud AI Toolkit

CUDA 설치와 드라이버 문제를 건너뛰고 싶다면, RunComfy Cloud AI Toolkit을 사용하세요:

  • 설정 불필요 — 브라우저를 열고 훈련.
  • 일관된 VRAM — 하드웨어 마찰 없이 가이드를 따르기 쉬움.
  • 영구 스토리지 — 더 쉬운 반복과 체크포인트 관리.

👉 여기서 열기: RunComfy Cloud AI Toolkit


5. Z‑Image LoRA 훈련용 데이터셋 설계

5.1 실제로 몇 장의 이미지가 필요한가?

  • 10–30장이 대부분의 캐릭터 또는 스타일 LoRA에 적합한 범위.
  • 약 50장을 초과하면 스타일 범위가 매우 넓지 않는 한 수확 체감이 자주 발생.

Z‑Image는 그래디언트에서 강하게 학습("뜨겁게 학습")하므로, 데이터셋 품질과 다양성이 이미지 수보다 더 중요:

  • 너무 적은 이미지 + 너무 많은 훈련은 종종 과적합된 얼굴, 반복되는 포즈, 지저분한 배경으로 나타남.
  • 작지만 다양한 데이터셋(각도, 조명, 배경)은 크고 반복적인 것보다 더 잘 일반화하는 경향.

5.2 캐릭터 vs 스타일 LoRA

캐릭터 LoRA

  • 같은 피사체의 12–30장의 이미지를 목표로.
  • 클로즈업과 전신, 각도, 조명, 의상을 혼합.
  • 캡션은 문자 그대로이고 일관되어도 됨; 선택적 트리거 토큰.

스타일 LoRA

  • 다양한 피사체(사람, 인테리어, 풍경, 오브젝트)에 걸쳐 15–40장의 이미지를 목표로.
  • 장면을 정상적으로 캡션; 트리거 전용으로 원하지 않는 한 스타일을 과도하게 설명하지 않기.
    • 이것은 "이 스타일로 무엇이든 렌더링"하도록 가르치며, "특별한 키워드를 말할 때만 스타일 적용"이 아님.

5.3 캡션, 트리거 워드, 텍스트 파일

  • image_01.pngimage_01.txt
  • .txt가 없으면, AI Toolkit은 Default Caption을 사용.
  • 캡션에서 [trigger]를 사용하고 JOB 패널에서 Trigger Word를 설정할 수 있음.
    • 나중에 DOP(Differential Output Preservation)를 활성화하여 LoRA를 더 "옵트인"으로 만들 때 특히 유용.

6. AI Toolkit에서의 Z‑Image LoRA 구성 – 파라미터별 설명

이 섹션에서는 Z Image LoRA 훈련 튜토리얼의 UI 패널을 살펴보고 각 중요 필드가 하는 일을 설명합니다.

6.1 JOB 패널

  • Training Namezimage_char_redhair_v1과 같은 설명적 라벨
  • GPU ID — 로컬 GPU 선택기; 클라우드에서는 기본값 유지
  • Trigger Word (선택사항)zchar_redhair / zstyle_pencil

6.2 MODEL 패널 (가장 중요)

여기서 두 가지 베이스 선택이 중요합니다:

Turbo + 어댑터를 선택하는 경우

  • Model ArchitectureZ‑Image Turbo (w/ Training Adapter)
  • Name or PathTongyi-MAI/Z-Image-Turbo
    • 이것은 Hugging Face 모델 id(저장소 id)입니다. 대부분의 AI Toolkit 빌드에서 Model Architecture를 선택하면 이것이 자동 입력됩니다; 변경할 이유가 없으면 그대로 두세요.
    • 오버라이드하는 경우, Hugging Face 저장소 id 형식을 사용: org-or-user/model-name (선택적으로 org-or-user/model-name@revision).
  • Training Adapter Path — 기본값 유지 또는 선택:
    • v1: ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v1.safetensors
    • v2: ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v2.safetensors
팁: 실수로 어댑터 없이 Turbo를 훈련하면, 가장 흔한 증상은 스텝/CFG를 올려야만 LoRA가 "작동"하는 것이며, 이는 Turbo의 의미를 무효화합니다.

De‑Turbo를 선택하는 경우

  • Model ArchitectureZ‑Image De‑Turbo (De‑Distilled)
  • Name or Pathostris/Z-Image-De-Turbo
  • Training Adapter Path — 없음

옵션:

  • Low VRAM / Layer Offloading — VRAM이 제한된 경우 활성화

6.3 QUANTIZATION 패널

  • 24GB 이상에서는 충실도를 위해 BF16/none 선호
  • 16GB에서는 float8이 일반적으로 최적의 절충안

6.4 TARGET 패널 – LoRA 구성

  • Target TypeLoRA
  • Linear Rank8–16으로 시작
    • 16은 더 강한 스타일/텍스처용
    • 8은 더 작고 미묘한 LoRA용

6.5 SAVE 패널

  • Data TypeBF16
  • Save Every250
  • Max Step Saves to Keep4–12

6.6 TRAINING 패널 – 핵심 하이퍼파라미터

  • Batch Size1
  • OptimizerAdamW8Bit
  • Learning Rate0.0001로 시작

    불안정/노이지하면 0.00005–0.00008로 낮춤.

    너무 높은 값(예: 0.0002+)은 피함 — Turbo 스타일 모델은 빠르게 불안정해질 수 있음.

  • Weight Decay0.0001
  • Steps — 10–30장 이미지에 2500–3000

    데이터셋이 매우 작으면(<10장), 과적합을 줄이기 위해 1500–2200 고려.

  • Loss TypeMean Squared Error
  • Timestep TypeWeighted
  • Timestep BiasBalanced
    • 더 강한 전역 스타일/분위기를 원하면 High Noise 선호.
    • 정체성/디테일을 추구하면 Low Noise 선호(고급; Balanced로 시작).
  • EMA — OFF

Text Encoder:

  • Cache Text Embeddings — 캡션이 정적이고 VRAM이 부족하면 ON

    (그러면 Caption Dropout을 0으로 설정)

  • Unload TE — 캡션 기반 훈련에서는 OFF 유지

정규화:

  • DOP — 첫 실행에서는 OFF 유지; 나중에 프로덕션 트리거 전용 LoRA에 추가

    (DOP는 강력하지만 복잡성을 추가; 이미 안정적인 베이스라인이 있을 때 가장 쉬움.)


6.7 DATASETS 패널

  • Caption Dropout Rate
    • 텍스트 임베딩을 캐시하지 않으면 0.05
    • 임베딩을 캐시하면 0
  • Cache Latents — ON
  • Resolutions512 / 768 / 1024가 강력한 베이스라인

6.8 SAMPLE 패널 (베이스에 맞추기!)

Turbo 훈련 시:

  • 1024×1024, 8스텝, guidance = 0, 250마다 샘플

De‑Turbo 훈련 시:

  • 1024×1024, 20–30스텝, CFG 2–3, 250마다 샘플

실제 사용을 반영하는 5–10개의 프롬프트 사용; 누수를 감지하기 위해 트리거 없는 프롬프트 몇 개 포함.


6.9 ADVANCED 패널 – Differential Guidance (선택사항)

  • Do Differential Guidance — 더 빠른 수렴을 원하면 ON
  • Scale3으로 시작

    샘플이 초기에 과도하게 선명/노이지하면 2로 줄임. 학습이 느리면 나중에 4 테스트 가능.


7. Z‑Image LoRA 훈련 실전 레시피

Turbo LoRA를 위한 강력한 베이스라인:

  • Turbo + Training Adapter (v1 또는 v2)
  • rank=16, lr=1e-4, steps=2500–3000
  • 512/768/1024 버킷, cache latents ON
  • 250스텝마다 샘플, 8스텝, guidance 0

LoRA가 "너무 강하다"고 느껴지면:

  • 훈련은 동일하게 유지하되, 더 낮은 LoRA 가중치(예: 0.6–0.8)로 추론을 실행할 계획.

8. 문제 해결

"내 LoRA가 Turbo를 망가뜨렸다 — 이제 더 많은 스텝/CFG가 필요하다."

  • 가장 흔한 원인:
    • Training Adapter 없이 Turbo에서 훈련함, 또는
    • LR이 너무 오랫동안 너무 높았음.
  • 수정:
    • Turbo + Training Adapter 아키텍처 사용
    • LR ≤ 1e‑4 유지
    • 초기에 드리프트가 보이면 스텝 감소

"스타일이 너무 강하다."

  • 추론 시 LoRA 가중치 낮추기 (0.6–0.8)
  • 프로덕션 LoRA에는 트리거 + DOP 사용 (옵트인 동작)

"손/배경이 지저분하다."

  • 해당 케이스를 포함하는 이미지 몇 장 추가
  • 저노이즈 타임스텝을 약간 선호하는 것을 고려 (고급)

"VRAM 부족 / 너무 느리다."

  • 높은 버킷 비활성화 (512–1024 유지)
  • Low VRAM + 오프로딩 활성화
  • float8로 양자화
  • 잠재 변수 캐시 (선택적으로 텍스트 임베딩도 캐시)

9. Z‑Image LoRA 사용하기


FAQ

Z-Image Turbo LoRA 훈련에서 v1 또는 v2 어댑터를 사용해야 하나요?

UI 기본값으로 시작하세요. 결과가 불안정하거나 Z‑Image Turbo 드리프트가 보이면, 다른 모든 설정을 동일하게 유지하고 다른 버전을 테스트하세요.

Z‑Image를 Turbo+어댑터와 De‑Turbo 중 어디서 훈련해야 하나요?

8스텝 Turbo 동작을 유지해야 하는 대부분의 Z‑Image LoRA에는 Turbo+어댑터. 어댑터 없는 훈련이나 더 긴 파인튜닝을 원하면 De‑Turbo.

훈련 후 어떤 Z‑Image 추론 설정을 사용해야 하나요?

Z‑Image Turbo는 일반적으로 낮은/제로 CFG와 약 8스텝을 사용. De‑Turbo는 일반 모델처럼 동작 (20–30스텝, 낮은 CFG). 항상 실제로 사용하는 베이스에 샘플링 설정을 맞추세요.


더 많은 AI Toolkit LoRA 훈련 가이드

Ready to start training?