Z‑Imageは、Tongyi‑MAIが開発した60億パラメータの画像生成モデルで、Scalable Single‑Stream Diffusion Transformer(S3‑DiT)上に構築されています。そのサイズにしては非常に効率的で、コンシューマGPUで1024×1024で動作するように設計されています。
このZ-Image-Turbo LoRA学習ガイドでは、Z‑Image Turbo LoRA学習の最も一般的で実践的な2つのアプローチを解説します:
1) Z‑Image Turbo(Training Adapter付き) — 学習後もLoRAが本当の8ステップTurbo速度で動作することを望む場合に最適。
2) Z‑Image De‑Turbo(De‑Distilled) — アダプターなしで学習可能な脱蒸留ベースが必要な場合や、より長いファインチューンに最適。
このガイドを読み終えると、以下のことができるようになります:
- 目的に合った正しいZ‑Imageベース(Turbo+アダプター vs De‑Turbo)を選択する。
- Turboスタイルの蒸留学習で機能するデータセットを準備する。
- Ostris AI Toolkit(ローカルまたはRunComfy Cloud AI Toolkit)をパネルごとに設定する。
- 各パラメータがなぜ重要なのかを理解し、コピペではなく調整できるようになる。
この記事はAI Toolkit LoRA学習シリーズの一部です。Ostris AI Toolkitが初めての方は、このガイドに入る前にAI Toolkit LoRA学習の概要から始めてください。
クイックスタート(推奨ベースライン)
オプションA — Turbo + Training Adapter(ほとんどのLoRAに推奨)
Z-Image-TurboでLoRA学習を行い、学習後もLoRAがTurboの高速8ステップ動作を維持したい場合にこのオプションを使用してください。
なぜこれが重要か:
- Turboは蒸留された「生徒」モデルです:より遅いマルチステップ拡散プロセスを約8ステップに圧縮します。
- 通常のモデルのようにTurboで学習すると、更新が蒸留を元に戻す可能性があり(「Turboドリフト」)、同じ品質を得るためにより多くのステップ/より高いCFGが必要になります。
- Training Adapterは学習中に一時的にTurboを「脱蒸留」し、LoRAがTurboの8ステップ動作を壊すことなくコンセプトを学習できるようにします。推論時にはアダプターを削除し、LoRAのみを保持します。
ベースライン設定:
- MODEL → Model Architecture:
Z‑Image Turbo (w/ Training Adapter) - MODEL → Name or Path:
Tongyi-MAI/Z-Image-Turbo - MODEL → Training Adapter Path:
- UIが自動入力する場合はデフォルトを維持(RunComfyは通常v2をデフォルト)、または明示的に設定:
- v1:
ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v1.safetensors - v2:
ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v2.safetensors - TARGET → Linear Rank:
16 - TRAINING → Learning Rate:
0.0001 - TRAINING → Steps:
2500–3000(10–30枚の画像の場合) - DATASETS → Resolutions:
512 / 768 / 1024および Cache Latents = ON - SAMPLE(プレビュー用):
1024×1024、8ステップ(パイプラインが9を「8 DiT forwards」として扱う場合は9)- Guidance scale = 0(Turboはguidance蒸留済み)
250ステップごとにサンプル
オプションB — De‑Turbo(脱蒸留ベース)
Training Adapterなしで学習したい場合や、より長い学習を計画している場合にこのオプションを使用してください。
Turboとの違い:
- De‑Turboは学習とサンプリングで「通常の」拡散モデルのように動作します。
- 通常、より多くのステップと低い(ただしゼロではない)CFGでサンプリングします。
- MODEL → Model Architecture:
Z‑Image De‑Turbo (De‑Distilled) - MODEL → Name or Path:
ostris/Z-Image-De-Turbo(または AI Toolkitビルドがプリセレクトするもの) - Training Adapter Path: なし(不要)
- 同じLoRA設定(rank/LR/steps)をベースラインとして維持。
- SAMPLE(プレビュー用):
- 20–30ステップ
- CFG(guidance scale)≈ 2–3
250ステップごとにサンプル
セットアップ不要で始めたい場合はRunComfy Cloud AI Toolkitを使用し、同じパネルに従ってください。
目次
- 1. どのZ‑Imageベースで学習すべきか?(Turbo+アダプター vs De‑Turbo)
- 2. Z‑Image Training Adapter v1 vs v2(何が変わるか、いつ使うか)
- 3. Z‑Image / Z‑Image‑Turboの概要(LoRA学習向け)
- 4. Z‑Image学習の場所:ローカル vs クラウドAI Toolkit
- 5. Z‑Image LoRA学習用データセットの設計
- 6. AI ToolkitでのZ‑Image LoRA設定 – パラメータごとの解説
- 7. Z‑Image LoRA学習の実践レシピ
- 8. トラブルシューティング(Turboドリフト、過学習、VRAM、サンプリング)
- 9. Z‑Image LoRAのエクスポートと使用
- FAQ
1. どのZ‑Imageベースで学習すべきか?(Turbo+アダプター vs De‑Turbo)
AI ToolkitはAI Toolkit Z-Image-Turbo LoRA学習用に2つの「Model Architecture」選択肢を提供しています:
1.1 Z‑Image Turbo(Training Adapter付き)
最適な用途: 典型的なLoRA(キャラクター、スタイル、製品)で、最終目標が8ステップでTurbo推論を実行すること。
なぜ存在するか:
- Z‑Image Turboはステップ蒸留モデルです。ステップ蒸留モデルで「通常通り」LoRAを学習すると、蒸留が急速に崩壊し、Turboがより遅い非蒸留モデルのように動作し始めます(品質の変化、より多くのステップが必要など)。
- Training Adapterは学習中に一時的な「脱蒸留LoRA」として機能します。LoRAはコンセプトを学習しながら、Turboの高速8ステップ動作は安定したままです。
- 推論時には、Training Adapterを削除し、実際のTurboベース上にLoRAを保持します。
正しい選択をした実践的なサイン:
- プレビューサンプルが8ステップ、guidance ≈ 0できれいに見える。
- LoRAがきれいに見えるために突然20–30ステップを必要としない(Turboドリフトの一般的なサイン)。
1.2 Z‑Image De‑Turbo(De‑Distilled)
最適な用途: アダプターなしの学習、またはTurbo+アダプターが最終的にドリフトするような長いファインチューン。
これは何か:
- De‑Turboは学習用に通常の拡散モデルのように動作するよう設計されたTurboの脱蒸留バージョンです。
- アダプターなしで直接学習でき、推論にも使用できます(通常20–30ステップ、低CFG)。
1.3 クイック判断ガイド
Turbo + Training Adapterを選択する場合:
- 学習後にLoRAをTurbo速度(8ステップ)で実行したい。
- 通常のLoRA学習(数千から数万ステップ)を行っている。
De‑Turboを選択する場合:
- 学習とサンプリングで「通常モデル」の動作が欲しい。
- より長く学習したい、またはTraining Adapterをきれいにサポートしないワークフローで実験している。
2. Z‑Image Training Adapter v1 vs v2(何が変わるか、いつ使うか)
Training Adapterリポジトリには通常2つのファイルがあります:
..._v1.safetensors..._v2.safetensors
実践的に知っておくべきこと:
- v1は安全なベースライン。
- v2は学習ダイナミクスと結果を変える可能性のある新しいバリアント。
推奨: A/Bテストとして扱う:
- データセット、LR、ステップ、rankを同一に保つ
- v1で1回、v2で1回学習
- 同じチェックポイントでサンプルグリッドを比較
RunComfy UIがデフォルトでv2を使用し、学習が安定しているように見える場合はそのまま維持。不安定性(ノイズ、Turboドリフト、奇妙なアーティファクト)が見られる場合はv1に切り替え。
3. Z‑Image / Z‑Image‑Turboの概要(LoRA学習向け)
公式Z‑Imageソースより:
- 60億パラメータ、S3‑DiTアーキテクチャ — テキストトークン、視覚的セマンティックトークン、VAEラテントが単一のトランスフォーマーストリームに連結されます。
- モデルファミリー — Z‑ImageシリーズにはTurbo、Base、Editバリアントが存在します。
- Turbo仕様 — 高速推論に最適化;Turbo推論ではguidanceは通常0。
LoRA学習に役立つメンタルモデル:
- 高ノイズタイムステップは主に構成(レイアウト、ポーズ、グローバルな色調)を制御。
- 低ノイズタイムステップは主にディテール(顔、手、テクスチャ)を制御。
そのため、タイムステップ設定とバイアスは、LoRAが「グローバルスタイル」vs「アイデンティティ/ディテール」のどちらに感じられるかを顕著に変えることができます。
4. Z‑Image学習の場所:ローカル vs クラウドAI Toolkit
4.1 ローカルAI Toolkit
Ostris AI ToolkitはGitHubでオープンソース公開されています。Z Image Turbo LoRA 学習、FLUX、Wan、Qwenなどを統一されたUIと設定システムでサポートしています。
ローカルが適している場合:
- すでにNVIDIA GPUを持っていて、Python / Gitセットアップを気にしない。
- ファイル、ログ、カスタム変更の完全なコントロールが欲しい。
リポジトリ:ostris/ai-toolkit
4.2 RunComfy Cloud AI Toolkit
CUDAインストールやドライバ問題をスキップしたい場合は、RunComfy Cloud AI Toolkitを使用:
- セットアップ不要 — ブラウザを開いて学習。
- 一貫したVRAM — ハードウェアの摩擦なしにガイドに従いやすい。
- 永続ストレージ — イテレーションとチェックポイント管理が簡単。
👉 こちらで開く:RunComfy Cloud AI Toolkit
5. Z‑Image LoRA学習用データセットの設計
5.1 実際に何枚の画像が必要か?
- 10–30枚がほとんどのキャラクターまたはスタイルLoRAに適した範囲。
- 約50枚を超えると、スタイル範囲が非常に広くない限り、収穫逓減に達することが多い。
Z‑Imageはグラデーションから強く学習する(「ホットに学習する」)ため、データセットの品質と多様性が画像の枚数よりも重要:
- 少なすぎる画像+過剰な学習は、過学習した顔、繰り返しのポーズ、乱雑な背景として現れることが多い。
- 小さいが多様なデータセット(角度、照明、背景)は、大きくて繰り返しの多いものよりもうまく一般化する傾向がある。
5.2 キャラクター vs スタイルLoRA
キャラクターLoRA
- 同じ被写体の12–30枚の画像を目指す。
- クローズアップと全身、角度、照明、衣装を混ぜる。
- キャプションは文字通りで一貫性があってよい;オプションのトリガートークン。
スタイルLoRA
- 様々な被写体(人物、インテリア、風景、オブジェクト)にわたる15–40枚の画像を目指す。
- シーンを普通にキャプション;トリガー専用にしたい場合を除き、スタイルを過度に説明しない。
- これは「何でもこのスタイルでレンダリングする」ことを教え、「特別なキーワードを言った時だけスタイルを適用する」のではない。
5.3 キャプション、トリガーワード、テキストファイル
image_01.png→image_01.txt.txtがない場合、AI ToolkitはDefault Captionを使用。- キャプションで
[trigger]を使用し、JOBパネルでTrigger Wordを設定できる。 - これは後でDOP(Differential Output Preservation)を有効にしてLoRAをより「オプトイン」にする場合に特に便利。
6. AI ToolkitでのZ‑Image LoRA設定 – パラメータごとの解説
このセクションでは、ZIT LoRA 学習のUIパネルを順に説明し、各重要フィールドの役割を解説します。
6.1 JOBパネル
- Training Name —
zimage_char_redhair_v1のような説明的なラベル - GPU ID — ローカルGPUセレクター;クラウドではデフォルトを維持
- Trigger Word(オプション) —
zchar_redhair/zstyle_pencil
6.2 MODELパネル(最重要)
ここで2つのベース選択が重要になります:
Turbo + アダプターを選択する場合
- Model Architecture —
Z‑Image Turbo (w/ Training Adapter) - Name or Path —
Tongyi-MAI/Z-Image-Turbo - これはHugging Faceモデルid(リポジトリid)。ほとんどのAI Toolkitビルドでは、Model Architectureを選択するとこれが自動入力されます;変更する理由がない限りそのままにしてください。
- オーバーライドする場合は、Hugging Faceリポジトリid形式を使用:
org-or-user/model-name(オプションでorg-or-user/model-name@revision)。 - Training Adapter Path — デフォルトを維持するか選択:
- v1:
ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v1.safetensors - v2:
ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v2.safetensors
ヒント:誤ってアダプターなしでTurboを学習した場合、最も一般的な症状は、ステップ/CFGを上げた時にのみLoRAが「機能」することで、これはTurboの意味を失わせます。
De‑Turboを選択する場合
- Model Architecture —
Z‑Image De‑Turbo (De‑Distilled) - Name or Path —
ostris/Z-Image-De-Turbo - Training Adapter Path — なし
オプション:
- Low VRAM / Layer Offloading — VRAMが制限されている場合に有効化
6.3 QUANTIZATIONパネル
- 24GB以上では、忠実度のために
BF16/noneを優先 - 16GBでは、
float8が通常最良のトレードオフ
6.4 TARGETパネル – LoRA設定
- Target Type —
LoRA - Linear Rank —
8–16から開始 16はより強いスタイル/テクスチャ用8はより小さく繊細なLoRA用
6.5 SAVEパネル
- Data Type —
BF16 - Save Every —
250 - Max Step Saves to Keep —
4–12
6.6 TRAININGパネル – コアハイパーパラメータ
- Batch Size —
1 - Optimizer —
AdamW8Bit - Learning Rate —
0.0001から開始不安定/ノイジーな場合は
0.00005–0.00008に下げる。高すぎる値は避ける(例:
0.0002+)— Turboスタイルのモデルは急速に不安定になる可能性がある。 - Weight Decay —
0.0001 - Steps — 10–30枚の画像で
2500–3000データセットが非常に小さい(<10枚)場合は、過学習を減らすために
1500–2200を検討。 - Loss Type —
Mean Squared Error - Timestep Type —
Weighted - Timestep Bias —
Balanced - より強いグローバルスタイル/ムードが欲しい場合はHigh Noiseを優先。
- アイデンティティ/ディテールを追求する場合はLow Noiseを優先(上級;Balancedから開始)。
- EMA — OFF
Text Encoder:
- Cache Text Embeddings — キャプションが静的でVRAMが限られている場合はON
(その場合Caption Dropoutを0に設定)
- Unload TE — キャプション駆動学習ではOFFを維持
正則化:
- DOP — 最初の実行ではOFFを維持;後で本番用トリガー専用LoRAに追加
(DOPは強力だが複雑さを増す;安定したベースラインが既にある場合に最も簡単。)
6.7 DATASETSパネル
- Caption Dropout Rate
- テキスト埋め込みをキャッシュしない場合は
0.05 - 埋め込みをキャッシュする場合は
0 - Cache Latents — ON
- Resolutions —
512 / 768 / 1024が強力なベースライン
6.8 SAMPLEパネル(ベースに合わせる!)
Turboを学習する場合:
1024×1024、8ステップ、guidance = 0、250ごとにサンプル
De‑Turboを学習する場合:
1024×1024、20–30ステップ、CFG 2–3、250ごとにサンプル
実際の使用を反映する5–10のプロンプトを使用;リークを検出するためにトリガーなしのプロンプトをいくつか含める。
6.9 ADVANCEDパネル – Differential Guidance(オプション)
- Do Differential Guidance — より速い収束が欲しい場合はON
- Scale —
3から開始サンプルが早期に過度にシャープ/ノイジーに見える場合は
2に減らす。学習が遅い場合は後で4をテスト可能。
7. Z‑Image LoRA学習の実践レシピ
Turbo LoRAの強力なベースライン:
- Turbo + Training Adapter(v1またはv2)
rank=16、lr=1e-4、steps=2500–3000512/768/1024バケット、cache latents ON- 250ステップごとにサンプル、8ステップ、guidance 0
LoRAが「強すぎる」と感じる場合:
- 学習は同じまま維持し、より低いLoRA重み(例:
0.6–0.8)で推論を実行する計画を立てる。
8. トラブルシューティング
「LoRAがTurboを壊した — 今はより多くのステップ/CFGが必要。」
- 最も一般的な原因:
- Training Adapterなしでturboで学習した、または
- LRが長すぎる間高すぎた。
- 修正:
- Turbo + Training Adapterアーキテクチャを使用
- LR ≤ 1e‑4を維持
- 早期にドリフトが見られたらステップを減らす
「スタイルが強すぎる。」
- 推論時にLoRA重みを下げる(0.6–0.8)
- 本番LoRAにはトリガー + DOPを使用(オプトイン動作)
「手/背景が乱雑。」
- それらのケースを含む画像をいくつか追加
- 低ノイズタイムステップをわずかに優先することを検討(上級)
「VRAMがない/遅すぎる。」
- 高いバケットを無効化(512–1024を維持)
- Low VRAM + オフローディングを有効化
- float8に量子化
- ラテントをキャッシュ(オプションでテキスト埋め込みもキャッシュ)
9. Z‑Image LoRAを使用する
- Model playground — Z‑Image Turbo LoRA playgroundでベースモデル上でLoRAを試す
- ComfyUIワークフロー — ComfyUIのZ‑ImageワークフローのようなワークフローにLoRAをロード
FAQ
Z-Image-Turbo LoRAトレーニングでv1またはv2のどちらのアダプターを使うべきですか?
UIのデフォルトから始めてください。結果が不安定またはZ‑Image Turboドリフトが見られる場合は、他のすべての設定を同じにして別のバージョンをテストしてください。
Z‑ImageをTurbo+アダプターとDe‑Turboのどちらで学習すべきですか?
8ステップTurbo動作を維持する必要があるほとんどのZ‑Image LoRAにはTurbo+アダプター。アダプターなしの学習やより長いファインチューンが欲しい場合はDe‑Turbo。
学習後にどのZ‑Image推論設定を使用すべきですか?
Z‑Image Turboは通常、低い/ゼロのCFGと約8ステップを使用。De‑Turboは通常のモデルのように動作(20–30ステップ、低CFG)。サンプリング設定を実際に使用しているベースに常に合わせてください。
その他のAI Toolkit LoRA学習ガイド
Ready to start training?

