Ostris AI Toolkitでの Z‑Image(Base)LoRA学習
Z‑Image(Base)は、Z‑Imageのフルチェックポイント(8ステップのTurboではありません)です。CFG+ネガティブプロンプトと多めのサンプリングステップで高品質なtext‑to‑imageを狙える設計で、さらに、キャラクター/スタイル/商品/タイポグラフィ重視のコンセプトなど、きれいで完全に制御できるLoRAを作りたい場合の最適解でもあります。
この Z‑Image LoRA学習 ガイドを読み終えると、次のことができるようになります:
- Ostris AI Toolkit(ローカルまたはクラウド)で Z‑Image LoRA学習 を実行する。
- Z‑Image Base推論の挙動(ステップ+CFG+解像度)に合うデフォルト設定を選ぶ。
- Z‑Image Base LoRA学習でよくある落とし穴(Turbo設定、 「LoRAが効かない」、Base↔Turboのミスマッチ)を回避する。
- 推論UIですぐ使えるチェックポイントをエクスポートする。
この記事はAI Toolkit LoRA学習シリーズの一部です。Ostris AI Toolkitが初めての方は、このZ‑Image LoRA学習に入る前に AI Toolkit LoRA学習の概要 から始めてください:
https://www.runcomfy.com/ja/trainer/ai-toolkit/getting-started
目次
- 1. Z‑Image概要:できること(Turboとの違い)
- 2. 環境の選択:ローカルAI Toolkit vs RunComfyのクラウドAI Toolkit
- 3. Z‑Image Base LoRA学習のハードウェア/VRAM要件
- 4. Z‑Image Base LoRA学習用データセットの作り方
- 5. ステップバイステップ:AI ToolkitでZ‑Image LoRA学習
- 6. VRAM別:おすすめのZ‑Image LoRA学習設定
- 7. Z‑Image Base学習でよくある問題と対処法
- 8. 学習後にZ‑Image Base LoRAを使う
1. Z‑Image概要:できること(Turboとの違い)
1.1 「Z‑Image Base」とは
「Z‑Image Base」は、Z‑Imageの非蒸留(non‑distilled)チェックポイントを指します。実運用では:
- より多いサンプリングステップ(目安 ~30–50。8ではありません)を前提とします。
- CFG と ネガティブプロンプト を効果的に使えます。
- LoRAのファインチューニング(代替キーワード1回)で最大限の制御と品質を狙うなら、Z‑Image LoRA学習のターゲットとして最適です。
1.2 Base vs Turbo(学習で重要なポイント)
Z‑Image LoRA学習でありがちなミスは、BaseをTurboのように学習(または評価)してしまうことです。
- Turbo設定(8ステップ、低/ゼロCFG)だと、Baseの出力が焼き足りないように見えて、「LoRAが効いていない」と誤認しがちです。
- Base設定(30–50ステップ+通常CFG)で評価するのが正解です。
目安:
Base用LoRAを学習したなら、評価も Base で Baseらしいサンプリング に合わせてください。
2. 環境の選択:ローカルAI Toolkit vs RunComfyのクラウドAI Toolkit
このZ‑Image LoRA学習は、AI Toolkitを次の2つの形で実行できます:
- ローカルAI Toolkit(手元のGPU)
GitHubリポジトリからAI Toolkitをインストールし、Web UIを起動します。NVIDIA GPUがあり、CUDA/ドライバ管理に抵抗がなく、LoRAを何度も反復するための永続環境が欲しい場合に最適です。
https://github.com/ostris/ai-toolkit
- RunComfyのクラウドAI Toolkit(H100 / H200)
大容量GPU上でAI Toolkitをブラウザで動かせます:
- インストール不要(UIを開くだけ)
- 1280/1536など高解像度バケットに必要なVRAMを確保しやすい
- データセット/設定/過去の学習が残る永続ワークスペース
どちらもZ‑Image LoRA学習の手順は同じで、違うのはGPUがどこにあるかだけです。
3. Z‑Image Base LoRA学習のハードウェア/VRAM要件
推論自体は比較的控えめなGPUでも可能ですが、Z‑Image LoRA学習は次の要素でVRAM要求が大きく変わります:
- 解像度バケット(768 / 1024 / 1536)
- 量子化(float8)
- LoRA rank
- 学習中のサンプリング設定(プレビュー解像度+プレビューSteps)
Z‑Image LoRA学習を現実的に考えると:
- 12–16GB VRAM:設定を詰めれば 512/768 で可能
- 24GB VRAM:1024 のLoRA学習が現実的
- 48GB+ VRAM:1280/1536 バケットや高速イテレーションが最も楽
タイポグラフィ重視や商品忠実度が目的なら、高解像度を前提にし、VRAMが急激に増えることを受け入れてください。
4. Z‑Image Base LoRA学習用データセットの作り方
Z‑Image Baseはデータセット形式そのものに「特殊さ」はありません。ただし、品質の評価方法には敏感です。つまり、Z‑Image LoRA学習のデータセットは、推論時に狙う挙動(CFG+多めのステップ)に合わせて設計するのが重要です。
4.1 目的を決める(データセットの形も決まる)
- キャラクター/似顔:15–50枚
顔アップ+半身、ライティングのバリエーションを混ぜる。
- スタイル:30–200枚
被写体のバリエーションを増やし、「ある1シーン」ではなく「スタイルの特徴」を学ばせる。
- 商品/コンセプト:20–80枚
フレーミングを揃え、特徴(素材、ラベル文字、形状)をキャプションで明確にする。
4.2 キャプション+トリガー(シンプルに)
- トリガーは、きれいにオン/オフしたい場合に有効です(キャラ/商品系のZ‑Image LoRA学習では推奨)。
- キャプションは短く一貫させましょう。長いキャプションは誤バインド(髪型/背景が「トリガーの一部」化)を招きます。
クイックテンプレート
- キャラクター:
[trigger]または
photo of [trigger], portrait, natural lighting - スタイル:
in a [style] illustration style, soft shading, muted palette - 商品:
product photo of [trigger], studio lighting, clean background
5. ステップバイステップ:AI ToolkitでZ‑Image LoRA学習
このセクションは、新しいZ‑Image LoRA学習ジョブを作る際に表示される AI ToolkitのUIパネルに合わせて書いています。
5.1 JOBパネル(Training Name, GPU ID, Trigger Word)
- Training Name:分かりやすい実行名(例:
zimage_base_character_v1) - GPU ID:ローカルは使用GPUを選択、クラウドはデフォルトでOK
- Trigger Word(任意だがキャラ/商品系のZ‑Image LoRA学習では推奨):
例:
zimgAlice
5.2 MODELパネル(Model Architecture, Name or Path, Options)
- Model Architecture:Z‑Image を選択
- Name or Path:ベースモデルのrepoを設定(一般的には):
Tongyi-MAI/Z-Image - Options
- Low VRAM:≤ 24GBならON
- Layer Offloading:基本はOFF。解像度/rankを下げてもOOMする場合のみON
5.3 QUANTIZATIONパネル(Transformer, Text Encoder)
- Transformer:
float8 (default)が強いデフォルト(大きいバケットに乗せやすい) - Text Encoder:VRAMに余裕が必要なら
float8 (default)
VRAMが十分なら量子化を弱めてもよいですが、Z‑Image LoRA学習のベースラインとしてfloat8はだいたい安全です。
5.4 TARGETパネル(Target Type, Linear Rank)
- Target Type:
LoRA - Linear Rank(Z‑Image LoRA学習の実用的デフォルト)
- 16:スタイルLoRA、低VRAM
- 32:キャラ/商品LoRA、より高い忠実度
- 48+:十分なVRAMがあり、アンダーフィットが明確な場合のみ
5.5 SAVEパネル(Data Type, Save Every, Max Step Saves to Keep)
- Data Type:
BF16 - Save Every:
250(比較用に十分なチェックポイントを残す) - Max Step Saves to Keep:
4(ディスク肥大化を防ぐ)
5.6 TRAININGパネル(Batch Size, Steps, Optimizer, LR, Timesteps)
Z‑Image LoRA学習の安定ベースライン
- Batch Size:
1 - Gradient Accumulation:
1(VRAMを増やさず実効バッチを大きくしたいなら上げる) - Steps:下の目安を参照
- Optimizer:
AdamW8Bit - Learning Rate:
0.0001(不安定なら0.00005に下げる) - Weight Decay:
0.0001 - Timestep Type:
Weighted - Timestep Bias:
Balanced - Loss Type:
Mean Squared Error - EMA:ほとんどのLoRA学習ではOFF
Steps:Z‑Image Base向けの目安
Z‑Image Baseは、蒸留されたTurbo系モデルよりも 長めの学習に耐えやすい傾向がありますが、プロンプト追従が崩れる前に止めることが重要です。
- キャラクター/似顔:3000–7000 steps(データセット規模で変動)
- スタイル:2000–6000 steps
- 商品/コンセプト:2500–6500 steps
まずはZ‑Image LoRA学習のスモークテストとして 1000–1500 steps だけ回してサンプルを確認し、その後フルランに進むのが安全です。
5.7 Text Encoder最適化+正則化(右側)
- Unload TE:キャプションを捨ててトリガーのみで動かしたい等の意図がない限りOFF
- Cache Text Embeddings:キャプションが固定で、caption dropoutを使わない場合のみ有効
Differential Output Preservation(DOP)
UIビルドにある場合:
- 「プロンプトしたときだけLoRAが効く」挙動が重要なら Differential Output Preservation を有効化
- DOPがONならText Embeddingsのキャッシュはしない(コンセプト的に衝突)
5.8 ADVANCEDパネル
- Do Differential Guidance:普段から使っていて調整ポイントが分かる場合以外はOFF
5.9 DATASETSパネル(Target Dataset, Caption Dropout, Cache Latents, Resolutions)
Z‑Image LoRA学習では、UIに表示されるデータセット設定を基本そのまま使ってOKです:
- Target Dataset:データセットを選択
- Default Caption:短いテンプレート(または画像ごとの
.txtを使うなら空でOK) - Caption Dropout Rate:
0.05(Text Embeddingsをキャッシュするなら0) - Cache Latents:高速化のためON
- Is Regularization:メインデータセットはOFF
- Flip X / Flip Y:基本OFF(ロゴ/文字は特に)
- Resolutions(Z‑Image Base LoRA学習で最重要のレバー)
- 低VRAM:512 + 768
- 24GB:768 + 1024(データが揃っているなら1024のみでもOK)
- 高VRAM:商品/文字忠実度を狙うなら 1280 / 1536 を追加
5.10 SAMPLEパネル(Base vs Turboが最重要ポイント)
Z‑Image BaseのZ‑Image LoRA学習で、最も設定ミスが多いのがここです。
Base向けの推奨サンプリング設定
- Sample Every:
250 - Sampler:
FlowMatch(スケジューラ系を合わせる) - Guidance Scale:
4(Baseの典型は3–5。好みで調整) - Sample Steps:30–50(まずは 30)
- Width / Height:メインバケットに合わせる(1024×1024が扱いやすい)
- 次をカバーする少数のプロンプトセットを用意:
- トリガー(使う場合)
- 構図の違い
- 身元/スタイル/商品形状を厳しく試す「難しい」プロンプト
ネガティブプロンプト(Baseは相性が良い)
プレビューでは短いネガティブプロンプトでアーティファクトを抑えられます。例:
low quality, blurry, deformed, bad anatomy, watermark, text artifacts
5.11 学習を開始してモニタリング
ジョブを開始したら、Z‑Image LoRA学習中は次を見てください:
- Samples(250 stepsごと)
- プロンプト追従(プロンプトがまだ尊重されているか)
- 過学習の兆候(同じ顔/質感が出続ける、背景が崩壊する)
LoRAが強く効きつつ、常時フィルター化しないチェックポイントを選びましょう。
6. VRAM別:おすすめのZ‑Image LoRA学習設定
Tier 1 — 12–16GB(VRAMが厳しい)
- Low VRAM:ON
- Quantization:Transformer+Text Encoderともにfloat8
- Linear Rank:16
- Resolutions:512 + 768
- Sample Steps:30(必要ならプレビュー解像度を768に)
- Steps:データセット規模に応じて2000–5000
Tier 2 — 24GB(ローカルで最も現実的)
- Low VRAM:ON(安定したらOFFも試す)
- Quantization:float8
- Linear Rank:32(キャラ/商品)、16–32(スタイル)
- Resolutions:768 + 1024(揃っているなら1024のみでもOK)
- Sample Steps:30–40
- Steps:目的に応じて3000–7000
Tier 3 — 48GB+(またはクラウドH100/H200)
- Low VRAM:OFF(任意)
- Quantization:任意(float8のままでも問題なし)
- Linear Rank:32–48
- Resolutions:1024 + 1280 + 1536(データが対応していれば)
- Sample Steps:プレビュー品質重視なら40–50
- Steps:目的別の範囲は同じ。イテレーションが速いだけ
7. Z‑Image Base学習でよくある問題と対処法
ここで扱うのは Z‑Image Base特有の問題です(AI Toolkit一般のエラーではありません)。
「Baseが薄い/ディテールが出ない」
原因の可能性: ステップ不足、または解像度不足。
対処
- Sample Stepsを 40–50 に増やす
- VRAMが許すなら1280/1536バケットを試す
- 推論ワークフローに「shift」パラメータがある場合、shiftを中間(例:4–6)にすると整合性が上がるという報告があります。これはsteps/CFGが正しい前提で、最後の微調整として使ってください。
「Baseでは効くがTurboでは効かない」
多くの場合、これは自然です:
- Turboは蒸留モデルで挙動が異なります(CFG/ネガティブ、LoRAの効き方など)。
対処
- Turboでのデプロイが必要なら、Base↔Turboの転移が1:1だと期待せず、Turbo前提のワークフローで学習を検討してください。
- 最良の結果のために、同じファミリーで学習・デプロイ(Base→Base)する。
「文字/ロゴが安定しない」
Z‑Image Baseはタイポグラフィも得意ですが、Z‑Image LoRA学習では解像度とサンプリングに敏感です。
対処
- 1024+ で学習(可能なら1280/1536も)
- 評価は 40–50 steps で
- 文字が重要ならFlip Xは避ける
- 重要な文字特徴はキャプションで一貫して書く(トリガー任せにしない)
8. 学習後にZ‑Image Base LoRAを使う
Run LoRA — Z‑Image Run LoRAページ を開きます。このベースモデル推論ページでは、RunComfyで学習したLoRAアセットを選ぶか、AI Toolkitで学習したLoRAファイルをインポートして、playgroundまたはAPIで推論できます。RunComfyは同じベースモデルと、学習設定に含まれるAI Toolkitパイプライン定義をそのまま使用するため、学習中に見た結果が推論でも再現されやすく、Z‑Image LoRA学習のサンプルとの整合性を保ちやすいのが特徴です。さらに、Deploymentsページ からLoRAを専用エンドポイントとしてデプロイできます。
その他のAI Toolkit LoRA学習ガイド
Ready to start training?

