Ostris AI Toolkitでの Z‑Image（Base）LoRA学習

Z‑Image（Base）は、Z‑Imageのフルチェックポイント（8ステップのTurboではありません）です。CFG＋ネガティブプロンプトと多めのサンプリングステップで高品質なtext‑to‑imageを狙える設計で、さらに、キャラクター/スタイル/商品/タイポグラフィ重視のコンセプトなど、きれいで完全に制御できるLoRAを作りたい場合の最適解でもあります。

この Z‑Image LoRA学習 ガイドを読み終えると、次のことができるようになります：

Ostris AI Toolkit（ローカルまたはクラウド）で Z‑Image LoRA学習 を実行する。
Z‑Image Base推論の挙動（ステップ＋CFG＋解像度）に合うデフォルト設定を選ぶ。
Z‑Image Base LoRA学習でよくある落とし穴（Turbo設定、「LoRAが効かない」、Base↔Turboのミスマッチ）を回避する。
推論UIですぐ使えるチェックポイントをエクスポートする。

この記事はAI Toolkit LoRA学習シリーズの一部です。Ostris AI Toolkitが初めての方は、このZ‑Image LoRA学習に入る前に AI Toolkit LoRA学習の概要 から始めてください：

https://www.runcomfy.com/ja/trainer/ai-toolkit/getting-started

1. Z‑Image概要：できること（Turboとの違い）
2. 環境の選択：ローカルAI Toolkit vs RunComfyのクラウドAI Toolkit
3. Z‑Image Base LoRA学習のハードウェア/VRAM要件
4. Z‑Image Base LoRA学習用データセットの作り方
5. ステップバイステップ：AI ToolkitでZ‑Image LoRA学習
6. VRAM別：おすすめのZ‑Image LoRA学習設定
7. Z‑Image Base学習でよくある問題と対処法
8. 学習後にZ‑Image Base LoRAを使う

1. Z‑Image概要：できること（Turboとの違い）

1.1 「Z‑Image Base」とは

「Z‑Image Base」は、Z‑Imageの非蒸留（non‑distilled）チェックポイントを指します。実運用では：

より多いサンプリングステップ（目安 ~30–50。8ではありません）を前提とします。
CFG と ネガティブプロンプト を効果的に使えます。
LoRAのファインチューニング（代替キーワード1回）で最大限の制御と品質を狙うなら、Z‑Image LoRA学習のターゲットとして最適です。

1.2 Base vs Turbo（学習で重要なポイント）

Z‑Image LoRA学習でありがちなミスは、BaseをTurboのように学習（または評価）してしまうことです。

Turbo設定（8ステップ、低/ゼロCFG）だと、Baseの出力が焼き足りないように見えて、「LoRAが効いていない」と誤認しがちです。
Base設定（30–50ステップ＋通常CFG）で評価するのが正解です。

目安：

Base用LoRAを学習したなら、評価も Base で Baseらしいサンプリング に合わせてください。

2. 環境の選択：ローカルAI Toolkit vs RunComfyのクラウドAI Toolkit

このZ‑Image LoRA学習は、AI Toolkitを次の2つの形で実行できます：

ローカルAI Toolkit（手元のGPU）
GitHubリポジトリからAI Toolkitをインストールし、Web UIを起動します。NVIDIA GPUがあり、CUDA/ドライバ管理に抵抗がなく、LoRAを何度も反復するための永続環境が欲しい場合に最適です。

https://github.com/ostris/ai-toolkit
RunComfyのクラウドAI Toolkit（H100 / H200）
大容量GPU上でAI Toolkitをブラウザで動かせます：

インストール不要（UIを開くだけ）
1280/1536など高解像度バケットに必要なVRAMを確保しやすい
データセット/設定/過去の学習が残る永続ワークスペース

どちらもZ‑Image LoRA学習の手順は同じで、違うのはGPUがどこにあるかだけです。

3. Z‑Image Base LoRA学習のハードウェア/VRAM要件

推論自体は比較的控えめなGPUでも可能ですが、Z‑Image LoRA学習は次の要素でVRAM要求が大きく変わります：

解像度バケット（768 / 1024 / 1536）
量子化（float8）
LoRA rank
学習中のサンプリング設定（プレビュー解像度＋プレビューSteps）

Z‑Image LoRA学習を現実的に考えると：

12–16GB VRAM：設定を詰めれば 512/768 で可能
24GB VRAM：1024 のLoRA学習が現実的
48GB+ VRAM：1280/1536 バケットや高速イテレーションが最も楽

タイポグラフィ重視や商品忠実度が目的なら、高解像度を前提にし、VRAMが急激に増えることを受け入れてください。

4. Z‑Image Base LoRA学習用データセットの作り方

Z‑Image Baseはデータセット形式そのものに「特殊さ」はありません。ただし、品質の評価方法には敏感です。つまり、Z‑Image LoRA学習のデータセットは、推論時に狙う挙動（CFG＋多めのステップ）に合わせて設計するのが重要です。

4.1 目的を決める（データセットの形も決まる）

キャラクター/似顔：15–50枚
顔アップ＋半身、ライティングのバリエーションを混ぜる。
スタイル：30–200枚
被写体のバリエーションを増やし、「ある1シーン」ではなく「スタイルの特徴」を学ばせる。
商品/コンセプト：20–80枚
フレーミングを揃え、特徴（素材、ラベル文字、形状）をキャプションで明確にする。

4.2 キャプション＋トリガー（シンプルに）

トリガーは、きれいにオン/オフしたい場合に有効です（キャラ/商品系のZ‑Image LoRA学習では推奨）。
キャプションは短く一貫させましょう。長いキャプションは誤バインド（髪型/背景が「トリガーの一部」化）を招きます。

クイックテンプレート

キャラクター：
[trigger]

または photo of [trigger], portrait, natural lighting
スタイル：
in a [style] illustration style, soft shading, muted palette
商品：
product photo of [trigger], studio lighting, clean background

5. ステップバイステップ：AI ToolkitでZ‑Image LoRA学習

このセクションは、新しいZ‑Image LoRA学習ジョブを作る際に表示される AI ToolkitのUIパネルに合わせて書いています。

5.1 JOBパネル（Training Name, GPU ID, Trigger Word）

Training Name：分かりやすい実行名（例：zimage_base_character_v1）
GPU ID：ローカルは使用GPUを選択、クラウドはデフォルトでOK
Trigger Word（任意だがキャラ/商品系のZ‑Image LoRA学習では推奨）：
例：zimgAlice

5.2 MODELパネル（Model Architecture, Name or Path, Options）

Model Architecture：Z‑Image を選択
Name or Path：ベースモデルのrepoを設定（一般的には）：
Tongyi-MAI/Z-Image
Options

Low VRAM：≤ 24GBならON
Layer Offloading：基本はOFF。解像度/rankを下げてもOOMする場合のみON

5.3 QUANTIZATIONパネル（Transformer, Text Encoder）

Transformer：float8 (default) が強いデフォルト（大きいバケットに乗せやすい）
Text Encoder：VRAMに余裕が必要なら float8 (default)

VRAMが十分なら量子化を弱めてもよいですが、Z‑Image LoRA学習のベースラインとしてfloat8はだいたい安全です。

5.4 TARGETパネル（Target Type, Linear Rank）

Target Type：LoRA
Linear Rank（Z‑Image LoRA学習の実用的デフォルト）

16：スタイルLoRA、低VRAM
32：キャラ/商品LoRA、より高い忠実度
48+：十分なVRAMがあり、アンダーフィットが明確な場合のみ

5.5 SAVEパネル（Data Type, Save Every, Max Step Saves to Keep）

Data Type：BF16
Save Every：250（比較用に十分なチェックポイントを残す）
Max Step Saves to Keep：4（ディスク肥大化を防ぐ）

5.6 TRAININGパネル（Batch Size, Steps, Optimizer, LR, Timesteps）

Z‑Image LoRA学習の安定ベースライン

Batch Size：1
Gradient Accumulation：1（VRAMを増やさず実効バッチを大きくしたいなら上げる）
Steps：下の目安を参照
Optimizer：AdamW8Bit
Learning Rate：0.0001（不安定なら 0.00005 に下げる）
Weight Decay：0.0001
Timestep Type：Weighted
Timestep Bias：Balanced
Loss Type：Mean Squared Error
EMA：ほとんどのLoRA学習ではOFF

Steps：Z‑Image Base向けの目安

Z‑Image Baseは、蒸留されたTurbo系モデルよりも 長めの学習に耐えやすい傾向がありますが、プロンプト追従が崩れる前に止めることが重要です。

キャラクター/似顔：3000–7000 steps（データセット規模で変動）
スタイル：2000–6000 steps
商品/コンセプト：2500–6500 steps

まずはZ‑Image LoRA学習のスモークテストとして 1000–1500 steps だけ回してサンプルを確認し、その後フルランに進むのが安全です。

5.7 Text Encoder最適化＋正則化（右側）

Unload TE：キャプションを捨ててトリガーのみで動かしたい等の意図がない限りOFF
Cache Text Embeddings：キャプションが固定で、caption dropoutを使わない場合のみ有効

Differential Output Preservation（DOP）

UIビルドにある場合：

「プロンプトしたときだけLoRAが効く」挙動が重要なら Differential Output Preservation を有効化
DOPがONならText Embeddingsのキャッシュはしない（コンセプト的に衝突）

5.8 ADVANCEDパネル

Do Differential Guidance：普段から使っていて調整ポイントが分かる場合以外はOFF

5.9 DATASETSパネル（Target Dataset, Caption Dropout, Cache Latents, Resolutions）

Z‑Image LoRA学習では、UIに表示されるデータセット設定を基本そのまま使ってOKです：

Target Dataset：データセットを選択
Default Caption：短いテンプレート（または画像ごとの.txtを使うなら空でOK）
Caption Dropout Rate：0.05（Text Embeddingsをキャッシュするなら 0）
Cache Latents：高速化のためON
Is Regularization：メインデータセットはOFF
Flip X / Flip Y：基本OFF（ロゴ/文字は特に）
Resolutions（Z‑Image Base LoRA学習で最重要のレバー）

低VRAM：512 + 768
24GB：768 + 1024（データが揃っているなら1024のみでもOK）
高VRAM：商品/文字忠実度を狙うなら 1280 / 1536 を追加

5.10 SAMPLEパネル（Base vs Turboが最重要ポイント）

Z‑Image BaseのZ‑Image LoRA学習で、最も設定ミスが多いのがここです。

Base向けの推奨サンプリング設定

Sample Every：250
Sampler：FlowMatch（スケジューラ系を合わせる）
Guidance Scale：4（Baseの典型は3–5。好みで調整）
Sample Steps：30–50（まずは 30）
Width / Height：メインバケットに合わせる（1024×1024が扱いやすい）
次をカバーする少数のプロンプトセットを用意：

トリガー（使う場合）
構図の違い
身元/スタイル/商品形状を厳しく試す「難しい」プロンプト

ネガティブプロンプト（Baseは相性が良い）

プレビューでは短いネガティブプロンプトでアーティファクトを抑えられます。例：

low quality, blurry, deformed, bad anatomy, watermark, text artifacts

5.11 学習を開始してモニタリング

ジョブを開始したら、Z‑Image LoRA学習中は次を見てください：

Samples（250 stepsごと）
プロンプト追従（プロンプトがまだ尊重されているか）
過学習の兆候（同じ顔/質感が出続ける、背景が崩壊する）

LoRAが強く効きつつ、常時フィルター化しないチェックポイントを選びましょう。

6. VRAM別：おすすめのZ‑Image LoRA学習設定

Tier 1 — 12–16GB（VRAMが厳しい）

Low VRAM：ON
Quantization：Transformer＋Text Encoderともにfloat8
Linear Rank：16
Resolutions：512 + 768
Sample Steps：30（必要ならプレビュー解像度を768に）
Steps：データセット規模に応じて2000–5000

Tier 2 — 24GB（ローカルで最も現実的）

Low VRAM：ON（安定したらOFFも試す）
Quantization：float8
Linear Rank：32（キャラ/商品）、16–32（スタイル）
Resolutions：768 + 1024（揃っているなら1024のみでもOK）
Sample Steps：30–40
Steps：目的に応じて3000–7000

Tier 3 — 48GB+（またはクラウドH100/H200）

Low VRAM：OFF（任意）
Quantization：任意（float8のままでも問題なし）
Linear Rank：32–48
Resolutions：1024 + 1280 + 1536（データが対応していれば）
Sample Steps：プレビュー品質重視なら40–50
Steps：目的別の範囲は同じ。イテレーションが速いだけ

7. Z‑Image Base学習でよくある問題と対処法

ここで扱うのは Z‑Image Base特有の問題です（AI Toolkit一般のエラーではありません）。

「Baseが薄い/ディテールが出ない」

原因の可能性： ステップ不足、または解像度不足。

対処

Sample Stepsを 40–50 に増やす
VRAMが許すなら1280/1536バケットを試す
推論ワークフローに「shift」パラメータがある場合、shiftを中間（例：4–6）にすると整合性が上がるという報告があります。これはsteps/CFGが正しい前提で、最後の微調整として使ってください。

「Baseでは効くがTurboでは効かない」

多くの場合、これは自然です：

Turboは蒸留モデルで挙動が異なります（CFG/ネガティブ、LoRAの効き方など）。

対処

Turboでのデプロイが必要なら、Base↔Turboの転移が1:1だと期待せず、Turbo前提のワークフローで学習を検討してください。
最良の結果のために、同じファミリーで学習・デプロイ（Base→Base）する。

「文字/ロゴが安定しない」

Z‑Image Baseはタイポグラフィも得意ですが、Z‑Image LoRA学習では解像度とサンプリングに敏感です。

対処

1024+ で学習（可能なら1280/1536も）
評価は 40–50 steps で
文字が重要ならFlip Xは避ける
重要な文字特徴はキャプションで一貫して書く（トリガー任せにしない）

8. 学習後にZ‑Image Base LoRAを使う

Run LoRA — Z‑Image Run LoRAページ を開きます。このベースモデル推論ページでは、RunComfyで学習したLoRAアセットを選ぶか、AI Toolkitで学習したLoRAファイルをインポートして、playgroundまたはAPIで推論できます。RunComfyは同じベースモデルと、学習設定に含まれるAI Toolkitパイプライン定義をそのまま使用するため、学習中に見た結果が推論でも再現されやすく、Z‑Image LoRA学習のサンプルとの整合性を保ちやすいのが特徴です。さらに、Deploymentsページ からLoRAを専用エンドポイントとしてデプロイできます。

OstrisAI-Toolkit

New Training Job

Job

Model

Quantization

Target

Save

Training

Advanced

Datasets

Dataset 1

Sample