AI Toolkit LoRA Training Guides

Ostris AI ToolkitでZ‑Image Base LoRAを学習する

Z‑Image Base向けに、データセット/ rank/LR/steps と sampling(Baseは30–50 steps+CFG)を調整して安定した結果を得るための手順をまとめたガイドです。

Train Diffusion Models with Ostris AI Toolkit

横にスクロールしてフォーム全体を表示

Ostris AI ToolkitOstrisAI-Toolkit

New Training Job

Job

Model

Use a Hugging Face repo ID (e.g. owner/model-name).
⚠️ full URLs, .safetensors files, and local files are not supported.

Quantization

Target

Save

Training

Datasets

Dataset 1

Sample

Ostris AI Toolkitでの Z‑Image(Base)LoRA学習

Z‑Image(Base)は、Z‑Imageのフルチェックポイント(8ステップのTurboではありません)です。CFG+ネガティブプロンプト多めのサンプリングステップ高品質なtext‑to‑imageを狙える設計で、さらに、キャラクター/スタイル/商品/タイポグラフィ重視のコンセプトなど、きれいで完全に制御できるLoRAを作りたい場合の最適解でもあります。

この Z‑Image LoRA学習 ガイドを読み終えると、次のことができるようになります:

  • Ostris AI Toolkit(ローカルまたはクラウド)で Z‑Image LoRA学習 を実行する。
  • Z‑Image Base推論の挙動(ステップ+CFG+解像度)に合うデフォルト設定を選ぶ。
  • Z‑Image Base LoRA学習でよくある落とし穴(Turbo設定、 「LoRAが効かない」、Base↔Turboのミスマッチ)を回避する。
  • 推論UIですぐ使えるチェックポイントをエクスポートする。
この記事はAI Toolkit LoRA学習シリーズの一部です。Ostris AI Toolkitが初めての方は、このZ‑Image LoRA学習に入る前に AI Toolkit LoRA学習の概要 から始めてください:
https://www.runcomfy.com/ja/trainer/ai-toolkit/getting-started

目次


1. Z‑Image概要:できること(Turboとの違い)

1.1 「Z‑Image Base」とは

「Z‑Image Base」は、Z‑Imageの非蒸留(non‑distilled)チェックポイントを指します。実運用では:

  • より多いサンプリングステップ(目安 ~30–50。8ではありません)を前提とします。
  • CFGネガティブプロンプト を効果的に使えます。
  • LoRAのファインチューニング(代替キーワード1回)で最大限の制御と品質を狙うなら、Z‑Image LoRA学習のターゲットとして最適です。

1.2 Base vs Turbo(学習で重要なポイント)

Z‑Image LoRA学習でありがちなミスは、BaseをTurboのように学習(または評価)してしまうことです。

  • Turbo設定(8ステップ、低/ゼロCFG)だと、Baseの出力が焼き足りないように見えて、「LoRAが効いていない」と誤認しがちです。
  • Base設定(30–50ステップ+通常CFG)で評価するのが正解です。

目安:

Base用LoRAを学習したなら、評価も BaseBaseらしいサンプリング に合わせてください。


2. 環境の選択:ローカルAI Toolkit vs RunComfyのクラウドAI Toolkit

このZ‑Image LoRA学習は、AI Toolkitを次の2つの形で実行できます:

  • ローカルAI Toolkit(手元のGPU)

    GitHubリポジトリからAI Toolkitをインストールし、Web UIを起動します。NVIDIA GPUがあり、CUDA/ドライバ管理に抵抗がなく、LoRAを何度も反復するための永続環境が欲しい場合に最適です。

    https://github.com/ostris/ai-toolkit

  • RunComfyのクラウドAI Toolkit(H100 / H200)

    大容量GPU上でAI Toolkitをブラウザで動かせます:

    • インストール不要(UIを開くだけ)
    • 1280/1536など高解像度バケットに必要なVRAMを確保しやすい
    • データセット/設定/過去の学習が残る永続ワークスペース

どちらもZ‑Image LoRA学習の手順は同じで、違うのはGPUがどこにあるかだけです。


3. Z‑Image Base LoRA学習のハードウェア/VRAM要件

推論自体は比較的控えめなGPUでも可能ですが、Z‑Image LoRA学習は次の要素でVRAM要求が大きく変わります:

  • 解像度バケット(768 / 1024 / 1536)
  • 量子化(float8)
  • LoRA rank
  • 学習中のサンプリング設定(プレビュー解像度+プレビューSteps)

Z‑Image LoRA学習を現実的に考えると:

  • 12–16GB VRAM:設定を詰めれば 512/768 で可能
  • 24GB VRAM1024 のLoRA学習が現実的
  • 48GB+ VRAM1280/1536 バケットや高速イテレーションが最も楽
タイポグラフィ重視や商品忠実度が目的なら、高解像度を前提にし、VRAMが急激に増えることを受け入れてください。

4. Z‑Image Base LoRA学習用データセットの作り方

Z‑Image Baseはデータセット形式そのものに「特殊さ」はありません。ただし、品質の評価方法には敏感です。つまり、Z‑Image LoRA学習のデータセットは、推論時に狙う挙動(CFG+多めのステップ)に合わせて設計するのが重要です。

4.1 目的を決める(データセットの形も決まる)

  • キャラクター/似顔:15–50枚

    顔アップ+半身、ライティングのバリエーションを混ぜる。

  • スタイル:30–200枚

    被写体のバリエーションを増やし、「ある1シーン」ではなく「スタイルの特徴」を学ばせる。

  • 商品/コンセプト:20–80枚

    フレーミングを揃え、特徴(素材、ラベル文字、形状)をキャプションで明確にする。

4.2 キャプション+トリガー(シンプルに)

  • トリガーは、きれいにオン/オフしたい場合に有効です(キャラ/商品系のZ‑Image LoRA学習では推奨)。
  • キャプションは短く一貫させましょう。長いキャプションは誤バインド(髪型/背景が「トリガーの一部」化)を招きます。

クイックテンプレート

  • キャラクター:

    [trigger]

    または photo of [trigger], portrait, natural lighting

  • スタイル:

    in a [style] illustration style, soft shading, muted palette

  • 商品:

    product photo of [trigger], studio lighting, clean background


5. ステップバイステップ:AI ToolkitでZ‑Image LoRA学習

このセクションは、新しいZ‑Image LoRA学習ジョブを作る際に表示される AI ToolkitのUIパネルに合わせて書いています。

5.1 JOBパネル(Training Name, GPU ID, Trigger Word)

  • Training Name:分かりやすい実行名(例:zimage_base_character_v1
  • GPU ID:ローカルは使用GPUを選択、クラウドはデフォルトでOK
  • Trigger Word(任意だがキャラ/商品系のZ‑Image LoRA学習では推奨):

    例:zimgAlice

5.2 MODELパネル(Model Architecture, Name or Path, Options)

  • Model ArchitectureZ‑Image を選択
  • Name or Path:ベースモデルのrepoを設定(一般的には):

    Tongyi-MAI/Z-Image

  • Options
    • Low VRAM≤ 24GBならON
    • Layer Offloading:基本はOFF。解像度/rankを下げてもOOMする場合のみON

5.3 QUANTIZATIONパネル(Transformer, Text Encoder)

  • Transformerfloat8 (default) が強いデフォルト(大きいバケットに乗せやすい)
  • Text Encoder:VRAMに余裕が必要なら float8 (default)

VRAMが十分なら量子化を弱めてもよいですが、Z‑Image LoRA学習のベースラインとしてfloat8はだいたい安全です。

5.4 TARGETパネル(Target Type, Linear Rank)

  • Target TypeLoRA
  • Linear Rank(Z‑Image LoRA学習の実用的デフォルト)
    • 16:スタイルLoRA、低VRAM
    • 32:キャラ/商品LoRA、より高い忠実度
    • 48+:十分なVRAMがあり、アンダーフィットが明確な場合のみ

5.5 SAVEパネル(Data Type, Save Every, Max Step Saves to Keep)

  • Data TypeBF16
  • Save Every250(比較用に十分なチェックポイントを残す)
  • Max Step Saves to Keep4(ディスク肥大化を防ぐ)

5.6 TRAININGパネル(Batch Size, Steps, Optimizer, LR, Timesteps)

Z‑Image LoRA学習の安定ベースライン

  • Batch Size1
  • Gradient Accumulation1(VRAMを増やさず実効バッチを大きくしたいなら上げる)
  • Steps:下の目安を参照
  • OptimizerAdamW8Bit
  • Learning Rate0.0001(不安定なら 0.00005 に下げる)
  • Weight Decay0.0001
  • Timestep TypeWeighted
  • Timestep BiasBalanced
  • Loss TypeMean Squared Error
  • EMA:ほとんどのLoRA学習ではOFF

Steps:Z‑Image Base向けの目安

Z‑Image Baseは、蒸留されたTurbo系モデルよりも 長めの学習に耐えやすい傾向がありますが、プロンプト追従が崩れる前に止めることが重要です。

  • キャラクター/似顔3000–7000 steps(データセット規模で変動)
  • スタイル2000–6000 steps
  • 商品/コンセプト2500–6500 steps

まずはZ‑Image LoRA学習のスモークテストとして 1000–1500 steps だけ回してサンプルを確認し、その後フルランに進むのが安全です。

5.7 Text Encoder最適化+正則化(右側)

  • Unload TE:キャプションを捨ててトリガーのみで動かしたい等の意図がない限りOFF
  • Cache Text Embeddings:キャプションが固定で、caption dropoutを使わない場合のみ有効

Differential Output Preservation(DOP)

UIビルドにある場合:

  • 「プロンプトしたときだけLoRAが効く」挙動が重要なら Differential Output Preservation を有効化
  • DOPがONならText Embeddingsのキャッシュはしない(コンセプト的に衝突)

5.8 ADVANCEDパネル

  • Do Differential Guidance:普段から使っていて調整ポイントが分かる場合以外はOFF

5.9 DATASETSパネル(Target Dataset, Caption Dropout, Cache Latents, Resolutions)

Z‑Image LoRA学習では、UIに表示されるデータセット設定を基本そのまま使ってOKです:

  • Target Dataset:データセットを選択
  • Default Caption:短いテンプレート(または画像ごとの.txtを使うなら空でOK)
  • Caption Dropout Rate0.05(Text Embeddingsをキャッシュするなら 0
  • Cache Latents:高速化のためON
  • Is Regularization:メインデータセットはOFF
  • Flip X / Flip Y:基本OFF(ロゴ/文字は特に)
  • Resolutions(Z‑Image Base LoRA学習で最重要のレバー)
    • 低VRAM:512 + 768
    • 24GB:768 + 1024(データが揃っているなら1024のみでもOK)
    • 高VRAM:商品/文字忠実度を狙うなら 1280 / 1536 を追加

5.10 SAMPLEパネル(Base vs Turboが最重要ポイント)

Z‑Image BaseのZ‑Image LoRA学習で、最も設定ミスが多いのがここです。

Base向けの推奨サンプリング設定

  • Sample Every250
  • SamplerFlowMatch(スケジューラ系を合わせる)
  • Guidance Scale4(Baseの典型は3–5。好みで調整)
  • Sample Steps30–50(まずは 30
  • Width / Height:メインバケットに合わせる(1024×1024が扱いやすい)
  • 次をカバーする少数のプロンプトセットを用意:
    • トリガー(使う場合)
    • 構図の違い
    • 身元/スタイル/商品形状を厳しく試す「難しい」プロンプト

ネガティブプロンプト(Baseは相性が良い)

プレビューでは短いネガティブプロンプトでアーティファクトを抑えられます。例:

low quality, blurry, deformed, bad anatomy, watermark, text artifacts

5.11 学習を開始してモニタリング

ジョブを開始したら、Z‑Image LoRA学習中は次を見てください:

  • Samples(250 stepsごと)
  • プロンプト追従(プロンプトがまだ尊重されているか)
  • 過学習の兆候(同じ顔/質感が出続ける、背景が崩壊する)

LoRAが強く効きつつ、常時フィルター化しないチェックポイントを選びましょう。


6. VRAM別:おすすめのZ‑Image LoRA学習設定

Tier 1 — 12–16GB(VRAMが厳しい)

  • Low VRAM:ON
  • Quantization:Transformer+Text Encoderともにfloat8
  • Linear Rank:16
  • Resolutions:512 + 768
  • Sample Steps:30(必要ならプレビュー解像度を768に)
  • Steps:データセット規模に応じて2000–5000

Tier 2 — 24GB(ローカルで最も現実的)

  • Low VRAM:ON(安定したらOFFも試す)
  • Quantization:float8
  • Linear Rank:32(キャラ/商品)、16–32(スタイル)
  • Resolutions:768 + 1024(揃っているなら1024のみでもOK)
  • Sample Steps:30–40
  • Steps:目的に応じて3000–7000

Tier 3 — 48GB+(またはクラウドH100/H200)

  • Low VRAM:OFF(任意)
  • Quantization:任意(float8のままでも問題なし)
  • Linear Rank:32–48
  • Resolutions:1024 + 1280 + 1536(データが対応していれば)
  • Sample Steps:プレビュー品質重視なら40–50
  • Steps:目的別の範囲は同じ。イテレーションが速いだけ

7. Z‑Image Base学習でよくある問題と対処法

ここで扱うのは Z‑Image Base特有の問題です(AI Toolkit一般のエラーではありません)。

「Baseが薄い/ディテールが出ない」

原因の可能性: ステップ不足、または解像度不足。

対処

  • Sample Stepsを 40–50 に増やす
  • VRAMが許すなら1280/1536バケットを試す
  • 推論ワークフローに「shift」パラメータがある場合、shiftを中間(例:4–6)にすると整合性が上がるという報告があります。これはsteps/CFGが正しい前提で、最後の微調整として使ってください。

「Baseでは効くがTurboでは効かない」

多くの場合、これは自然です:

  • Turboは蒸留モデルで挙動が異なります(CFG/ネガティブ、LoRAの効き方など)。

対処

  • Turboでのデプロイが必要なら、Base↔Turboの転移が1:1だと期待せず、Turbo前提のワークフローで学習を検討してください。
  • 最良の結果のために、同じファミリーで学習・デプロイ(Base→Base)する。

「文字/ロゴが安定しない」

Z‑Image Baseはタイポグラフィも得意ですが、Z‑Image LoRA学習では解像度とサンプリングに敏感です。

対処

  • 1024+ で学習(可能なら1280/1536も)
  • 評価は 40–50 steps で
  • 文字が重要ならFlip Xは避ける
  • 重要な文字特徴はキャプションで一貫して書く(トリガー任せにしない)

8. 学習後にZ‑Image Base LoRAを使う

Run LoRAZ‑Image Run LoRAページ を開きます。このベースモデル推論ページでは、RunComfyで学習したLoRAアセットを選ぶか、AI Toolkitで学習したLoRAファイルをインポートして、playgroundまたはAPIで推論できます。RunComfyは同じベースモデルと、学習設定に含まれるAI Toolkitパイプライン定義をそのまま使用するため、学習中に見た結果が推論でも再現されやすく、Z‑Image LoRA学習のサンプルとの整合性を保ちやすいのが特徴です。さらに、Deploymentsページ からLoRAを専用エンドポイントとしてデプロイできます。


その他のAI Toolkit LoRA学習ガイド

Ready to start training?