Qwen-Image-2512 LoRA学習ガイド：Ostris AI Toolkit

Qwen‑Image‑2512（通称 Qwen 2512）は大規模なテキストから画像へのベースモデルであり、小さなアダプターを使ってファインチューニングすることで、キャラクター（ライクネス）、スタイル、または製品・コンセプトを確実に学習させることができます。このガイドでは、Ostris AI Toolkitを使用した実践的なQwen-Image-2512 LoRA学習の方法を、安定したデフォルト設定と一般的なトラブルシューティングとともに解説します。

このQwen-Image-2512 LoRA学習ガイドを読み終えると、以下ができるようになります：

Qwen-Image-2512でキャラクター vs スタイル vs 製品LoRAに適したデフォルト設定を選択できる
VRAM要件を計画し、ARAを使用するタイミングを判断できる
一般的な失敗モード（過学習/ブリード）を避けるデータセット、キャプション、トリガーを構築できる
短いスモークテストを実行し、自信を持ってステップと設定を確定できる

この記事はAI Toolkit LoRAトレーニングシリーズの一部です。Ostris AI Toolkitを初めて使う場合は、このQwen 2512 LoRA学習ガイドに進む前にAI Toolkit LoRAトレーニング概要から始めてください。

1. Qwen‑Image‑2512概要：このテキストから画像モデルでできること
2. 環境オプション：AI ToolkitトレーニングUIでの作業
3. Qwen-Image-2512 LoRAトレーニングのハードウェアとVRAM要件
4. Qwen-Image-2512 LoRA学習用データセットの構築
5. ステップバイステップ：AI ToolkitでQwen-Image-2512 LoRA学習
6. VRAMティア別の推奨Qwen-Image-2512 LoRA 作成設定
7. 一般的なQwen-Image-2512 LoRA学習の問題と解決方法
8. トレーニング後のQwen‑Image‑2512 LoRAの使用方法

1. Qwen‑Image‑2512概要：このテキストから画像モデルでできること

Qwen-Image-2512 LoRA学習とは（「良い」とは何を意味するか）

Qwen-Image-2512 LoRA学習では、ベースモデルを置き換えるのではなく、特定のアイデンティティ、スタイル、または製品コンセプトに向けて微調整する小さなアダプターを追加します。

強力なLoRAには3つの特性があります：

強度：アクティブ時に出力を明確に変更する
制御：必要な時だけアクティブになる
汎化：トレーニング画像だけでなく、新しいプロンプトでも機能する

目標を選択：キャラクター vs スタイル vs 製品/コンセプト

目標によって、データセット設計とトレーニング設定の最適なデフォルトが決まります。AI-Toolkitで Qwen-Image-2512 LoRAトレーニングを行う際の参考にしてください。

キャラクター / ライクネス

最適：特定の人物、キャラクター、有名人の類似性、一貫した顔/アイデンティティ
主なリスク：アイデンティティブリード（他の人に影響）、過度に処理された顔、急速な過学習
必要：より厳密なタイムステップ戦略、慎重なステップ、通常トリガー、多くの場合DOP

スタイル

最適：ルック/グレード、イラストスタイル、ライティングスタイル、テクスチャ言語
主なリスク：「何でもフィルター」になる、プロンプト忠実度の低下
必要：より多くの多様性、通常キャラクターより少ない繰り返し/画像、トリガーはオプション

製品 / コンセプト

最適：特定の製品（靴、ボトル）、ロゴ入りパッケージ、新しいオブジェクトコンセプト
主なリスク：形状ドリフト、一貫性のない素材、不安定なジオメトリ
必要：一貫したフレーミング + クリーンなキャプション；トリガーは通常推奨

不確かな場合は、スモークテスト（短い実行）としてQwen-Image-2512 LoRA学習を開始し、データセットがどれだけ早く「刷り込まれる」かを確認してから最終ステップを確定してください。

2. 環境オプション：ローカルAI Toolkit vs RunComfyのクラウドAI Toolkit

Qwen-Image-2512 LoRAトレーニングには、他のAI Toolkit LoRAワークフローと同じ2つの環境を使用できます：

自分のGPUでのローカルAI Toolkit
大型GPU（H100 / H200）を備えたRunComfyのクラウドAI Toolkit

トレーニングUI、パラメータ、ワークフローは両方のケースで同一です。唯一の違いはGPUがどこにあるかと利用可能なVRAMの量です。

2.1 ローカルAI Toolkit（自分のGPU）

AI Toolkit GitHubリポジトリからAI Toolkitをインストールし、Web UIを実行します。ローカルトレーニングは以下の場合に良い選択です：

すでにNVIDIA GPUを持っている（通常、快適な1024トレーニングには24GB VRAM以上）
CUDA、ドライバー、ディスクスペース、長時間実行ジョブの管理に慣れている

2.2 RunComfyのクラウドAI Toolkit（H100 / H200）

RunComfyのクラウドAI Toolkitでは、Qwen-Image-2512 LoRA学習がブラウザで完全に実行されます：

ローカルに何もインストールしない
ブラウザを開き、ログインすると、直接AI Toolkitトレーニングインターフェースに到着
ジョブ開始時にH100（80GB）やH200（141GB）などの大型GPUを選択可能
データセット、設定、チェックポイントが保存され、セッション間で再利用できる永続ワークスペースを取得

この環境は特にQwen 2512 LoRA学習で以下の場合に便利です：

積極的なメモリトリックなしで1024×1024での高速イテレーションが必要
より大きなLoRAランク、より多くのバケット、またはより大きなバッチサイズで実験したい
CUDAやドライバーの問題のデバッグに時間をかけたくない

👉 こちらから開く：RunComfyのクラウドAI Toolkit

3. Qwen-Image-2512 LoRA学習のハードウェアとVRAM要件

3.1 ハードウェア計画：VRAMティアとARAが重要になるタイミング

Qwen 2512は大きいです。実践的なQwen-Image-2512 LoRAトレーニングにはティアで考えてください：

24GB VRAM（一般的）：実行可能だが、1024トレーニングには通常低ビット量子化 + ARAが必要
40–48GB VRAM：より少ない妥協で快適な1024トレーニング
80GB+ VRAM：最もシンプルなセットアップ、最速のイテレーション、メモリ最適化の必要性が低い

24GB未満の場合：低解像度（例：768）で積極的なメモリ戦術を使ってトレーニングできることもありますが、より遅い実行とより不安定な安定性を予期してください。

3.2 ARAの説明：それが何か、いつ使用するか、トレーニングへの影響

ARAとは

ARA（Accuracy Recovery Adapter）は、非常に低ビットの量子化（一般的に3ビットまたは4ビット）で使用される回復メカニズムです。ベースモデルはVRAMを節約するために量子化された状態で実行され、ARAは量子化によって失われた精度を回復するのに役立ちます。

Qwen 2512でARAを使用するタイミング

以下のいずれかが必要な場合はARAを使用してください：

24GBで1024×1024のQwen 2512をトレーニング
OOM問題の軽減
重いCPUオフロードなしの安定した収束

ARAがトレーニングに与える影響（トレードオフ）

長所

コンシューマGPUで1024トレーニングを実現可能に
「単純な低ビット」量子化と比較して安定性が向上することが多い

短所

追加の可動部品を追加（ツール/バージョンの互換性が重要）
量子化が失敗した場合、量子化モードを調整するか環境を更新する必要があるかもしれない

Qwen-Image-2512 LoRA学習の実践的ガイダンス

24GBで3ビットARAから開始
量子化エラーが発生した場合、4ビットARAを試す
問題が続く場合、一時的により高精度の量子化モードを使用してパイプラインの残りを検証し、その後ARAに戻る

4. Qwen-Image-2512 LoRA学習用データセットの構築

4.1 データセット設計：各目標で収集するもの

Qwen-Image-2512 LoRAトレーニングの失敗のほとんどは、偽装されたデータセットの失敗です。

普遍的なルール

すべてをRGBに変換（グレースケール/CMYKを避ける）
壊れた/破損した画像を削除
意図的にその撮影を支配させたい場合を除き、ほぼ重複を避ける
可能な限り解像度を一貫させる（または小さなバケットセットを使用）

キャラクターデータセット（15–50画像）

目標：

30–60% クローズアップ / 頭と肩
30–50% ミディアムショット
10–20% 全身（オプションだが衣服/ポーズの汎化に役立つ）

「アイデンティティ」が一貫したシグナルになるよう、照明と背景を十分に多様化してください。

スタイルデータセット（30–200画像）

目標：

幅広い被写体の多様性（人、オブジェクト、環境）
多様な構図と色の状況
一貫したスタイルの手がかり（筆、シェーディング、パレット、フィルムグレインなど）

Qwen-Image-2512 LoRA学習でのスタイルLoRAは、スタイルが唯一の一貫した要素である場合によりよく汎化します。

製品 / コンセプトデータセット（20–80画像）

目標：

一貫した角度とフレーミング（正面/側面/45度）
フレーム内の一貫した製品スケール（極端なズーム差を避ける）
素材が重要な場合は複数の照明条件（マット vs 光沢）
クリーンな背景が最初は役立つ（後で複雑なシーンを追加できる）

4.2 キャプションとトリガー：キャラクター / スタイル / 製品用テンプレート

Qwen 2512はトリガーのみまたは短い一貫したキャプションでトレーニングできます。

4.2.1 キャプションの重要なルール

多くのトレーニング画像に特徴が現れているが、キャプションで言及しない場合、モデルはトリガーが暗黙的にその特徴を意味すると学習する可能性があります—そのため、トリガーを使用するたびにそれを再現しようとします。

これが、LoRAがアクティブになるたびに髪型、服装、背景色、またはカメラスタイルを「強制」する一般的な理由です。

4.2.2 キャラクターキャプションテンプレート

推奨：トリガーを使用。キャプションは短く保つ。

トリガーのみ：
[trigger]
短いキャプション：
portrait photo of [trigger], studio lighting, sharp focus

photo of [trigger], natural skin texture, realistic

顔のパーツ（目、鼻など）の過度な説明は避けてください。モデルに画像からアイデンティティを学習させましょう。

4.2.3 スタイルキャプションテンプレート

トリガーはオプションです。使用すると、オン/オフスイッチが得られます。

トリガーなし、短いキャプション：
in a watercolor illustration style, soft edges, pastel palette
トリガー + 短いキャプション：
[trigger], watercolor illustration, pastel palette, soft edges

スタイルの場合、キャプションはシーンの内容ではなくスタイル属性を説明する必要があります。

4.2.4 製品/コンセプトキャプションテンプレート

制御のためにトリガーを強く推奨します。

シンプル：
product photo of [trigger], clean background, studio lighting
製品に定義的な特徴がある場合：
product photo of [trigger], transparent bottle, blue label, studio lighting

長いキャプションは避けてください。製品の場合、一貫した表現がジオメトリの安定性を向上させます。

5. ステップバイステップ：AI ToolkitでQwen-Image-2512 LoRA学習

このセクションはAI Toolkitトレーニングインターフェースと同じ流れに従います。まずデータセットを作成し、次にパネルごとに新しいジョブを設定します。

5.1 ステップ0 – 目標を選択（キャラクター vs スタイル vs 製品）

設定に触れる前に、何をトレーニングするかを決定します。これにより、キャプション、ステップ、正則化の最適なデフォルトが決まります。

キャラクター / ライクネス：最も強いアイデンティティの一貫性（顔/外見）。ブリードと急速な過学習のリスクが最も高い。
スタイル：一貫した視覚的ルック（パレット/テクスチャ/照明）。「何でもフィルター」になるリスクが最も高い。
製品 / コンセプト：安定したオブジェクトアイデンティティとジオメトリ。形状/素材ドリフトのリスクが最も高い。

不確かな場合は、まず短いスモークテストを実行し（以下のTRAINING + SAMPLEを参照）、データセットがどれだけ早く「刷り込まれる」かを確認してからステップを確定してください。

5.2 ステップ1 – AI Toolkitでデータセットを作成

AI ToolkitインターフェースでDatasets タブを開きます。

少なくとも1つのデータセットを作成します（例：）：

my_dataset_2512

このデータセットに画像をアップロードします。

データセット品質ルール（すべての目標）

すべてをRGBに変換（グレースケール/CMYKを避ける）。
壊れた/破損したファイルを削除。
意図的にそのルック/ポーズを支配させたい場合を除き、ほぼ重複を避ける。

推奨データセットサイズ

キャラクター：15–50画像
スタイル：30–200画像（より多くの多様性が役立つ）
製品：20–80画像（一貫したフレーミングが役立つ）

5.3 ステップ2 – 新しいジョブを作成

New Jobタブを開きます。表示される順序で各パネルを設定します。

5.3.1 JOBパネル – Training Name, GPU ID, Trigger Word

Training Name
後で認識できるわかりやすい名前を選んでください（例：qwen_2512_character_v1、qwen_2512_style_v1、qwen_2512_product_v1）。
GPU ID – ローカルインストールでは、マシン上のGPUを選択します。RunComfyのクラウドAI Toolkitでは、GPU IDをデフォルトのままにしてください。実際のマシンタイプ（H100 / H200）は、Training Queueからジョブを開始するときに後で選択します。
Trigger Word
目標に応じた推奨使用法：

キャラクター：強く推奨（クリーンなオン/オフ制御を提供し、ブリードを防ぐのに役立つ）。
スタイル：オプション（常時オンではなく「呼び出し可能なスタイル」が必要な場合に使用）。
製品：強く推奨（学習したコンセプトを制御可能に保つのに役立つ）。

トリガーを使用する場合、キャプションに[trigger]のようなプレースホルダーを含め、一貫したテンプレートに従うことができます（以下参照）。

5.3.2 MODELパネル – Model Architecture, Name or Path, Options

Model Architecture
Qwen-Image-2512を選択します。
Name or Path
Qwen/Qwen-Image-2512を使用します。ほとんどのAI Toolkitビルドでは、Qwen‑Image‑2512を選択するとこの値が自動入力されます。

上書きする場合は、Hugging Faceリポジトリ ID形式を使用：org-or-user/model-name（オプションでorg-or-user/model-name@revision）。
Options

Low VRAM：Qwen-Image-2512 LoRA 作成時に24GB GPUではオンにします。
Layer Offloading：量子化、低ランク、少ないバケットを使用してもまだOOMが発生する場合の最後の手段として扱います。

オフロード順序（ベストプラクティス）：

1) ARA + Low VRAM

2) ランクを下げる

3) 解像度バケットを減らす

4) サンプリング頻度/解像度を減らす

5) その後Layer Offloadingを有効化

5.3.3 QUANTIZATIONパネル – Transformer, Text Encoder

ここで24GBでのほとんどのQwen-Image-2512 LoRA学習の成否が決まります。

24GBベースライン（1024トレーニングに推奨）

Transformerを量子化し、ARAを使用（まず3ビット、必要なら4ビット）。
追加のVRAMマージンが必要な場合は、Text Encoderをfloat8に量子化。

大容量VRAM GPU
トレーニングが安定していて十分に速い場合、シンプルさのために量子化を減らすか無効にできます。

量子化が失敗した場合（dtype/quantizeエラー）、まずツール互換性の問題として扱ってください：

3ビット ↔ 4ビットARAを切り替える、
AI Toolkit/依存関係を更新、
または一時的に高精度モードを使用してジョブセットアップの残りを検証し、その後ARAに戻る。

5.3.4 TARGETパネル – Target Type, Linear Rank

Target Type：LoRAを選択。
Linear Rank
目標別の推奨開始点：

キャラクター：32
スタイル：16–32
製品：32

一般的なルール：

OOMの場合 → 他のすべてに触れる前にランクを下げる。
アンダーフィットの場合 → まずtimesteps/steps/LRを調整し、その後ランクの増加を検討。
オーバーフィットの場合 → 繰り返し/ステップを減らし、ランクを下げ、多様性を追加し、DOPを検討。

5.3.5 SAVEパネル – Data Type, Save Every, Max Step Saves to Keep

Data Type：BF16（安定したデフォルト）。
Save Every：250（良いチェックポイント間隔）。
Max Step Saves to Keep：4（ディスク使用量を抑える）。

5.3.6 TRAININGパネル – コアハイパーパラメータ

これらはほとんどの実行が開始するデフォルトです：

Batch Size：1
Gradient Accumulation：1
Optimizer：AdamW8Bit
Learning Rate：0.0001
Weight Decay：0.0001
Timestep Type：Weighted
Timestep Bias：Balanced
Loss Type：Mean Squared Error
Use EMA：OFF（Qwen 2512 LoRAの場合）

目標別Timestep Typeガイダンス

キャラクター：Weightedは安全なベースライン；ライクネスが固定されない場合や一貫性がない場合は、よりアイデンティティに優しいtimestep設定を試す（多くの場合キャラクターの刷り込みが改善される）。
スタイル：Weightedは通常問題なし；ステップを増やす前に多様性を増やす。
製品：Weightedは安定したベースライン；ジオメトリがドリフトする場合、まず繰り返しを減らすかキャプション/トリガーを厳しくする。

ステップ：キャラクター vs スタイル vs 製品の推奨値

ステップは単一のマジックナンバーであるべきではありません。より信頼できる方法は画像あたりの繰り返しです：

繰り返し ≈ (steps × batch_size × grad_accum) ÷ num_images
batch_size=1、grad_accum=1の場合：steps ≈ 繰り返し × num_images

gradient accumulationを2または4に増やす場合、ステップを比例して減らしてください。

キャラクター（ライクネス）画像あたりの繰り返し

スモークテスト：30–50
典型的なスイートスポット：50–90
高ライクネスプッシュ：90–120（ブリードに注意）

例（batch=1、accum=1）：

画像	30–50繰り返し	50–90繰り返し	90–120繰り返し
15	450–750	750–1350	1350–1800
25	750–1250	1250–2250	2250–3000
40	1200–2000	2000–3600	3600–4800

スタイル画像あたりの繰り返し

スモークテスト：15–30
典型的なスイートスポット：25–60
上限：60–80（大きく多様なデータセットでのみ使用）

例（batch=1、accum=1）：

画像	15–30繰り返し	25–60繰り返し	60–80繰り返し
30	450–900	750–1800	1800–2400
100	1500–3000	2500–6000	6000–8000

製品 / コンセプト画像あたりの繰り返し

スモークテスト：20–40
典型的なスイートスポット：30–70
高忠実度プッシュ：70–90（形状/素材がまだアンダーフィットの場合のみ）

例（batch=1、accum=1）：

画像	20–40繰り返し	30–70繰り返し	70–90繰り返し
20	400–800	600–1400	1400–1800
50	1000–2000	1500–3500	3500–4500
80	1600–3200	2400–5600	5600–7200

Text Encoder最適化（TRAININGの右側）

Unload TE
VRAM使用量を最小化し、画像ごとのキャプションに依存しないトリガーのみのワークフローにのみ使用。
Cache Text Embeddings
以下の場合のみ有効：

キャプションが静的、
caption dropoutがOFF、
DOPがOFF。

caption dropoutまたはDOPを使用する場合はOFFのままにしてください。

正則化（TRAININGの右側）

Differential Output Preservation (DOP)はブリードを防ぐのに役立ちます。

DOPの役割
LoRAを制御されたデルタとして振る舞うよう促す：

トリガーが存在する場合は強い効果、
トリガーが存在しない場合は最小限の効果。

DOPを有効にするタイミング

キャラクター：通常はyes（特にクリーンなトリガーオン/オフ動作のため）。
スタイル：オプション（呼び出し可能なスタイルが必要な場合に使用）。
製品：製品アイデンティティがすべてに漏れる場合は推奨。

Qwen-Image-2512 LoRA学習の重要な互換性ルール

DOPがONの場合、text embeddingsをキャッシュしないでください。

Blank Prompt Preservation

空のプロンプトの動作を維持する特定の理由がない限りOFFのままにしてください。

5.3.7 ADVANCEDパネル – 速度と安定性のオプション

Do Differential Guidance
「学習シグナル」を増加させるオプションのノブ。有効にする場合、保守的に（中間値で）開始し、学習が遅すぎる場合にのみ増加させてください。
Latentキャッシング
DATASETSセクションでCache Latentsを有効にできます（ディスクが十分にあり、より速いイテレーションが必要な場合、速度のために推奨）。

5.3.8 DATASETSパネル – Target Dataset, Default Caption, Settings, Resolutions

Dataset 1内：

Target Dataset
アップロードしたデータセットを選択（例：my_dataset_2512）。
Default Caption
キャプション戦略に基づいて選択：

トリガーのみ：空のままか[trigger]のみ
短いキャプション：データセット全体で1つの一貫したテンプレートを使用

キャプションテンプレート：

キャラクター：portrait photo of [trigger], studio lighting, sharp focus
スタイル：[trigger], watercolor illustration, pastel palette, soft edges（トリガーはオプション）
製品：product photo of [trigger], clean background, studio lighting

キャプションの重要なルール

Caption Dropout Rate
text embeddingsをキャッシュしない場合、0.05が一般的な開始点です。

text embeddingキャッシングを有効にする場合、dropoutを0に設定。
Settings

Cache Latents：速度のために推奨（特に大きなデータセットで）。
Is Regularization：このデータセットが正則化データセットの場合にのみ使用。
Flip X / Flip Y：デフォルトでOFF。ミラーフリップが被写体/製品に安全な場合にのみ有効（注：フリップはテキスト/ロゴを壊す可能性があります）。

Resolutions
シンプルに開始：

キャラクター：1024のみ（クリーンな刷り込み）、必要に応じて後で768を追加
スタイル：データセットがサイズを混在する場合は768 + 1024
製品：最初は1024のみ、形状が安定したら別のバケットを追加

5.3.9 SAMPLEパネル – トレーニングプレビュー

サンプリングはQwen-Image-2512 LoRA学習の早期警告システムです。

推奨デフォルト：

Sample Every：250
Sampler：FlowMatch（トレーニングに合わせる）
Guidance Scale：4
Sample Steps：25
Width/Height：メイントレーニングバケットに合わせる（多くの場合1024×1024）
Seed：42
Walk Seed：オプション（プレビューでより多くの多様性）

早期停止シグナル

キャラクター：ライクネスがピークに達してから過度に処理される；アイデンティティブリードが始まる；プロンプト忠実度が低下。
スタイル：「何でもフィルター」になる；繰り返しテクスチャが現れる；プロンプトが尊重されなくなる。
製品：改善後にジオメトリが歪む；ラベル/ロゴが過度にアサーティブになる；素材が劣化。

5.4 ステップ3 – トレーニングを開始して監視

ジョブを設定したら、Training Queueに移動し、ジョブを選択してトレーニングを開始します。

2つのことを監視：

VRAM使用量（特に24GB GPUで）
サンプル画像（いつ停止するか、どのチェックポイントが最適かを教えてくれます）

ほとんどのユーザーは、常に最大ステップを完了するよりも、サンプリングから最適なチェックポイント（多くの場合早い段階）を選択することで、より良いQwen 2512 LoRA学習の結果を得ています。

6. VRAMティア別の推奨Qwen-Image-2512 LoRA 作成設定

Qwen 2512は大きいです。実践的なQwen-Image-2512 LoRAトレーニングにはティアで考えてください：

24GB VRAM（一般的）：実行可能だが、1024トレーニングには通常低ビット量子化 + ARAが必要
40–48GB VRAM：より少ない妥協で快適な1024トレーニング
80GB+ VRAM：最もシンプルなセットアップ、最速のイテレーション、メモリ最適化の必要性が低い

以下のいずれかが必要な場合はARAを使用してください：

24GBで1024×1024のQwen 2512をトレーニング
OOM問題の軽減
重いCPUオフロードなしの安定した収束

7. 一般的なQwen-Image-2512 LoRA学習の問題と解決方法

7.1 起動時に量子化が失敗（Qwen-Image-2512でのARA / dtypeミスマッチ）

症状

トレーニングが起動中にすぐに停止。
「Failed to quantize … Expected dtype …」のようなエラー。

原因

選択したARAまたは量子化モードが現在のAI Toolkitビルドまたは環境と完全に互換性がない。

修正（最速順）

Qwen-Image-2512をサポートすることが知られているバージョンにAI Toolkitと依存関係を更新。
ARAモードを切り替え：

3ビットARAが失敗 → 4ビットARAを試す。
4ビットARAが失敗 → 3ビットARAを試す。

一時的に高精度の量子化モードを使用してトレーニングセットアップの残りが機能することを確認し、その後ARAに戻る。

7.2 バッチサイズ > 1でキャラクターアイデンティティが一般的になる

症状

初期サンプルは有望に見えるが、最終的なLoRAは「平均化」された感じがする。
キャラクターが特定の人物のように見えなくなる。

原因

より大きなバッチは、Qwen-Image-2512 LoRA学習でキャラクターの過度の一般化を促進する可能性がある。

修正

Batch Size = 1とGradient Accumulation = 1を優先。
より大きな有効バッチが必要な場合、Batch SizeではなくGradient Accumulationを増やし、サンプルを注意深く監視。

7.3 ライクネスが「固定されない」（間違ったtimestep動作）

症状

衣服、ポーズ、または雰囲気は正しいが、顔やアイデンティティが一貫していない。
結果がプロンプト間で大きく異なる。

原因

リアルなキャラクターの場合、Qwen-Image-2512は重み付けtimestepsよりもsigmoid型timestep動作によりよく反応することが多い。

修正

キャラクター（および多くの場合製品）LoRAでは、Timestep Typeをsigmoidに切り替え。
早い段階でサンプルを評価；トレーニングの終わりまで待たない。

7.4 後のチェックポイントで顔が「焼けた」またはワックス状になる

症状

あるチェックポイントは素晴らしく見えるが、後のものは過度にシャープ化されたり、プラスチック状、または不安定に見える。
アイデンティティブリードが急速に増加。

原因

Qwen-Image-2512 LoRA学習でのキャラクターLoRAは、画像あたり約~100繰り返しを超えると急速に劣化することがある。

修正

より早いチェックポイントを選択（多くの場合最善の解決策）。
合計繰り返し/ステップを減らし、推奨範囲により近くとどまる。
必要に応じて、ステップを増やす前にLoRAランクを下げるか、より多くのデータセットの多様性を追加。

7.5 スタイルLoRAが一貫しないか「何でもフィルター」として動作

症状

スタイルが現れることもあれば、現れないこともある。
または常にプロンプトの内容を上書きする。

原因

スタイルLoRAは、キャラクターLoRAよりもより多くのデータセット幅とより長い全体的なトレーニングが必要なことが多い。

修正

より多様なスタイル例を追加（人、オブジェクト、環境）。
画像あたりの繰り返しを合理的に保ち、極端な繰り返しよりも多くの画像で合計シグナルを増加。
スタイルが鈍いグローバルフィルターになることを避けるために頻繁にサンプリング。

8. トレーニング後のQwen 2512 LoRAの使用方法

トレーニングが完了したら、Qwen 2512 LoRAを2つの簡単な方法で使用できます：

Run LoRA – Qwen‑Image‑2512 Run LoRA pageを開きます。このベースモデルの推論ページでは、RunComfy上でトレーニングしたLoRAアセットを選択するか、AI Toolkitで学習したLoRAファイルをimportして、playgroundまたはAPIから推論できます。RunComfyはトレーニング設定の同じbase modelとAI Toolkitの完全なpipeline定義をそのまま使用するため、学習中に見えた挙動が推論でもそのまま得られ、training/inferenceの整合性が高く、サンプルと推論結果の一致を保ちやすくなります。
ComfyUIワークフロー – ComfyUIインスタンスを起動し、独自のワークフローを構築するか、Qwen Image 2512のようなワークフローをロードし、LoRAローダーノードを追加してLoRAを入れ、LoRAの重みやその他の設定を調整してより詳細なコントロールを行います。

Qwen 2512 LoRAの推論テスト

キャラクターテスト

クローズアップポートレートプロンプト
ミディアムショットプロンプト
全身プロンプト

スタイルテスト

複数の被写体カテゴリ（人/オブジェクト/環境）

製品テスト

クリーンなスタジオプロンプト + 1つの複雑なシーンプロンプト

OstrisAI-Toolkit

New Training Job

Job

Model

Quantization

Target

Save

Training

Advanced

Datasets

Dataset 1

Sample

目次

1. Qwen‑Image‑2512概要：このテキストから画像モデルでできること

Qwen-Image-2512 LoRA学習とは（「良い」とは何を意味するか）

目標を選択：キャラクター vs スタイル vs 製品/コンセプト

キャラクター / ライクネス

スタイル

製品 / コンセプト

2. 環境オプション：ローカルAI Toolkit vs RunComfyのクラウドAI Toolkit

2.1 ローカルAI Toolkit（自分のGPU）

2.2 RunComfyのクラウドAI Toolkit（H100 / H200）

3. Qwen-Image-2512 LoRA学習のハードウェアとVRAM要件

3.1 ハードウェア計画：VRAMティアとARAが重要になるタイミング

3.2 ARAの説明：それが何か、いつ使用するか、トレーニングへの影響

ARAとは

Qwen 2512でARAを使用するタイミング

ARAがトレーニングに与える影響（トレードオフ）

4. Qwen-Image-2512 LoRA学習用データセットの構築

4.1 データセット設計：各目標で収集するもの

普遍的なルール

キャラクターデータセット（15–50画像）

スタイルデータセット（30–200画像）

製品 / コンセプトデータセット（20–80画像）

4.2 キャプションとトリガー：キャラクター / スタイル / 製品用テンプレート

4.2.1 キャプションの重要なルール

4.2.2 キャラクターキャプションテンプレート

4.2.3 スタイルキャプションテンプレート

4.2.4 製品/コンセプトキャプションテンプレート

5. ステップバイステップ：AI ToolkitでQwen-Image-2512 LoRA学習

5.1 ステップ0 – 目標を選択（キャラクター vs スタイル vs 製品）

5.2 ステップ1 – AI Toolkitでデータセットを作成

5.3 ステップ2 – 新しいジョブを作成

5.3.1 JOBパネル – Training Name, GPU ID, Trigger Word

5.3.2 MODELパネル – Model Architecture, Name or Path, Options

5.3.3 QUANTIZATIONパネル – Transformer, Text Encoder

5.3.4 TARGETパネル – Target Type, Linear Rank

5.3.5 SAVEパネル – Data Type, Save Every, Max Step Saves to Keep

5.3.6 TRAININGパネル – コアハイパーパラメータ

ステップ：キャラクター vs スタイル vs 製品の推奨値

Text Encoder最適化（TRAININGの右側）

正則化（TRAININGの右側）

5.3.7 ADVANCEDパネル – 速度と安定性のオプション

5.3.8 DATASETSパネル – Target Dataset, Default Caption, Settings, Resolutions

5.3.9 SAMPLEパネル – トレーニングプレビュー

5.4 ステップ3 – トレーニングを開始して監視

6. VRAMティア別の推奨Qwen-Image-2512 LoRA 作成設定

7. 一般的なQwen-Image-2512 LoRA学習の問題と解決方法

7.1 起動時に量子化が失敗（Qwen-Image-2512でのARA / dtypeミスマッチ）

7.2 バッチサイズ > 1でキャラクターアイデンティティが一般的になる

7.3 ライクネスが「固定されない」（間違ったtimestep動作）

7.4 後のチェックポイントで顔が「焼けた」またはワックス状になる

7.5 スタイルLoRAが一貫しないか「何でもフィルター」として動作

8. トレーニング後のQwen 2512 LoRAの使用方法

その他のAI Toolkit LoRAトレーニングガイド