Qwen‑Image‑2512(通称 Qwen 2512)は大規模なテキストから画像へのベースモデルであり、小さなアダプターを使ってファインチューニングすることで、キャラクター(ライクネス)、スタイル、または製品・コンセプトを確実に学習させることができます。このガイドでは、Ostris AI Toolkitを使用した実践的なQwen-Image-2512 LoRA学習の方法を、安定したデフォルト設定と一般的なトラブルシューティングとともに解説します。
このQwen-Image-2512 LoRA学習ガイドを読み終えると、以下ができるようになります:
- Qwen-Image-2512でキャラクター vs スタイル vs 製品LoRAに適したデフォルト設定を選択できる
- VRAM要件を計画し、ARAを使用するタイミングを判断できる
- 一般的な失敗モード(過学習/ブリード)を避けるデータセット、キャプション、トリガーを構築できる
- 短いスモークテストを実行し、自信を持ってステップと設定を確定できる
この記事はAI Toolkit LoRAトレーニングシリーズの一部です。Ostris AI Toolkitを初めて使う場合は、このQwen 2512 LoRA学習ガイドに進む前にAI Toolkit LoRAトレーニング概要から始めてください。
目次
- 1. Qwen‑Image‑2512概要:このテキストから画像モデルでできること
- 2. 環境オプション:AI ToolkitトレーニングUIでの作業
- 3. Qwen-Image-2512 LoRAトレーニングのハードウェアとVRAM要件
- 4. Qwen-Image-2512 LoRA学習用データセットの構築
- 5. ステップバイステップ:AI ToolkitでQwen-Image-2512 LoRA学習
- 6. VRAMティア別の推奨Qwen-Image-2512 LoRA 作成設定
- 7. 一般的なQwen-Image-2512 LoRA学習の問題と解決方法
- 8. トレーニング後のQwen‑Image‑2512 LoRAの使用方法
1. Qwen‑Image‑2512概要:このテキストから画像モデルでできること
Qwen-Image-2512 LoRA学習とは(「良い」とは何を意味するか)
Qwen-Image-2512 LoRA学習では、ベースモデルを置き換えるのではなく、特定のアイデンティティ、スタイル、または製品コンセプトに向けて微調整する小さなアダプターを追加します。
強力なLoRAには3つの特性があります:
- 強度:アクティブ時に出力を明確に変更する
- 制御:必要な時だけアクティブになる
- 汎化:トレーニング画像だけでなく、新しいプロンプトでも機能する
目標を選択:キャラクター vs スタイル vs 製品/コンセプト
目標によって、データセット設計とトレーニング設定の最適なデフォルトが決まります。AI-Toolkitで Qwen-Image-2512 LoRAトレーニングを行う際の参考にしてください。
キャラクター / ライクネス
- 最適:特定の人物、キャラクター、有名人の類似性、一貫した顔/アイデンティティ
- 主なリスク:アイデンティティブリード(他の人に影響)、過度に処理された顔、急速な過学習
- 必要:より厳密なタイムステップ戦略、慎重なステップ、通常トリガー、多くの場合DOP
スタイル
- 最適:ルック/グレード、イラストスタイル、ライティングスタイル、テクスチャ言語
- 主なリスク:「何でもフィルター」になる、プロンプト忠実度の低下
- 必要:より多くの多様性、通常キャラクターより少ない繰り返し/画像、トリガーはオプション
製品 / コンセプト
- 最適:特定の製品(靴、ボトル)、ロゴ入りパッケージ、新しいオブジェクトコンセプト
- 主なリスク:形状ドリフト、一貫性のない素材、不安定なジオメトリ
- 必要:一貫したフレーミング + クリーンなキャプション;トリガーは通常推奨
不確かな場合は、スモークテスト(短い実行)としてQwen-Image-2512 LoRA学習を開始し、データセットがどれだけ早く「刷り込まれる」かを確認してから最終ステップを確定してください。
2. 環境オプション:ローカルAI Toolkit vs RunComfyのクラウドAI Toolkit
Qwen-Image-2512 LoRAトレーニングには、他のAI Toolkit LoRAワークフローと同じ2つの環境を使用できます:
- 自分のGPUでのローカルAI Toolkit
- 大型GPU(H100 / H200)を備えたRunComfyのクラウドAI Toolkit
トレーニングUI、パラメータ、ワークフローは両方のケースで同一です。唯一の違いはGPUがどこにあるかと利用可能なVRAMの量です。
2.1 ローカルAI Toolkit(自分のGPU)
AI Toolkit GitHubリポジトリからAI Toolkitをインストールし、Web UIを実行します。ローカルトレーニングは以下の場合に良い選択です:
- すでにNVIDIA GPUを持っている(通常、快適な1024トレーニングには24GB VRAM以上)
- CUDA、ドライバー、ディスクスペース、長時間実行ジョブの管理に慣れている
2.2 RunComfyのクラウドAI Toolkit(H100 / H200)
RunComfyのクラウドAI Toolkitでは、Qwen-Image-2512 LoRA学習がブラウザで完全に実行されます:
- ローカルに何もインストールしない
- ブラウザを開き、ログインすると、直接AI Toolkitトレーニングインターフェースに到着
- ジョブ開始時にH100(80GB)やH200(141GB)などの大型GPUを選択可能
- データセット、設定、チェックポイントが保存され、セッション間で再利用できる永続ワークスペースを取得
この環境は特にQwen 2512 LoRA学習で以下の場合に便利です:
- 積極的なメモリトリックなしで1024×1024での高速イテレーションが必要
- より大きなLoRAランク、より多くのバケット、またはより大きなバッチサイズで実験したい
- CUDAやドライバーの問題のデバッグに時間をかけたくない
👉 こちらから開く:RunComfyのクラウドAI Toolkit
3. Qwen-Image-2512 LoRA学習のハードウェアとVRAM要件
3.1 ハードウェア計画:VRAMティアとARAが重要になるタイミング
Qwen 2512は大きいです。実践的なQwen-Image-2512 LoRAトレーニングにはティアで考えてください:
- 24GB VRAM(一般的):実行可能だが、1024トレーニングには通常低ビット量子化 + ARAが必要
- 40–48GB VRAM:より少ない妥協で快適な1024トレーニング
- 80GB+ VRAM:最もシンプルなセットアップ、最速のイテレーション、メモリ最適化の必要性が低い
24GB未満の場合:低解像度(例:768)で積極的なメモリ戦術を使ってトレーニングできることもありますが、より遅い実行とより不安定な安定性を予期してください。
3.2 ARAの説明:それが何か、いつ使用するか、トレーニングへの影響
ARAとは
ARA(Accuracy Recovery Adapter)は、非常に低ビットの量子化(一般的に3ビットまたは4ビット)で使用される回復メカニズムです。ベースモデルはVRAMを節約するために量子化された状態で実行され、ARAは量子化によって失われた精度を回復するのに役立ちます。
Qwen 2512でARAを使用するタイミング
以下のいずれかが必要な場合はARAを使用してください:
- 24GBで1024×1024のQwen 2512をトレーニング
- OOM問題の軽減
- 重いCPUオフロードなしの安定した収束
ARAがトレーニングに与える影響(トレードオフ)
長所
- コンシューマGPUで1024トレーニングを実現可能に
- 「単純な低ビット」量子化と比較して安定性が向上することが多い
短所
- 追加の可動部品を追加(ツール/バージョンの互換性が重要)
- 量子化が失敗した場合、量子化モードを調整するか環境を更新する必要があるかもしれない
Qwen-Image-2512 LoRA学習の実践的ガイダンス
- 24GBで3ビットARAから開始
- 量子化エラーが発生した場合、4ビットARAを試す
- 問題が続く場合、一時的により高精度の量子化モードを使用してパイプラインの残りを検証し、その後ARAに戻る
4. Qwen-Image-2512 LoRA学習用データセットの構築
4.1 データセット設計:各目標で収集するもの
Qwen-Image-2512 LoRAトレーニングの失敗のほとんどは、偽装されたデータセットの失敗です。
普遍的なルール
- すべてをRGBに変換(グレースケール/CMYKを避ける)
- 壊れた/破損した画像を削除
- 意図的にその撮影を支配させたい場合を除き、ほぼ重複を避ける
- 可能な限り解像度を一貫させる(または小さなバケットセットを使用)
キャラクターデータセット(15–50画像)
目標:
- 30–60% クローズアップ / 頭と肩
- 30–50% ミディアムショット
- 10–20% 全身(オプションだが衣服/ポーズの汎化に役立つ)
「アイデンティティ」が一貫したシグナルになるよう、照明と背景を十分に多様化してください。
スタイルデータセット(30–200画像)
目標:
- 幅広い被写体の多様性(人、オブジェクト、環境)
- 多様な構図と色の状況
- 一貫したスタイルの手がかり(筆、シェーディング、パレット、フィルムグレインなど)
Qwen-Image-2512 LoRA学習でのスタイルLoRAは、スタイルが唯一の一貫した要素である場合によりよく汎化します。
製品 / コンセプトデータセット(20–80画像)
目標:
- 一貫した角度とフレーミング(正面/側面/45度)
- フレーム内の一貫した製品スケール(極端なズーム差を避ける)
- 素材が重要な場合は複数の照明条件(マット vs 光沢)
- クリーンな背景が最初は役立つ(後で複雑なシーンを追加できる)
4.2 キャプションとトリガー:キャラクター / スタイル / 製品用テンプレート
Qwen 2512はトリガーのみまたは短い一貫したキャプションでトレーニングできます。
4.2.1 キャプションの重要なルール
多くのトレーニング画像に特徴が現れているが、キャプションで言及しない場合、モデルはトリガーが暗黙的にその特徴を意味すると学習する可能性があります—そのため、トリガーを使用するたびにそれを再現しようとします。
これが、LoRAがアクティブになるたびに髪型、服装、背景色、またはカメラスタイルを「強制」する一般的な理由です。
4.2.2 キャラクターキャプションテンプレート
推奨:トリガーを使用。キャプションは短く保つ。
- トリガーのみ:
[trigger] - 短いキャプション:
portrait photo of [trigger], studio lighting, sharp focusphoto of [trigger], natural skin texture, realistic
顔のパーツ(目、鼻など)の過度な説明は避けてください。モデルに画像からアイデンティティを学習させましょう。
4.2.3 スタイルキャプションテンプレート
トリガーはオプションです。使用すると、オン/オフスイッチが得られます。
- トリガーなし、短いキャプション:
in a watercolor illustration style, soft edges, pastel palette - トリガー + 短いキャプション:
[trigger], watercolor illustration, pastel palette, soft edges
スタイルの場合、キャプションはシーンの内容ではなくスタイル属性を説明する必要があります。
4.2.4 製品/コンセプトキャプションテンプレート
制御のためにトリガーを強く推奨します。
- シンプル:
product photo of [trigger], clean background, studio lighting - 製品に定義的な特徴がある場合:
product photo of [trigger], transparent bottle, blue label, studio lighting
長いキャプションは避けてください。製品の場合、一貫した表現がジオメトリの安定性を向上させます。
5. ステップバイステップ:AI ToolkitでQwen-Image-2512 LoRA学習
このセクションはAI Toolkitトレーニングインターフェースと同じ流れに従います。まずデータセットを作成し、次にパネルごとに新しいジョブを設定します。
5.1 ステップ0 – 目標を選択(キャラクター vs スタイル vs 製品)
設定に触れる前に、何をトレーニングするかを決定します。これにより、キャプション、ステップ、正則化の最適なデフォルトが決まります。
- キャラクター / ライクネス:最も強いアイデンティティの一貫性(顔/外見)。ブリードと急速な過学習のリスクが最も高い。
- スタイル:一貫した視覚的ルック(パレット/テクスチャ/照明)。「何でもフィルター」になるリスクが最も高い。
- 製品 / コンセプト:安定したオブジェクトアイデンティティとジオメトリ。形状/素材ドリフトのリスクが最も高い。
不確かな場合は、まず短いスモークテストを実行し(以下のTRAINING + SAMPLEを参照)、データセットがどれだけ早く「刷り込まれる」かを確認してからステップを確定してください。
5.2 ステップ1 – AI Toolkitでデータセットを作成
AI ToolkitインターフェースでDatasets タブを開きます。
少なくとも1つのデータセットを作成します(例:):
my_dataset_2512
このデータセットに画像をアップロードします。
データセット品質ルール(すべての目標)
- すべてをRGBに変換(グレースケール/CMYKを避ける)。
- 壊れた/破損したファイルを削除。
- 意図的にそのルック/ポーズを支配させたい場合を除き、ほぼ重複を避ける。
推奨データセットサイズ
- キャラクター:15–50画像
- スタイル:30–200画像(より多くの多様性が役立つ)
- 製品:20–80画像(一貫したフレーミングが役立つ)
5.3 ステップ2 – 新しいジョブを作成
New Jobタブを開きます。表示される順序で各パネルを設定します。
5.3.1 JOBパネル – Training Name, GPU ID, Trigger Word
- Training Name
後で認識できるわかりやすい名前を選んでください(例:
qwen_2512_character_v1、qwen_2512_style_v1、qwen_2512_product_v1)。 - GPU ID – ローカルインストールでは、マシン上のGPUを選択します。RunComfyのクラウドAI Toolkitでは、
GPU IDをデフォルトのままにしてください。実際のマシンタイプ(H100 / H200)は、Training Queueからジョブを開始するときに後で選択します。 - Trigger Word
目標に応じた推奨使用法:
- キャラクター:強く推奨(クリーンなオン/オフ制御を提供し、ブリードを防ぐのに役立つ)。
- スタイル:オプション(常時オンではなく「呼び出し可能なスタイル」が必要な場合に使用)。
- 製品:強く推奨(学習したコンセプトを制御可能に保つのに役立つ)。
トリガーを使用する場合、キャプションに[trigger]のようなプレースホルダーを含め、一貫したテンプレートに従うことができます(以下参照)。
5.3.2 MODELパネル – Model Architecture, Name or Path, Options
- Model Architecture
Qwen-Image-2512を選択します。 - Name or Path
Qwen/Qwen-Image-2512を使用します。ほとんどのAI Toolkitビルドでは、Qwen‑Image‑2512を選択するとこの値が自動入力されます。上書きする場合は、Hugging Faceリポジトリ ID形式を使用:
org-or-user/model-name(オプションでorg-or-user/model-name@revision)。 - Options
- Low VRAM:Qwen-Image-2512 LoRA 作成時に24GB GPUではオンにします。
- Layer Offloading:量子化、低ランク、少ないバケットを使用してもまだOOMが発生する場合の最後の手段として扱います。
オフロード順序(ベストプラクティス):
1) ARA + Low VRAM
2) ランクを下げる
3) 解像度バケットを減らす
4) サンプリング頻度/解像度を減らす
5) その後Layer Offloadingを有効化
5.3.3 QUANTIZATIONパネル – Transformer, Text Encoder
ここで24GBでのほとんどのQwen-Image-2512 LoRA学習の成否が決まります。
- 24GBベースライン(1024トレーニングに推奨)
- Transformerを量子化し、ARAを使用(まず3ビット、必要なら4ビット)。
- 追加のVRAMマージンが必要な場合は、Text Encoderをfloat8に量子化。
- 大容量VRAM GPU
トレーニングが安定していて十分に速い場合、シンプルさのために量子化を減らすか無効にできます。
量子化が失敗した場合(dtype/quantizeエラー)、まずツール互換性の問題として扱ってください:
- 3ビット ↔ 4ビットARAを切り替える、
- AI Toolkit/依存関係を更新、
- または一時的に高精度モードを使用してジョブセットアップの残りを検証し、その後ARAに戻る。
5.3.4 TARGETパネル – Target Type, Linear Rank
- Target Type:
LoRAを選択。 - Linear Rank
目標別の推奨開始点:
- キャラクター:32
- スタイル:16–32
- 製品:32
一般的なルール:
- OOMの場合 → 他のすべてに触れる前にランクを下げる。
- アンダーフィットの場合 → まずtimesteps/steps/LRを調整し、その後ランクの増加を検討。
- オーバーフィットの場合 → 繰り返し/ステップを減らし、ランクを下げ、多様性を追加し、DOPを検討。
5.3.5 SAVEパネル – Data Type, Save Every, Max Step Saves to Keep
- Data Type:
BF16(安定したデフォルト)。 - Save Every:
250(良いチェックポイント間隔)。 - Max Step Saves to Keep:
4(ディスク使用量を抑える)。
5.3.6 TRAININGパネル – コアハイパーパラメータ
これらはほとんどの実行が開始するデフォルトです:
- Batch Size:1
- Gradient Accumulation:1
- Optimizer:AdamW8Bit
- Learning Rate:0.0001
- Weight Decay:0.0001
- Timestep Type:Weighted
- Timestep Bias:Balanced
- Loss Type:Mean Squared Error
- Use EMA:OFF(Qwen 2512 LoRAの場合)
目標別Timestep Typeガイダンス
- キャラクター:Weightedは安全なベースライン;ライクネスが固定されない場合や一貫性がない場合は、よりアイデンティティに優しいtimestep設定を試す(多くの場合キャラクターの刷り込みが改善される)。
- スタイル:Weightedは通常問題なし;ステップを増やす前に多様性を増やす。
- 製品:Weightedは安定したベースライン;ジオメトリがドリフトする場合、まず繰り返しを減らすかキャプション/トリガーを厳しくする。
ステップ:キャラクター vs スタイル vs 製品の推奨値
ステップは単一のマジックナンバーであるべきではありません。より信頼できる方法は画像あたりの繰り返しです:
- 繰り返し ≈ (steps × batch_size × grad_accum) ÷ num_images
- batch_size=1、grad_accum=1の場合:steps ≈ 繰り返し × num_images
gradient accumulationを2または4に増やす場合、ステップを比例して減らしてください。
キャラクター(ライクネス)画像あたりの繰り返し
- スモークテスト:30–50
- 典型的なスイートスポット:50–90
- 高ライクネスプッシュ:90–120(ブリードに注意)
例(batch=1、accum=1):
| 画像 | 30–50繰り返し | 50–90繰り返し | 90–120繰り返し |
|---|---|---|---|
| 15 | 450–750 | 750–1350 | 1350–1800 |
| 25 | 750–1250 | 1250–2250 | 2250–3000 |
| 40 | 1200–2000 | 2000–3600 | 3600–4800 |
スタイル画像あたりの繰り返し
- スモークテスト:15–30
- 典型的なスイートスポット:25–60
- 上限:60–80(大きく多様なデータセットでのみ使用)
例(batch=1、accum=1):
| 画像 | 15–30繰り返し | 25–60繰り返し | 60–80繰り返し |
|---|---|---|---|
| 30 | 450–900 | 750–1800 | 1800–2400 |
| 100 | 1500–3000 | 2500–6000 | 6000–8000 |
製品 / コンセプト画像あたりの繰り返し
- スモークテスト:20–40
- 典型的なスイートスポット:30–70
- 高忠実度プッシュ:70–90(形状/素材がまだアンダーフィットの場合のみ)
例(batch=1、accum=1):
| 画像 | 20–40繰り返し | 30–70繰り返し | 70–90繰り返し |
|---|---|---|---|
| 20 | 400–800 | 600–1400 | 1400–1800 |
| 50 | 1000–2000 | 1500–3500 | 3500–4500 |
| 80 | 1600–3200 | 2400–5600 | 5600–7200 |
Text Encoder最適化(TRAININGの右側)
- Unload TE
VRAM使用量を最小化し、画像ごとのキャプションに依存しないトリガーのみのワークフローにのみ使用。
- Cache Text Embeddings
以下の場合のみ有効:
- キャプションが静的、
- caption dropoutがOFF、
- DOPがOFF。
caption dropoutまたはDOPを使用する場合はOFFのままにしてください。
正則化(TRAININGの右側)
Differential Output Preservation (DOP)はブリードを防ぐのに役立ちます。
- DOPの役割
LoRAを制御されたデルタとして振る舞うよう促す:
- トリガーが存在する場合は強い効果、
- トリガーが存在しない場合は最小限の効果。
- DOPを有効にするタイミング
- キャラクター:通常はyes(特にクリーンなトリガーオン/オフ動作のため)。
- スタイル:オプション(呼び出し可能なスタイルが必要な場合に使用)。
- 製品:製品アイデンティティがすべてに漏れる場合は推奨。
Qwen-Image-2512 LoRA学習の重要な互換性ルール
DOPがONの場合、text embeddingsをキャッシュしないでください。
Blank Prompt Preservation
空のプロンプトの動作を維持する特定の理由がない限りOFFのままにしてください。
5.3.7 ADVANCEDパネル – 速度と安定性のオプション
- Do Differential Guidance
「学習シグナル」を増加させるオプションのノブ。有効にする場合、保守的に(中間値で)開始し、学習が遅すぎる場合にのみ増加させてください。
- Latentキャッシング
DATASETSセクションでCache Latentsを有効にできます(ディスクが十分にあり、より速いイテレーションが必要な場合、速度のために推奨)。
5.3.8 DATASETSパネル – Target Dataset, Default Caption, Settings, Resolutions
Dataset 1内:
- Target Dataset
アップロードしたデータセットを選択(例:
my_dataset_2512)。 - Default Caption
キャプション戦略に基づいて選択:
- トリガーのみ:空のままか
[trigger]のみ - 短いキャプション:データセット全体で1つの一貫したテンプレートを使用
キャプションテンプレート:
- キャラクター:
portrait photo of [trigger], studio lighting, sharp focus - スタイル:
[trigger], watercolor illustration, pastel palette, soft edges(トリガーはオプション) - 製品:
product photo of [trigger], clean background, studio lighting
キャプションの重要なルール
多くのトレーニング画像に特徴が現れているが、キャプションで言及しない場合、モデルはトリガーが暗黙的にその特徴を意味すると学習する可能性があります—そのため、トリガーを使用するたびにそれを再現しようとします。
- Caption Dropout Rate
text embeddingsをキャッシュしない場合、
0.05が一般的な開始点です。text embeddingキャッシングを有効にする場合、dropoutを
0に設定。 - Settings
- Cache Latents:速度のために推奨(特に大きなデータセットで)。
- Is Regularization:このデータセットが正則化データセットの場合にのみ使用。
- Flip X / Flip Y:デフォルトでOFF。ミラーフリップが被写体/製品に安全な場合にのみ有効(注:フリップはテキスト/ロゴを壊す可能性があります)。
- Resolutions
シンプルに開始:
- キャラクター:1024のみ(クリーンな刷り込み)、必要に応じて後で768を追加
- スタイル:データセットがサイズを混在する場合は768 + 1024
- 製品:最初は1024のみ、形状が安定したら別のバケットを追加
5.3.9 SAMPLEパネル – トレーニングプレビュー
サンプリングはQwen-Image-2512 LoRA学習の早期警告システムです。
推奨デフォルト:
- Sample Every:250
- Sampler:FlowMatch(トレーニングに合わせる)
- Guidance Scale:4
- Sample Steps:25
- Width/Height:メイントレーニングバケットに合わせる(多くの場合1024×1024)
- Seed:42
- Walk Seed:オプション(プレビューでより多くの多様性)
早期停止シグナル
- キャラクター:ライクネスがピークに達してから過度に処理される;アイデンティティブリードが始まる;プロンプト忠実度が低下。
- スタイル:「何でもフィルター」になる;繰り返しテクスチャが現れる;プロンプトが尊重されなくなる。
- 製品:改善後にジオメトリが歪む;ラベル/ロゴが過度にアサーティブになる;素材が劣化。
5.4 ステップ3 – トレーニングを開始して監視
ジョブを設定したら、Training Queueに移動し、ジョブを選択してトレーニングを開始します。
2つのことを監視:
- VRAM使用量(特に24GB GPUで)
- サンプル画像(いつ停止するか、どのチェックポイントが最適かを教えてくれます)
ほとんどのユーザーは、常に最大ステップを完了するよりも、サンプリングから最適なチェックポイント(多くの場合早い段階)を選択することで、より良いQwen 2512 LoRA学習の結果を得ています。
6. VRAMティア別の推奨Qwen-Image-2512 LoRA 作成設定
Qwen 2512は大きいです。実践的なQwen-Image-2512 LoRAトレーニングにはティアで考えてください:
- 24GB VRAM(一般的):実行可能だが、1024トレーニングには通常低ビット量子化 + ARAが必要
- 40–48GB VRAM:より少ない妥協で快適な1024トレーニング
- 80GB+ VRAM:最もシンプルなセットアップ、最速のイテレーション、メモリ最適化の必要性が低い
24GB未満の場合:低解像度(例:768)で積極的なメモリ戦術を使ってトレーニングできることもありますが、より遅い実行とより不安定な安定性を予期してください。
以下のいずれかが必要な場合はARAを使用してください:
- 24GBで1024×1024のQwen 2512をトレーニング
- OOM問題の軽減
- 重いCPUオフロードなしの安定した収束
7. 一般的なQwen-Image-2512 LoRA学習の問題と解決方法
7.1 起動時に量子化が失敗(Qwen-Image-2512でのARA / dtypeミスマッチ)
症状
- トレーニングが起動中にすぐに停止。
- 「Failed to quantize … Expected dtype …」のようなエラー。
原因
- 選択したARAまたは量子化モードが現在のAI Toolkitビルドまたは環境と完全に互換性がない。
修正(最速順)
- Qwen-Image-2512をサポートすることが知られているバージョンにAI Toolkitと依存関係を更新。
- ARAモードを切り替え:
- 3ビットARAが失敗 → 4ビットARAを試す。
- 4ビットARAが失敗 → 3ビットARAを試す。
- 一時的に高精度の量子化モードを使用してトレーニングセットアップの残りが機能することを確認し、その後ARAに戻る。
7.2 バッチサイズ > 1でキャラクターアイデンティティが一般的になる
症状
- 初期サンプルは有望に見えるが、最終的なLoRAは「平均化」された感じがする。
- キャラクターが特定の人物のように見えなくなる。
原因
- より大きなバッチは、Qwen-Image-2512 LoRA学習でキャラクターの過度の一般化を促進する可能性がある。
修正
- Batch Size = 1とGradient Accumulation = 1を優先。
- より大きな有効バッチが必要な場合、Batch SizeではなくGradient Accumulationを増やし、サンプルを注意深く監視。
7.3 ライクネスが「固定されない」(間違ったtimestep動作)
症状
- 衣服、ポーズ、または雰囲気は正しいが、顔やアイデンティティが一貫していない。
- 結果がプロンプト間で大きく異なる。
原因
- リアルなキャラクターの場合、Qwen-Image-2512は重み付けtimestepsよりもsigmoid型timestep動作によりよく反応することが多い。
修正
- キャラクター(および多くの場合製品)LoRAでは、Timestep Typeを
sigmoidに切り替え。 - 早い段階でサンプルを評価;トレーニングの終わりまで待たない。
7.4 後のチェックポイントで顔が「焼けた」またはワックス状になる
症状
- あるチェックポイントは素晴らしく見えるが、後のものは過度にシャープ化されたり、プラスチック状、または不安定に見える。
- アイデンティティブリードが急速に増加。
原因
- Qwen-Image-2512 LoRA学習でのキャラクターLoRAは、画像あたり約~100繰り返しを超えると急速に劣化することがある。
修正
- より早いチェックポイントを選択(多くの場合最善の解決策)。
- 合計繰り返し/ステップを減らし、推奨範囲により近くとどまる。
- 必要に応じて、ステップを増やす前にLoRAランクを下げるか、より多くのデータセットの多様性を追加。
7.5 スタイルLoRAが一貫しないか「何でもフィルター」として動作
症状
- スタイルが現れることもあれば、現れないこともある。
- または常にプロンプトの内容を上書きする。
原因
- スタイルLoRAは、キャラクターLoRAよりもより多くのデータセット幅とより長い全体的なトレーニングが必要なことが多い。
修正
- より多様なスタイル例を追加(人、オブジェクト、環境)。
- 画像あたりの繰り返しを合理的に保ち、極端な繰り返しよりも多くの画像で合計シグナルを増加。
- スタイルが鈍いグローバルフィルターになることを避けるために頻繁にサンプリング。
8. トレーニング後のQwen 2512 LoRAの使用方法
トレーニングが完了したら、Qwen 2512 LoRAを2つの簡単な方法で使用できます:
- Model playground – Qwen‑Image‑2512 LoRAプレイグラウンドを開き、トレーニングしたLoRAのURLを貼り付けて、ベースモデル上での動作を素早く確認。
- ComfyUIワークフロー – ComfyUIインスタンスを起動し、独自のワークフローを構築するか、Qwen Image 2512のようなワークフローをロードし、LoRAローダーノードを追加してLoRAを入れ、LoRAの重みやその他の設定を調整してより詳細なコントロールを行います。
Qwen 2512 LoRAの推論テスト
キャラクターテスト
- クローズアップポートレートプロンプト
- ミディアムショットプロンプト
- 全身プロンプト
スタイルテスト
- 複数の被写体カテゴリ(人/オブジェクト/環境)
製品テスト
- クリーンなスタジオプロンプト + 1つの複雑なシーンプロンプト
その他のAI Toolkit LoRAトレーニングガイド
Ready to start training?

