AI Toolkit LoRA Training Guides

Ostris AI ToolkitでのQwen 2512 LoRA学習(Qwen-Image-2512)

このチュートリアルでは、Ostris AI ToolkitでQwen-Image-2512 LoRAを学習する手順を解説します。キャラクター/スタイル/プロダクト(コンセプト)LoRA向けの推奨デフォルト、データセットとトリガー設定、24GBクラスでのARA + Low VRAMの使いどころ、学習中サンプルの確認方法、よくある失敗の対処をまとめています。

Train Diffusion Models with Ostris AI Toolkit

横にスクロールしてフォーム全体を表示

Ostris AI ToolkitOstrisAI-Toolkit

New Training Job

Job

Model

Quantization

Target

Save

Training

Datasets

Dataset 1

Sample

Qwen‑Image‑2512(通称 Qwen 2512)は大規模なテキストから画像へのベースモデルであり、小さなアダプターを使ってファインチューニングすることで、キャラクター(ライクネス)スタイル、または製品・コンセプトを確実に学習させることができます。このガイドでは、Ostris AI Toolkitを使用した実践的なQwen-Image-2512 LoRA学習の方法を、安定したデフォルト設定と一般的なトラブルシューティングとともに解説します。

このQwen-Image-2512 LoRA学習ガイドを読み終えると、以下ができるようになります:

  • Qwen-Image-2512でキャラクター vs スタイル vs 製品LoRAに適したデフォルト設定を選択できる
  • VRAM要件を計画し、ARAを使用するタイミングを判断できる
  • 一般的な失敗モード(過学習/ブリード)を避けるデータセット、キャプション、トリガーを構築できる
  • 短いスモークテストを実行し、自信を持ってステップと設定を確定できる
この記事はAI Toolkit LoRAトレーニングシリーズの一部です。Ostris AI Toolkitを初めて使う場合は、このQwen 2512 LoRA学習ガイドに進む前にAI Toolkit LoRAトレーニング概要から始めてください。

目次


1. Qwen‑Image‑2512概要:このテキストから画像モデルでできること

Qwen-Image-2512 LoRA学習とは(「良い」とは何を意味するか)

Qwen-Image-2512 LoRA学習では、ベースモデルを置き換えるのではなく、特定のアイデンティティ、スタイル、または製品コンセプトに向けて微調整する小さなアダプターを追加します。

強力なLoRAには3つの特性があります:

  • 強度:アクティブ時に出力を明確に変更する
  • 制御:必要な時だけアクティブになる
  • 汎化:トレーニング画像だけでなく、新しいプロンプトでも機能する

目標を選択:キャラクター vs スタイル vs 製品/コンセプト

目標によって、データセット設計とトレーニング設定の最適なデフォルトが決まります。AI-Toolkitで Qwen-Image-2512 LoRAトレーニングを行う際の参考にしてください。

キャラクター / ライクネス

  • 最適:特定の人物、キャラクター、有名人の類似性、一貫した顔/アイデンティティ
  • 主なリスク:アイデンティティブリード(他の人に影響)、過度に処理された顔、急速な過学習
  • 必要:より厳密なタイムステップ戦略、慎重なステップ、通常トリガー、多くの場合DOP

スタイル

  • 最適:ルック/グレード、イラストスタイル、ライティングスタイル、テクスチャ言語
  • 主なリスク:「何でもフィルター」になる、プロンプト忠実度の低下
  • 必要:より多くの多様性、通常キャラクターより少ない繰り返し/画像、トリガーはオプション

製品 / コンセプト

  • 最適:特定の製品(靴、ボトル)、ロゴ入りパッケージ、新しいオブジェクトコンセプト
  • 主なリスク:形状ドリフト、一貫性のない素材、不安定なジオメトリ
  • 必要:一貫したフレーミング + クリーンなキャプション;トリガーは通常推奨
不確かな場合は、スモークテスト(短い実行)としてQwen-Image-2512 LoRA学習を開始し、データセットがどれだけ早く「刷り込まれる」かを確認してから最終ステップを確定してください。

2. 環境オプション:ローカルAI Toolkit vs RunComfyのクラウドAI Toolkit

Qwen-Image-2512 LoRAトレーニングには、他のAI Toolkit LoRAワークフローと同じ2つの環境を使用できます:

  • 自分のGPUでのローカルAI Toolkit
  • 大型GPU(H100 / H200)を備えたRunComfyのクラウドAI Toolkit

トレーニングUI、パラメータ、ワークフローは両方のケースで同一です。唯一の違いはGPUがどこにあるかと利用可能なVRAMの量です。


2.1 ローカルAI Toolkit(自分のGPU)

AI Toolkit GitHubリポジトリからAI Toolkitをインストールし、Web UIを実行します。ローカルトレーニングは以下の場合に良い選択です:

  • すでにNVIDIA GPUを持っている(通常、快適な1024トレーニングには24GB VRAM以上
  • CUDA、ドライバー、ディスクスペース、長時間実行ジョブの管理に慣れている

2.2 RunComfyのクラウドAI Toolkit(H100 / H200)

RunComfyのクラウドAI Toolkitでは、Qwen-Image-2512 LoRA学習がブラウザで完全に実行されます:

  • ローカルに何もインストールしない
  • ブラウザを開き、ログインすると、直接AI Toolkitトレーニングインターフェースに到着
  • ジョブ開始時にH100(80GB)H200(141GB)などの大型GPUを選択可能
  • データセット、設定、チェックポイントが保存され、セッション間で再利用できる永続ワークスペースを取得

この環境は特にQwen 2512 LoRA学習で以下の場合に便利です:

  • 積極的なメモリトリックなしで1024×1024での高速イテレーションが必要
  • より大きなLoRAランク、より多くのバケット、またはより大きなバッチサイズで実験したい
  • CUDAやドライバーの問題のデバッグに時間をかけたくない

👉 こちらから開く:RunComfyのクラウドAI Toolkit


3. Qwen-Image-2512 LoRA学習のハードウェアとVRAM要件

3.1 ハードウェア計画:VRAMティアとARAが重要になるタイミング

Qwen 2512は大きいです。実践的なQwen-Image-2512 LoRAトレーニングにはティアで考えてください:

  • 24GB VRAM(一般的):実行可能だが、1024トレーニングには通常低ビット量子化 + ARAが必要
  • 40–48GB VRAM:より少ない妥協で快適な1024トレーニング
  • 80GB+ VRAM:最もシンプルなセットアップ、最速のイテレーション、メモリ最適化の必要性が低い

24GB未満の場合:低解像度(例:768)で積極的なメモリ戦術を使ってトレーニングできることもありますが、より遅い実行とより不安定な安定性を予期してください。


3.2 ARAの説明:それが何か、いつ使用するか、トレーニングへの影響

ARAとは

ARA(Accuracy Recovery Adapter)は、非常に低ビットの量子化(一般的に3ビットまたは4ビット)で使用される回復メカニズムです。ベースモデルはVRAMを節約するために量子化された状態で実行され、ARAは量子化によって失われた精度を回復するのに役立ちます。

Qwen 2512でARAを使用するタイミング

以下のいずれかが必要な場合はARAを使用してください:

  • 24GB1024×1024のQwen 2512をトレーニング
  • OOM問題の軽減
  • 重いCPUオフロードなしの安定した収束

ARAがトレーニングに与える影響(トレードオフ)

長所

  • コンシューマGPUで1024トレーニングを実現可能に
  • 「単純な低ビット」量子化と比較して安定性が向上することが多い

短所

  • 追加の可動部品を追加(ツール/バージョンの互換性が重要)
  • 量子化が失敗した場合、量子化モードを調整するか環境を更新する必要があるかもしれない

Qwen-Image-2512 LoRA学習の実践的ガイダンス

  • 24GBで3ビットARAから開始
  • 量子化エラーが発生した場合、4ビットARAを試す
  • 問題が続く場合、一時的により高精度の量子化モードを使用してパイプラインの残りを検証し、その後ARAに戻る

4. Qwen-Image-2512 LoRA学習用データセットの構築

4.1 データセット設計:各目標で収集するもの

Qwen-Image-2512 LoRAトレーニングの失敗のほとんどは、偽装されたデータセットの失敗です。

普遍的なルール

  • すべてをRGBに変換(グレースケール/CMYKを避ける)
  • 壊れた/破損した画像を削除
  • 意図的にその撮影を支配させたい場合を除き、ほぼ重複を避ける
  • 可能な限り解像度を一貫させる(または小さなバケットセットを使用)

キャラクターデータセット(15–50画像)

目標:

  • 30–60% クローズアップ / 頭と肩
  • 30–50% ミディアムショット
  • 10–20% 全身(オプションだが衣服/ポーズの汎化に役立つ)

「アイデンティティ」が一貫したシグナルになるよう、照明と背景を十分に多様化してください。

スタイルデータセット(30–200画像)

目標:

  • 幅広い被写体の多様性(人、オブジェクト、環境)
  • 多様な構図と色の状況
  • 一貫したスタイルの手がかり(筆、シェーディング、パレット、フィルムグレインなど)

Qwen-Image-2512 LoRA学習でのスタイルLoRAは、スタイルが唯一の一貫した要素である場合によりよく汎化します。

製品 / コンセプトデータセット(20–80画像)

目標:

  • 一貫した角度とフレーミング(正面/側面/45度)
  • フレーム内の一貫した製品スケール(極端なズーム差を避ける)
  • 素材が重要な場合は複数の照明条件(マット vs 光沢)
  • クリーンな背景が最初は役立つ(後で複雑なシーンを追加できる)

4.2 キャプションとトリガー:キャラクター / スタイル / 製品用テンプレート

Qwen 2512はトリガーのみまたは短い一貫したキャプションでトレーニングできます。

4.2.1 キャプションの重要なルール

多くのトレーニング画像に特徴が現れているが、キャプションで言及しない場合、モデルはトリガーが暗黙的にその特徴を意味すると学習する可能性があります—そのため、トリガーを使用するたびにそれを再現しようとします。

これが、LoRAがアクティブになるたびに髪型、服装、背景色、またはカメラスタイルを「強制」する一般的な理由です。

4.2.2 キャラクターキャプションテンプレート

推奨:トリガーを使用。キャプションは短く保つ。

  • トリガーのみ:

    [trigger]

  • 短いキャプション:

    portrait photo of [trigger], studio lighting, sharp focus

    photo of [trigger], natural skin texture, realistic

顔のパーツ(目、鼻など)の過度な説明は避けてください。モデルに画像からアイデンティティを学習させましょう。

4.2.3 スタイルキャプションテンプレート

トリガーはオプションです。使用すると、オン/オフスイッチが得られます。

  • トリガーなし、短いキャプション:

    in a watercolor illustration style, soft edges, pastel palette

  • トリガー + 短いキャプション:

    [trigger], watercolor illustration, pastel palette, soft edges

スタイルの場合、キャプションはシーンの内容ではなくスタイル属性を説明する必要があります。

4.2.4 製品/コンセプトキャプションテンプレート

制御のためにトリガーを強く推奨します。

  • シンプル:

    product photo of [trigger], clean background, studio lighting

  • 製品に定義的な特徴がある場合:

    product photo of [trigger], transparent bottle, blue label, studio lighting

長いキャプションは避けてください。製品の場合、一貫した表現がジオメトリの安定性を向上させます。


5. ステップバイステップ:AI ToolkitでQwen-Image-2512 LoRA学習

このセクションはAI Toolkitトレーニングインターフェースと同じ流れに従います。まずデータセットを作成し、次にパネルごとに新しいジョブを設定します。

5.1 ステップ0 – 目標を選択(キャラクター vs スタイル vs 製品)

設定に触れる前に、何をトレーニングするかを決定します。これにより、キャプション、ステップ、正則化の最適なデフォルトが決まります。

  • キャラクター / ライクネス:最も強いアイデンティティの一貫性(顔/外見)。ブリードと急速な過学習のリスクが最も高い。
  • スタイル:一貫した視覚的ルック(パレット/テクスチャ/照明)。「何でもフィルター」になるリスクが最も高い。
  • 製品 / コンセプト:安定したオブジェクトアイデンティティとジオメトリ。形状/素材ドリフトのリスクが最も高い。

不確かな場合は、まず短いスモークテストを実行し(以下のTRAINING + SAMPLEを参照)、データセットがどれだけ早く「刷り込まれる」かを確認してからステップを確定してください。


5.2 ステップ1 – AI Toolkitでデータセットを作成

AI ToolkitインターフェースでDatasets タブを開きます。

少なくとも1つのデータセットを作成します(例:):

  • my_dataset_2512

このデータセットに画像をアップロードします。

データセット品質ルール(すべての目標)

  • すべてをRGBに変換(グレースケール/CMYKを避ける)。
  • 壊れた/破損したファイルを削除。
  • 意図的にそのルック/ポーズを支配させたい場合を除き、ほぼ重複を避ける。

推奨データセットサイズ

  • キャラクター:15–50画像
  • スタイル:30–200画像(より多くの多様性が役立つ)
  • 製品:20–80画像(一貫したフレーミングが役立つ)

5.3 ステップ2 – 新しいジョブを作成

New Jobタブを開きます。表示される順序で各パネルを設定します。


5.3.1 JOBパネル – Training Name, GPU ID, Trigger Word

  • Training Name

    後で認識できるわかりやすい名前を選んでください(例:qwen_2512_character_v1qwen_2512_style_v1qwen_2512_product_v1)。

  • GPU ID – ローカルインストールでは、マシン上のGPUを選択します。RunComfyのクラウドAI Toolkitでは、GPU IDをデフォルトのままにしてください。実際のマシンタイプ(H100 / H200)は、Training Queueからジョブを開始するときに後で選択します。
  • Trigger Word

    目標に応じた推奨使用法:

    • キャラクター:強く推奨(クリーンなオン/オフ制御を提供し、ブリードを防ぐのに役立つ)。
    • スタイル:オプション(常時オンではなく「呼び出し可能なスタイル」が必要な場合に使用)。
    • 製品:強く推奨(学習したコンセプトを制御可能に保つのに役立つ)。

トリガーを使用する場合、キャプションに[trigger]のようなプレースホルダーを含め、一貫したテンプレートに従うことができます(以下参照)。


5.3.2 MODELパネル – Model Architecture, Name or Path, Options

  • Model Architecture

    Qwen-Image-2512を選択します。

  • Name or Path

    Qwen/Qwen-Image-2512を使用します。ほとんどのAI Toolkitビルドでは、Qwen‑Image‑2512を選択するとこの値が自動入力されます。

    上書きする場合は、Hugging Faceリポジトリ ID形式を使用:org-or-user/model-name(オプションでorg-or-user/model-name@revision)。

  • Options
    • Low VRAM:Qwen-Image-2512 LoRA 作成時に24GB GPUではオンにします。
    • Layer Offloading:量子化、低ランク、少ないバケットを使用してもまだOOMが発生する場合の最後の手段として扱います。

オフロード順序(ベストプラクティス):

1) ARA + Low VRAM

2) ランクを下げる

3) 解像度バケットを減らす

4) サンプリング頻度/解像度を減らす

5) その後Layer Offloadingを有効化


5.3.3 QUANTIZATIONパネル – Transformer, Text Encoder

ここで24GBでのほとんどのQwen-Image-2512 LoRA学習の成否が決まります。

  • 24GBベースライン(1024トレーニングに推奨)
    • Transformerを量子化し、ARAを使用(まず3ビット、必要なら4ビット)。
    • 追加のVRAMマージンが必要な場合は、Text Encoderをfloat8に量子化。
  • 大容量VRAM GPU

    トレーニングが安定していて十分に速い場合、シンプルさのために量子化を減らすか無効にできます。

量子化が失敗した場合(dtype/quantizeエラー)、まずツール互換性の問題として扱ってください:

  • 3ビット ↔ 4ビットARAを切り替える、
  • AI Toolkit/依存関係を更新、
  • または一時的に高精度モードを使用してジョブセットアップの残りを検証し、その後ARAに戻る。

5.3.4 TARGETパネル – Target Type, Linear Rank

  • Target TypeLoRAを選択。
  • Linear Rank

    目標別の推奨開始点:

    • キャラクター:32
    • スタイル:16–32
    • 製品:32

一般的なルール:

  • OOMの場合 → 他のすべてに触れる前にランクを下げる。
  • アンダーフィットの場合 → まずtimesteps/steps/LRを調整し、その後ランクの増加を検討。
  • オーバーフィットの場合 → 繰り返し/ステップを減らし、ランクを下げ、多様性を追加し、DOPを検討。

5.3.5 SAVEパネル – Data Type, Save Every, Max Step Saves to Keep

  • Data TypeBF16(安定したデフォルト)。
  • Save Every250(良いチェックポイント間隔)。
  • Max Step Saves to Keep4(ディスク使用量を抑える)。

5.3.6 TRAININGパネル – コアハイパーパラメータ

これらはほとんどの実行が開始するデフォルトです:

  • Batch Size:1
  • Gradient Accumulation:1
  • Optimizer:AdamW8Bit
  • Learning Rate:0.0001
  • Weight Decay:0.0001
  • Timestep Type:Weighted
  • Timestep Bias:Balanced
  • Loss Type:Mean Squared Error
  • Use EMA:OFF(Qwen 2512 LoRAの場合)

目標別Timestep Typeガイダンス

  • キャラクター:Weightedは安全なベースライン;ライクネスが固定されない場合や一貫性がない場合は、よりアイデンティティに優しいtimestep設定を試す(多くの場合キャラクターの刷り込みが改善される)。
  • スタイル:Weightedは通常問題なし;ステップを増やす前に多様性を増やす。
  • 製品:Weightedは安定したベースライン;ジオメトリがドリフトする場合、まず繰り返しを減らすかキャプション/トリガーを厳しくする。
ステップ:キャラクター vs スタイル vs 製品の推奨値

ステップは単一のマジックナンバーであるべきではありません。より信頼できる方法は画像あたりの繰り返しです:

  • 繰り返し ≈ (steps × batch_size × grad_accum) ÷ num_images
  • batch_size=1、grad_accum=1の場合:steps ≈ 繰り返し × num_images

gradient accumulationを2または4に増やす場合、ステップを比例して減らしてください。

キャラクター(ライクネス)画像あたりの繰り返し

  • スモークテスト:30–50
  • 典型的なスイートスポット:50–90
  • 高ライクネスプッシュ:90–120(ブリードに注意)

例(batch=1、accum=1):

画像 30–50繰り返し 50–90繰り返し 90–120繰り返し
15 450–750 750–1350 1350–1800
25 750–1250 1250–2250 2250–3000
40 1200–2000 2000–3600 3600–4800

スタイル画像あたりの繰り返し

  • スモークテスト:15–30
  • 典型的なスイートスポット:25–60
  • 上限:60–80(大きく多様なデータセットでのみ使用)

例(batch=1、accum=1):

画像 15–30繰り返し 25–60繰り返し 60–80繰り返し
30 450–900 750–1800 1800–2400
100 1500–3000 2500–6000 6000–8000

製品 / コンセプト画像あたりの繰り返し

  • スモークテスト:20–40
  • 典型的なスイートスポット:30–70
  • 高忠実度プッシュ:70–90(形状/素材がまだアンダーフィットの場合のみ)

例(batch=1、accum=1):

画像 20–40繰り返し 30–70繰り返し 70–90繰り返し
20 400–800 600–1400 1400–1800
50 1000–2000 1500–3500 3500–4500
80 1600–3200 2400–5600 5600–7200

Text Encoder最適化(TRAININGの右側)
  • Unload TE

    VRAM使用量を最小化し、画像ごとのキャプションに依存しないトリガーのみのワークフローにのみ使用。

  • Cache Text Embeddings

    以下の場合のみ有効:

    • キャプションが静的、
    • caption dropoutがOFF、
    • DOPがOFF。

caption dropoutまたはDOPを使用する場合はOFFのままにしてください。


正則化(TRAININGの右側)

Differential Output Preservation (DOP)はブリードを防ぐのに役立ちます。

  • DOPの役割

    LoRAを制御されたデルタとして振る舞うよう促す:

    • トリガーが存在する場合は強い効果、
    • トリガーが存在しない場合は最小限の効果。
  • DOPを有効にするタイミング
    • キャラクター:通常はyes(特にクリーンなトリガーオン/オフ動作のため)。
    • スタイル:オプション(呼び出し可能なスタイルが必要な場合に使用)。
    • 製品:製品アイデンティティがすべてに漏れる場合は推奨。

Qwen-Image-2512 LoRA学習の重要な互換性ルール

DOPがONの場合、text embeddingsをキャッシュしないでください。

Blank Prompt Preservation

空のプロンプトの動作を維持する特定の理由がない限りOFFのままにしてください。


5.3.7 ADVANCEDパネル – 速度と安定性のオプション

  • Do Differential Guidance

    「学習シグナル」を増加させるオプションのノブ。有効にする場合、保守的に(中間値で)開始し、学習が遅すぎる場合にのみ増加させてください。

  • Latentキャッシング

    DATASETSセクションでCache Latentsを有効にできます(ディスクが十分にあり、より速いイテレーションが必要な場合、速度のために推奨)。


5.3.8 DATASETSパネル – Target Dataset, Default Caption, Settings, Resolutions

Dataset 1内:

  • Target Dataset

    アップロードしたデータセットを選択(例:my_dataset_2512)。

  • Default Caption

    キャプション戦略に基づいて選択:

    • トリガーのみ:空のままか[trigger]のみ
    • 短いキャプション:データセット全体で1つの一貫したテンプレートを使用

キャプションテンプレート:

  • キャラクター:portrait photo of [trigger], studio lighting, sharp focus
  • スタイル:[trigger], watercolor illustration, pastel palette, soft edges(トリガーはオプション)
  • 製品:product photo of [trigger], clean background, studio lighting

キャプションの重要なルール

多くのトレーニング画像に特徴が現れているが、キャプションで言及しない場合、モデルはトリガーが暗黙的にその特徴を意味すると学習する可能性があります—そのため、トリガーを使用するたびにそれを再現しようとします。

  • Caption Dropout Rate

    text embeddingsをキャッシュしない場合、0.05が一般的な開始点です。

    text embeddingキャッシングを有効にする場合、dropoutを0に設定。

  • Settings
    • Cache Latents:速度のために推奨(特に大きなデータセットで)。
    • Is Regularization:このデータセットが正則化データセットの場合にのみ使用。
    • Flip X / Flip Y:デフォルトでOFF。ミラーフリップが被写体/製品に安全な場合にのみ有効(注:フリップはテキスト/ロゴを壊す可能性があります)。
  • Resolutions

    シンプルに開始:

    • キャラクター:1024のみ(クリーンな刷り込み)、必要に応じて後で768を追加
    • スタイル:データセットがサイズを混在する場合は768 + 1024
    • 製品:最初は1024のみ、形状が安定したら別のバケットを追加

5.3.9 SAMPLEパネル – トレーニングプレビュー

サンプリングはQwen-Image-2512 LoRA学習の早期警告システムです。

推奨デフォルト:

  • Sample Every:250
  • Sampler:FlowMatch(トレーニングに合わせる)
  • Guidance Scale:4
  • Sample Steps:25
  • Width/Height:メイントレーニングバケットに合わせる(多くの場合1024×1024)
  • Seed:42
  • Walk Seed:オプション(プレビューでより多くの多様性)

早期停止シグナル

  • キャラクター:ライクネスがピークに達してから過度に処理される;アイデンティティブリードが始まる;プロンプト忠実度が低下。
  • スタイル:「何でもフィルター」になる;繰り返しテクスチャが現れる;プロンプトが尊重されなくなる。
  • 製品:改善後にジオメトリが歪む;ラベル/ロゴが過度にアサーティブになる;素材が劣化。

5.4 ステップ3 – トレーニングを開始して監視

ジョブを設定したら、Training Queueに移動し、ジョブを選択してトレーニングを開始します。

2つのことを監視:

  • VRAM使用量(特に24GB GPUで)
  • サンプル画像(いつ停止するか、どのチェックポイントが最適かを教えてくれます)

ほとんどのユーザーは、常に最大ステップを完了するよりも、サンプリングから最適なチェックポイント(多くの場合早い段階)を選択することで、より良いQwen 2512 LoRA学習の結果を得ています。


6. VRAMティア別の推奨Qwen-Image-2512 LoRA 作成設定

Qwen 2512は大きいです。実践的なQwen-Image-2512 LoRAトレーニングにはティアで考えてください:

  • 24GB VRAM(一般的):実行可能だが、1024トレーニングには通常低ビット量子化 + ARAが必要
  • 40–48GB VRAM:より少ない妥協で快適な1024トレーニング
  • 80GB+ VRAM:最もシンプルなセットアップ、最速のイテレーション、メモリ最適化の必要性が低い

24GB未満の場合:低解像度(例:768)で積極的なメモリ戦術を使ってトレーニングできることもありますが、より遅い実行とより不安定な安定性を予期してください。

以下のいずれかが必要な場合はARAを使用してください:

  • 24GB1024×1024のQwen 2512をトレーニング
  • OOM問題の軽減
  • 重いCPUオフロードなしの安定した収束

7. 一般的なQwen-Image-2512 LoRA学習の問題と解決方法

7.1 起動時に量子化が失敗(Qwen-Image-2512でのARA / dtypeミスマッチ)

症状

  • トレーニングが起動中にすぐに停止。
  • 「Failed to quantize … Expected dtype …」のようなエラー。

原因

  • 選択したARAまたは量子化モードが現在のAI Toolkitビルドまたは環境と完全に互換性がない。

修正(最速順)

  1. Qwen-Image-2512をサポートすることが知られているバージョンにAI Toolkitと依存関係を更新。
  2. ARAモードを切り替え:
    • 3ビットARAが失敗 → 4ビットARAを試す。
    • 4ビットARAが失敗 → 3ビットARAを試す。
  3. 一時的に高精度の量子化モードを使用してトレーニングセットアップの残りが機能することを確認し、その後ARAに戻る。

7.2 バッチサイズ > 1でキャラクターアイデンティティが一般的になる

症状

  • 初期サンプルは有望に見えるが、最終的なLoRAは「平均化」された感じがする。
  • キャラクターが特定の人物のように見えなくなる。

原因

  • より大きなバッチは、Qwen-Image-2512 LoRA学習でキャラクターの過度の一般化を促進する可能性がある。

修正

  • Batch Size = 1Gradient Accumulation = 1を優先。
  • より大きな有効バッチが必要な場合、Batch SizeではなくGradient Accumulationを増やし、サンプルを注意深く監視。

7.3 ライクネスが「固定されない」(間違ったtimestep動作)

症状

  • 衣服、ポーズ、または雰囲気は正しいが、顔やアイデンティティが一貫していない。
  • 結果がプロンプト間で大きく異なる。

原因

  • リアルなキャラクターの場合、Qwen-Image-2512は重み付けtimestepsよりもsigmoid型timestep動作によりよく反応することが多い。

修正

  • キャラクター(および多くの場合製品)LoRAでは、Timestep Typesigmoidに切り替え。
  • 早い段階でサンプルを評価;トレーニングの終わりまで待たない。

7.4 後のチェックポイントで顔が「焼けた」またはワックス状になる

症状

  • あるチェックポイントは素晴らしく見えるが、後のものは過度にシャープ化されたり、プラスチック状、または不安定に見える。
  • アイデンティティブリードが急速に増加。

原因

  • Qwen-Image-2512 LoRA学習でのキャラクターLoRAは、画像あたり約~100繰り返しを超えると急速に劣化することがある。

修正

  1. より早いチェックポイントを選択(多くの場合最善の解決策)。
  2. 合計繰り返し/ステップを減らし、推奨範囲により近くとどまる。
  3. 必要に応じて、ステップを増やす前にLoRAランクを下げるか、より多くのデータセットの多様性を追加。

7.5 スタイルLoRAが一貫しないか「何でもフィルター」として動作

症状

  • スタイルが現れることもあれば、現れないこともある。
  • または常にプロンプトの内容を上書きする。

原因

  • スタイルLoRAは、キャラクターLoRAよりもより多くのデータセット幅とより長い全体的なトレーニングが必要なことが多い。

修正

  • より多様なスタイル例を追加(人、オブジェクト、環境)。
  • 画像あたりの繰り返しを合理的に保ち、極端な繰り返しよりも多くの画像で合計シグナルを増加。
  • スタイルが鈍いグローバルフィルターになることを避けるために頻繁にサンプリング。

8. トレーニング後のQwen 2512 LoRAの使用方法

トレーニングが完了したら、Qwen 2512 LoRAを2つの簡単な方法で使用できます:

  • Model playgroundQwen‑Image‑2512 LoRAプレイグラウンドを開き、トレーニングしたLoRAのURLを貼り付けて、ベースモデル上での動作を素早く確認。
  • ComfyUIワークフローComfyUIインスタンスを起動し、独自のワークフローを構築するか、Qwen Image 2512のようなワークフローをロードし、LoRAローダーノードを追加してLoRAを入れ、LoRAの重みやその他の設定を調整してより詳細なコントロールを行います。

Qwen 2512 LoRAの推論テスト

キャラクターテスト

  • クローズアップポートレートプロンプト
  • ミディアムショットプロンプト
  • 全身プロンプト

スタイルテスト

  • 複数の被写体カテゴリ(人/オブジェクト/環境)

製品テスト

  • クリーンなスタジオプロンプト + 1つの複雑なシーンプロンプト

その他のAI Toolkit LoRAトレーニングガイド

Ready to start training?