AI Toolkit LoRA Training Guides

Ostris AI ToolkitでのQwen 2511 LoRA学習(Qwen-Image-Edit-2511)(更新版ガイド)

このガイドでは、Ostris AI ToolkitでQwen 2511(Qwen-Image-Edit-2511)LoRAを学習し、マルチ画像のgeometry-aware編集に適用する方法をまとめます。編集データセット(コントロール + 指示 → ターゲット)の作り方、1〜3本のコントロールストリームを想定したVRAM設計、重要パラメータの調整、代表的なエラーの対処を解説します。

Train Diffusion Models with Ostris AI Toolkit

横にスクロールしてフォーム全体を表示

Ostris AI ToolkitOstrisAI-Toolkit

New Training Job

Job

Model

Quantization

Target

Save

Training

Datasets

Dataset 1

Sample

Qwen‑Image‑Edit‑2511(しばしばQwen 2511と略される)は、Qwenの「一貫性優先」画像編集チェックポイントです。画像のドリフトを抑制し、創造的な編集でもアイデンティティを保持し、画像の一部のみを編集する際に構造的な忠実性を維持するように設計されています。また、ベースウェイトに統合LoRA機能を搭載し、より強力な工業/製品デザイン出力と改善された幾何学的推論を備えており、実用的で再現可能な編集LoRAにとって特に魅力的なモデルです。

このガイドでは、Ostris AI Toolkitを使用したQwen 2511 LoRAトレーニングの方法を解説します。

この記事はAI Toolkit LoRAトレーニングシリーズの一部です。Ostris AI Toolkitが初めての方は、このガイドに入る前にAI Toolkit LoRAトレーニング概要から始めてください。

目次


1. Qwen 2511 vs 2509:何が違うのか

Qwen 2511は「きれいな画像を作る」チェックポイントではありません—指示に従う画像エディターです。Qwen 2509 LoRAトレーニングから来た方は、2511を「一貫性優先」イテレーションと考えてください:ドリフトを抑制し、アイデンティティ/構造を保持し、リクエストした部分のみに編集を限定するように調整されています(特に製品/工業デザインワークや幾何学に敏感な配置において)。

Qwen 2509からの3つの違いがQwen 2511 LoRAトレーニングに直接関係します:

第一に:より強いドリフト抵抗とアイデンティティ保持。 Qwen 2509と比較して、Qwen 2511は「変更されていない」部分をより安定して保つ傾向があり、LoRAが顔、背景、構図に誤って効果を焼き込むのではなく、よりクリーンな編集ルールを学習できます。

第二に:マルチイメージコンディショニングは依然として中核だが、コントロール信号はクリーンである必要がある。 Qwen 2509と同様に、Qwen 2511は1-3枚の参照画像と指示を提供したときに最も良く機能します。実用的な違いは、2511は適切にアラインされたコントロールストリームを報酬として与えること;ペアリングが間違っているかコントロールが弱い場合、過剰編集とドリフトが増えます。

第三に:より多くの組み込みLoRA親和性(およびより大きな特異性の必要性)。 Qwen 2511はベースウェイトにより強力な組み込みLoRA容量を備えています。これは実用的で再現可能な編集LoRAにとって素晴らしいことですが、曖昧な「何でもフィルター」にならないように、明確で狭いマッピングでトレーニングする必要があります。


2. 核心的メンタルモデル:Edit LoRAが実際に学習していること

Qwen 2511では、LoRAは変換ルールを学習しています:

「この参照画像と指示を与えられて、一貫性を保つべき部分を保持しながら編集結果を生成する。」

これが、編集データセットに3つのコンポーネントすべてが必要な理由です:

  • コントロール/参照画像: 保持すべきもの(アイデンティティ、幾何学、照明、背景—タスクが必要とするもの)
  • 指示(キャプション/プロンプト): 変更すべきことを明示的に記述
  • ターゲット画像: 変更を示す「アフター」結果

「アフター」画像のみを提供すると、モデルは何を保持すべきかの安定した信号を持たないため、ノイズの多いショートカットを学習します:アイデンティティ、背景、または構図に変更を焼き込む可能性があります。これは「LoRAが強い」ように見えますが、実際には制御されていないドリフトです。

データセットが「編集として正しい」かどうかを判断する最も簡単な方法は次のとおりです:指示を削除した場合、人間がコントロールとターゲットを比較して何が変わったかを推測できますか?もしそうなら、学習可能な編集信号があります。そうでない場合(または変更が曖昧な場合)、LoRAは脆弱になります。


3. どこでトレーニングするか:ローカルAI Toolkit vs RunComfy Cloud AI Toolkit

ローカルAI Toolkitは、すでに互換性のあるNVIDIA GPUを持っていて、CUDA/PyTorchバージョンの管理に慣れていて、ファイルとイテレーションを最大限にコントロールしたい場合に最適です。(OstrisのGitHubリポジトリからAI Toolkitをインストール:ostris/ai-toolkit。)Qwen 2511 LoRAトレーニングでは、ローカルトレーニングは完全に実行可能ですが、モデルは重く、マルチイメージコンディショニングはVRAMを急速に増加させる可能性があるため、量子化、低VRAMモード、またはより小さな解像度バケットに頼ることが多くなります。

RunComfy Cloud AI Toolkitは「セットアップをスキップ」するパスであり、Qwen 2511 LoRAトレーニングに特化した実用的な選択肢です。ブラウザで同じAI Toolkit UIを実行しますが、大きなGPUが利用可能で(環境のサプライズも少ない)。チームにとっても便利です:データセット、設定、チェックポイントは永続的なワークスペースに残るため、単発のローカル実験ではなく、製品ワークフローのように反復できます。

👉 ここで開く:RunComfyのCloud AI Toolkit


4. Qwen-Edit-2511 LoRAトレーニングのハードウェアとVRAM計画

Qwen 2511は大きなバックボーンを持ち、最良の結果を得るためにデフォルトで1024×1024で実行するように設計されています。さらに、追加の各コントロール画像ストリームがメモリ使用量を増加させます。モデルがより多くのコンディショニング情報を処理する必要があるためです。

実際には、Qwen 2511 LoRAトレーニングには3つの実行可能なティアがあります:

ティアA:24-32GB VRAM(大変だが可能)。

積極的な戦略を期待してください:低VRAMモード、勾配チェックポイント、より小さなバケット(多くの場合、768が開始点)、および量子化(ビルドが提供する場合はAccuracy Recovery Adapterオプションが理想的)。バッチサイズを1に保ち、勾配累積でスケールします。

ティアB:40-48GB VRAM(快適)。

多くの場合、1つまたは2つのコントロールストリームで1024でトレーニングでき、適度な量子化またはほぼbf16で(正確な設定に応じて)。このティアは、Qwen Edit LoRAトレーニングが「デリケート」ではなく「再現可能」になるポイントです。

ティアC:80GB+VRAM(高速、低摩擦)。

より多くのコンポーネントをbf16で維持し、マルチコントロールデータセットを快適に実行し、より頻繁にサンプリングし、迅速に反復できます—これはRunComfy Cloud AI Toolkitで大きなGPUで得られるセットアップです。

重要なアイデア:解像度とコントロールストリームの数がVRAMの最大のレバーです。行き詰まったら、学習率をランダムに調整し始める前にこれらを変更してください。


5. Qwen Editモデルで実際に機能するデータセット設計

5.1 AI Toolkit Qwen Editトレーナーに適合するフォルダ構造

90%のバグを防ぐ実用的な構造:

  • targets/ → 編集された「アフター」画像
  • control_1/ → 最初の参照画像ストリーム(多くの場合「ビフォー」画像)
  • control_2/ → 2番目の参照ストリーム(オプション;2人目/製品/背景/デザイン)
  • control_3/ → 3番目のストリーム(まれ;ワークフローが本当に必要な場合のみ)
  • captions/ → ファイル名でアラインされたオプションの.txtキャプション(またはワークフローに応じてターゲットの隣に保存されたキャプション)

重要な部分はペアリングです。AI Toolkitは、targets/0001.pngcontrol_1/0001.png(およびcontrol_2/0001.pngなど)とマッチングできる場合にのみ正しくトレーニングできます。ファイル順序が異なる場合、LoRAは間違ったマッピングを学習し、「トレーニングするがランダムに見える」結果になります。


5.2 実際のLoRAのほとんどをカバーする3つのデータセットパターン

パターンA:シングルリファレンス編集(1つのコントロール画像)。

使用対象:色変更、ローカルオブジェクト交換、リライティング、背景置換、「これを水彩画にする」など。control_1は元の画像、ターゲットは編集結果、キャプションは直接的な指示(「帽子を赤くする」)です。このパターンはトレーニングとデバッグが最も簡単です。

パターンB:マルチリファレンスフュージョン(2-3のコントロール画像)。

使用対象:人物+人物、人物+シーン、製品+背景、「この2つのアイデンティティをマージする」、またはモデルに複数のソースを保持させたい任意の状況。キャプションは各参照の役割を明確にする必要があります(「ref1から人物を使用、ref2から背景を使用」)。

パターンC:デザイン挿入トリプレット(空白+デザイン→適用)。

これは商業作業で最もROIの高いデータセットパターンです:シャツにロゴ、製品にステッカー、布にパターン、パッケージにラベル。control_1はデザインなしの製品/人物、control_2はデザイン画像、ターゲットは最終的な「デザイン適用」画像です。この分離により、LoRAに何を保持するか(幾何学/照明/素材)vs何を変更するか(デザイン領域)を正確に教えます。


5.3 役立つ(害を与えない)キャプション

Edit LoRAの場合、キャプションは説明ではなく指示として動作する必要があります。「屋外でシャツを着た男性」は役に立ちません;「提供されたロゴを胸の中央に配置し、布のしわと照明を保持する」は役立ちます。

良い指示キャプションには通常、以下が含まれます:

  • 意図された変更
  • 保持すべきもの
  • 配置または幾何学の制約(特にデザイン挿入の場合)

データセット全体でキャプションを一貫して保持します。一貫性によりマッピングが学習しやすくなり、推論時にLoRAがより制御可能になります。


5.4 何サンプル必要か?

狭く再現可能な編集(ロゴ挿入、特定のリライティングルール、一貫した素材変換)の場合、多くの場合20-60の適切に構築されたトリプレットから始めることができます。より広いスタイル化やマルチサブジェクトフュージョンの場合、「一貫性を保つべきもの」の空間が大きいため、60-200+の例を計画してください。

不確かな場合は、8-12サンプルの「スモークテスト」セットから小さく始めてください。スモークテストの目標は品質ではありません—長い実行に投資する前に、ペアリングとコントロール配線が機能することを確認することです。


6. ステップバイステップ:AI ToolkitでQwen 2511 LoRAをトレーニングする

6.1 AI Toolkitでデータセットを作成(Targets + Control Streams)

DATASETSで(フォルダ構造ロジックについてはセクション5を参照):

  • targets/のデータセットを作成し、使用する場合はcontrol_1 / control_2 / control_3を追加します。
  • ターゲットとコントロール間でカウントとファイル名のペアリングが一致することを確認します(〜10サンプルをスポットチェック)。
  • キャプションを使用する場合は、キャプション拡張子(通常は.txt)を設定し、キャプションファイル名をターゲットと一致させます。

6.2 新しいジョブを作成

JOBで:

  • 後で認識できるトレーニング名を選択します。
  • 単一のキーワードでLoRAを「呼び出し可能」にしたい場合にのみトリガーワードを設定します。多くのEdit LoRAでは、指示自体で十分であり、トリガーはオプションです。
  • 最初の実行ではStepsを控えめに設定します(完璧な最終モデルではなく、セットアップを検証しています)。

MODELで:

  • Qwen Image Edit "Plus"アーキテクチャ(マルチイメージ編集バリアント)を選択します。
  • Name or Path – ベースチェックポイントのHugging Face model id(repo id)、例:Qwen/Qwen-Image-Edit-2511

    ほとんどのAI Toolkitビルドでは、モデルアーキテクチャを選択するとこの値が自動入力されます;変更する理由がない限りそのままにしてください。

  • GPUがサポートしている場合はbf16を使用;そうでない場合はFP16も機能しますが、利用可能な場合はbf16の方が通常安定しています。
  • 必要な場合にのみ「Low VRAM」またはオフロードオプションを有効にします;可能な場合はシンプルに開始します。

QUANTIZATIONで(必要な場合のみ):

  • 24-32GBの場合、まずトランスフォーマー/バックボーンを量子化します。ビルドがQwen 2511の「with ARA」オプションを提供している場合、より多くの品質を維持する傾向があるため、プレーンな低ビット量子化よりも優先してください。
  • トランスフォーマー量子化後もVRAMがタイトな場合にのみ、テキストエンコーダー/コンディショニング側を量子化します。

TARGET / NETWORKで(LoRA設定):

  • 適度なランクから始めます。「ルールのような」編集(ロゴ挿入、リライティング)の場合、極端なランクは必要ないことが多いです。
  • ビルドが別々のリニア/コンブランクを公開している場合、特定のタスクに役立つという証拠がない限り、コンブを控えめに保ちます。過剰パラメータ化はオーバーフィッティングとドリフトへの早道です。

TRAININGで:

  • Batch Size = 1を維持し、必要に応じて効果的なバッチを増やすためにGradient Accumulationを使用します。
  • VRAMが制限されている場合はAdamW 8-bitから始めます。
  • ビルドが提供するQwen推奨/デフォルトのスケジューラー設定を使用します(Qwen Editジョブではこれはフローマッチングスケジューラーであることが多い)。
  • 言語動作を適応させる特定の理由がない限り、最初の成功した実行では「train text encoder」をオフのままにしてください。ほとんどの実用的なEdit LoRAはバックボーン/トランスフォーマーの適応のみが必要です。
  • VRAMがタイトな場合はGradient Checkpointingをオンにします。

DATASETS / RESOLUTIONS (Buckets)で:

  • 可能であれば、1024はQwen Editの品質のための強力なデフォルトです。
  • VRAMが制限されている場合は、最初の実行で768を使用し、パイプラインが正しく配線されていることを確認した後でスケールアップします。
  • マッピングを不整合にする混沌とした分布ではなく、小さなバケットセット(例:768と1024)を優先します。

SAMPLE / PREVIEWSで:

サンプリングは早期警告システムです。実際のユースケースを表す1-3のプレビュープロンプトを設定し、チェックポイントを視覚的に比較できるように常に同じ固定コントロール画像とシードを使用します。

初期実行のための良いサンプリング頻度:

  • 早期に100-250ステップごとにサンプル
  • 250-500ステップごとにチェックポイントを保存
  • ディスクの膨張を避けるために最近のチェックポイントのみを保持

6.3 トレーニングが機能しているかどうかを知る方法

〜200-500ステップで、次のうち少なくとも1つを確認する必要があります:

  • 編集が一貫して発生し始める
  • 保持された部分(アイデンティティ/背景/幾何学)が「ランダム生成」よりも安定している
  • 変更がキャプション指示に方向的に一致している

ノイズのみが表示される場合、またはモデルがコントロールを無視する場合、最初に学習率で「修正」しないでください。まずペアリング、コントロール配線、およびzero_cond_tを修正してください。


7. 2511固有のスイッチ:zero_cond_t

これは重要な2511固有の詳細です。zero_cond_tは、モデルが1つのデノイズされたストリーム(生成される画像)とコンディショニングストリーム(参照/コントロール画像)を持つ場合に、タイムステップがストリーム間でどのように適用されるかを変更します。zero_cond_tが有効な場合、コンディショニング画像はクリーンな参照(実質的にタイムステップ0)として扱われ、メイン画像は通常の拡散タイムステップスケジュールに従います。

コンディショニング画像がメインストリームと一緒に「ノイズを加える」場合、モデルはアイデンティティ/構造に対してより弱く、ぼやけた参照を持ちます。これは直接ドリフトを増加させ、編集の忠実度を低下させます。コントロールをタイムステップ0に保持することは、「参照を保持する」目標に沿ったクリーンなエンジニアリングの選択です。

Qwen 2511では、zero_cond_tをハイパーパラメータではなく互換性要件として扱います:

  • トレーニングで有効にします。
  • 推論でも有効にしたままにします。
  • 結果が2511で知られているよりも予想外にドリフトしているように見える場合、これが最初にチェックすべきことです。

8. よくあるトレーニング失敗とその対処法

8.1 "Missing control images for QwenImageEditPlusModel"

これが表示された場合、AI Toolkitはトレーニング時にコントロール画像を受け取らなかったことを伝えています。最も一般的な原因は:

  • ターゲットデータセットを添付したが、データセット/ジョブ配線でcontrol_1 / control_2を割り当てなかった
  • コントロールフォルダパスが間違っているか空
  • ターゲット/コントロールのカウントが一致しないため、一部のサンプルでコントロールがロードに失敗する

コントロールを明示的にすることで修正します:データセット割り当てを再確認し、フォルダパスを確認し、ファイル名/カウントがストリーム間で一致していることを確認します。


8.2 "tuple index out of range" / トレーニング初期のテンソルシェイプエラー

これはほぼ常に、ローダーが画像テンソルを期待したがNoneまたは予期しないシェイプを取得したことを意味します。根本的な理由は通常つまらないですが修正可能です:

  • 破損した画像ファイル
  • サポートされていない画像モード(CMYK、グレースケール)
  • 特定のインデックスに対するコントロール画像の欠落(ペアリングミスマッチ)

修正ループは次のとおりです:データ整合性を検証→ペアリングを検証→大きなジョブを再起動する前に小さなスモークテスト(3-5サンプル)を実行。


8.3 KeyError: 'pixel_values'(多くの場合グレースケール画像が原因)

Qwen Editパイプラインは通常RGB画像を期待しています。グレースケール画像(シングルチャネル)は特徴抽出を破壊し、pixel_valuesエラーを引き起こす可能性があります。データセット画像を標準の3チャネルRGB PNG/JPGに変換して再試行してください。


8.4 Out of memory (OOM)、特にサンプリング中

マルチイメージ編集トレーニングは、追加のフォワードパスを実行し、より大きな中間バッファを使用する可能性があるため、プレビューサンプリング中にVRAMがスパイクする可能性があります。

この順序でOOMを修正します:

  1. プレビュー頻度またはプレビュー解像度を下げる
  2. バッチサイズを1に保ち、勾配累積を増やす
  3. バケットを減らす(または768に下げる)
  4. 量子化/オフロードを有効にする
  5. デバッグ中は一時的に少ないコントロールストリームでトレーニングする
  6. ローカルでまだOOMの場合、RunComfy Cloud AI Toolkitで同じジョブをより大きなGPUで実行する

8.5 LoRAがロードされるが「何もしない」(またはComfyUIでキーが欠落してロードされる)

LoRAが何もしない場合、通常は次のいずれかです:

  • トレーニングされたアーキテクチャとは異なるアーキテクチャにロードしている
  • LoRAスケールが低すぎて気付かない
  • 推論スタックが期待するものとトレーナーが保存したものとの間にキープレフィックスの不一致がある

特にQwen LoRAで欠落キーの警告が表示される場合、既知の回避策はLoRAステートディクトのキープレフィックスを書き換えることです(例:diffusion_model.キーをtransformer.キーにマッピング)。AI ToolkitビルドとComfyUIノードの両方が最新の場合、これはすでに修正されている可能性があります—ただし、系統的な「keys not loaded」問題が見られる場合は最初に試すことです。


9. トレーニング済みLoRAの使用(Playground + ComfyUI)

トレーニングが完了したら、Qwen 2511 LoRAを検証する最速の方法はQwen‑Image‑Edit‑2511 LoRA Playgroundにロードすることです;実際の作業用に再現可能なノードグラフが必要な場合は、Qwen‑Image‑Edit‑2511 ComfyUIワークフローから始めてLoRAを差し替えてください。


その他のAI Toolkit LoRAトレーニングガイド

Ready to start training?