AI Toolkit LoRA Training Guides

Ostris AI ToolkitでのQwen-Image-Edit-2509 LoRA学習

このチュートリアルは、Ostris AI ToolkitでQwen-Image-Edit-2509 LoRAを学習し、マルチ画像のgeometry-aware編集に適用する方法をまとめます。try-on、リライト、オブジェクト置換のためのトリプレットデータセット構築、3-bit ARA量子化とLow VRAMモードの使い方、DOP(Differential Output Preservation)を含む主要設定をVRAM規模(<10GB〜H100/H200)に合わせて調整する手順を紹介します。

Train Diffusion Models with Ostris AI Toolkit

横にスクロールしてフォーム全体を表示

Ostris AI ToolkitOstrisAI-Toolkit

New Training Job

Job

Model

Quantization

Target

Save

Training

Datasets

Dataset 1

Sample

Qwen‑Image‑Edit‑2509は、最大3枚の画像(ターゲット、コントロール、デザイン)を同時に処理して、正確で形状を認識した編集を実行できる20Bパラメータのマルチイメージ編集モデルです。このガイドでは、Qwen Edit 2509 の LoRA 学習方法を紹介します。このチュートリアルを終えると、以下のことができるようになります:

  • AI Toolkit by Ostrisを使用してQwen Edit 2509 の LoRA 学習を完了し、信頼性の高いターゲット編集タスク(例:任意のデザインをシャツにプリント)を実現する。
  • ローカル10GB未満のVRAMでもレイヤーオフロードで可能)、またはブラウザでRunComfyのCloud AI Toolkit(H100/H200、80GB/141GB VRAM)を使用して、Qwen-Image-Edit-2509 の LoRA 学習ワークフロー全体を実行する。
  • このモデルの重要なパラメータの理由を理解する:Match Target ResLow VRAMオプション、Transformer/Text Encoderの量子化Layer OffloadingCache Text EmbeddingsDifferential Output PreservationDifferential Guidance、そしてBatch SizeStepsLoRA Rankなどのコア・ハイパーパラメータ。
  • 自分の独自の編集LoRA(リライティング、服の試着、スキン、オブジェクト置換...)のための設定を自信を持って調整する。

より新しいチェックポイントと「一貫性優先」の編集動作を求めている場合は、Qwen 2511 LoRAトレーニングを参照してください。

この記事はAI Toolkit LoRAトレーニングシリーズの一部です。Ostris AI Toolkitを初めて使う方は、このガイドに進む前にAI Toolkit LoRAトレーニング概要から始めてください。

目次

1. Qwen‑Image‑Edit‑2509概要:この編集モデルでできること

Qwen‑Image‑Edit‑2509(Qwen Edit 2509またはQwen Image Edit Plusと略されることが多い)は、Qwen‑Image‑Editモデルの2025年9月バージョンです。20B Qwen‑Imageベースの上に構築されており、公式ウェイトはHugging FaceのQwen‑Image‑Edit‑2509モデルページで入手できます。

最初のQwen‑Image‑Editリリースと比較して、2509では以下が追加されています:

  • マルチイメージ編集 – モデルは1〜3枚の入力画像を同時に処理できます(例:人物+服+ポーズ、またはソース写真+ライティング参照)。
  • 画像連結動作 – 公式パイプラインでは、各入力画像は約1メガピクセルにリサイズされてから一緒に処理されます。複数のコントロールを提供しても、モデルが見るのは固定されたピクセル予算です。
  • より良いテキストと詳細の編集 – Qwen2.5-VLと専用VAEを搭載し、小さなテキスト、ロゴ、細かいディテールをはるかにうまく処理します。

すでにQwenEdit2509 LoRA学習を使用している典型的なLoRAユースケース:

Qwen‑Image‑EditとQwen‑Imageは本質的に同じベースを共有しています。コミュニティのテストでは、Qwen‑Imageでトレーニングされたは Qwen‑Image‑Edit / 2509と互換性があり、逆もまた然りです。なぜならアダプターは同じバックボーンに接続されるからです。


2. 環境オプション:ローカルAI Toolkit vs RunComfyのCloud AI Toolkit

2.1 ローカルAI Toolkit(自分のGPU)

AI Toolkit GitHubリポジトリからAI Toolkitをインストールし、Web UIを実行します。すでに24GB以上のNVIDIAカードを持っていて、CUDA/ドライバー/ディスク容量の管理に慣れていて、トレーニングを一晩中実行しても構わない場合は、ローカルトレーニングが良い選択です。


2.2 RunComfyのCloud AI Toolkit(H100/H200)

RunComfyのCloud AI Toolkitを使用すると、AI Toolkitは完全にクラウドで実行されます:

  • 何もインストールする必要がありません – ブラウザを開いてログインするだけで、AI Toolkit UIに入れます。
  • H100(80GB)やH200(141GB)などの大型GPUにアクセスでき、重いQwen Edit 2509 の LoRA 学習タスクに対応できます。
  • 永続的なワークスペースを取得 – データセット、設定、過去のジョブがアカウントに紐付けられるので、いつでも戻って繰り返すことができます。

👉 ここから開く:RunComfyのCloud AI Toolkit

このチュートリアルの残りの部分は両方の環境で同じように動作します。違いはGPUが存在する場所だけです。


3. Qwen Edit 2509 の LoRA 学習のためのハードウェアとVRAM要件

Qwen‑Image‑Edit‑2509は重いモデルです:

  • ベースモデルは約20Bパラメータ
  • 編集パイプラインは最大3×〜1MP画像を一度にトランスフォーマーに通すことができます。

2509の標準32GBサンプル設定train_lora_qwen_image_edit_2509_32gb.yaml)では、ユーザーは約以下を報告しています:

  • 1024×1024トレーニング27〜28.5GB VRAM
  • 768×768トレーニング25〜26GB VRAM – 24GBではまだ不足。

そのため、公式の例は明示的に32GB設定です。しかし、3ビットARA量子化+Low VRAMモード+Layer Offloading(RAMTorch)を使用すると、OstrisはQwen Edit 2509 の LoRA 学習のGPU VRAMを〜8〜9GBまで下げられることを示しています。代わりに高いCPU RAM(60GB以上)と遅いトレーニングが必要です。

ティア 場所 ハードウェア例 状況
低VRAM(〜10〜12GB) ローカル RTX 3060 12GB、4070など QUANTIZATIONパネルで量子化を必ず有効にし(ベースモデルに3ビットARA)、積極的なLayer Offloadingを使用する必要があります。〜8〜9GB GPU VRAMと60GB以上のCPU RAMを想定し、中程度のCPUで〜10〜12秒/ステップ。この設定(2つのコントロールストリーム)は1024×1024まで快適にトレーニングできます。このティアでは1024²を実用的な最大解像度と考えてください。
きつい24GB ローカル RTX 3090/4090/5090 24GBは、オフロードなしで1024²で2つのコントロールを持つ標準32GB Qwen‑Edit LoRA設定を実行できません(ピーク〜24.7GB VRAM)。3ビットARA、勾配チェックポイント、および/または部分オフロードなどのLow VRAMトリックがまだ必要です。オフロードを追加しない限り、2つのコントロールで768×768を実用的な最大ターゲット解像度と考えてください。
快適な32GB ローカル RTX 4090 32GB、新しいカード これは公式のtrain_lora_qwen_image_edit_32gb.yamlが対象としているティアです:3ビットARA量子化、1024²解像度バケット、中程度のLoRAランク、オフロードなし。32GBあれば1024×1024(2〜3つのコントロールストリーム)を通常の作業解像度として扱えます。
高VRAM(80〜141GB) RunComfyのCloud AI Toolkit H100 80GB/H200 141GB 設定をシンプルに保ち(量子化オン、オフロードオフ)、より大きなバッチ(4〜8)を使用し、デフォルトで1024×1024でトレーニングでき、OOMを心配する必要はありません。このティアでは、やや高い解像度(例:1280〜1536px)を試すこともできますが、1024²が最も安全で最もテストされたターゲットサイズです。

完全なオフロードを使用した4090では、Ostrisの例は〜9GB VRAMと〜64GB CPU RAMに達し、〜5kステップを約1日で実行します。オフロードなしの5090では、イテレーションは約2〜3倍速くなります。


4. Qwen Edit 2509 の LoRA 学習データセットの構築

Ostrisのウォークスルーの「シャツデザイン」の例を参考にし、他のタスクに適応できるように一般化します。

4.1 3つの論理的な画像ストリーム

服デザインLoRAの場合、モデルは以下を学習する必要があります:無地のシャツを着た人とデザイン画像が与えられたら、ポーズ、照明、シワを保持しながらこのデザインをシャツにプリントする

  • ターゲット画像(結果として欲しいもの)デザインがすでにプリントされたシャツを着ている人。これらはモデルに再現してほしい出力です。
  • コントロール画像(無地のシャツ、同じ人) – ターゲットと同じ被写体とポーズですが、デザインがない(または無地のシャツを着ている)。これらはジオメトリ、シワ、照明、オクルージョン(腕、髪、ネックレスなど)を制御します。
  • デザイン画像 – ニュートラルな背景(グレー、黒、または白)にデザイン自体。ロバスト性を高めるためにいくつかのバリエーション(異なる背景色)を含めることができます。

Ostrisの例では、約26組のトリプレット(人物+無地シャツ+デザイン)で非常に強いパフォーマンスを得るのに十分でした。QRコードや複雑なロゴも布に正しくマッピングされます。プロダクションLoRAの場合、20〜60組の厳選されたトリプレット(ターゲット+コントロール+デザイン)から始めるのが良いベースラインです。


4.2 解像度とアスペクト比

Qwen‑Image‑Edit‑2509:

  • 各入力を内部で約1MP(例:1024×1024または同等)にリサイズします。
  • トレーニング画像が正方形または正方形に近い(ここでは1024×1024を使用)、または一貫したアスペクト比(例:すべて3:4)の場合に最もよく機能します。

このチュートリアルでは、バケッティングを簡単にするために正方形の画像を想定しています:

  • ターゲット、コントロール、デザインすべて約1024×1024。AI ToolkitはDATASETSパネルで有効にしたものに応じて512/768/1024バケットに分類します。

4.3 キャプション

この服デザインLoRAでは、画像ごとのキャプションは使用せず、データセットレベルで単一のデフォルトキャプションのみを使用します:put this design on their shirt

これが機能する理由:

  • セマンティクスがシンプルで、すべてのサンプルで同じ。
  • コントロール画像とデザイン画像が興味深い情報の大部分を運ぶ。

より複雑な編集LoRA(「スタジオリムライトのようにリライト」vs「ゴールデンアワー」など)の場合は、目的の編集を説明する画像ごとのキャプションを使用する必要があります。


5. ステップバイステップ:AI ToolkitでQwen Edit 2509 の LoRA 学習を行う

5.1 ステップ0 – AI Toolkitをどこで実行するかを選択

このチュートリアルでは、AI Toolkitを2つの方法で実行できます:

  • ローカルAI Toolkit(自分のGPU) – AI Toolkitをインストールし、Web UIを実行し、ローカルで開きます。少なくとも10〜12GB VRAMのNVIDIA GPU(24GB以上推奨)と十分なCPU RAM(Layer Offloadingを使用する場合は理想的には64GB以上)があることを確認してください。
  • RunComfyのCloud AI ToolkitRunComfyのCloud AI Toolkitにログインします。クラウドで実行されているAI Toolkit UIに直接入ります。Training Queueからジョブを開始するときにH100(80GB)またはH200(141GB)マシンを選択します。

5.2 ステップ1 – AI Toolkitでデータセットを作成

AI Toolkit UIで、Datasetsタブを開きます。

3つのデータセットを作成します(名前は例です):

  • shirt_target
  • shirt_control
  • shirt_design

各データセットが明確な役割を持つように画像をアップロードします:

  • shirt_targetデザイン付きのシャツを着ている人の写真20〜60枚。
  • shirt_control – 同じ人と同じポーズでデザインなし(または無地のシャツ)。
  • shirt_design – シンプルな背景(グレー、黒、または白)の正方形のデザイン画像。

.txtファイルとしてキャプションを準備していない場合は、画像ごとのキャプションは今のところ空のままにします。後でジョブレベルで単一のデフォルトキャプションを追加します。

重要なペアリングに関する注意

ターゲット画像とコントロール画像は、可能な限り順番にペアリングする必要があります(同じ人、同じポーズ)。ペアリングを安定させるために、フォルダ間で一致するファイル名を使用してアルファベット順が揃うようにします。例:shirt_target/img_0001.jpgshirt_control/img_0001.jpgshirt_design/img_0001.png。各ターゲット画像には、同じインデックスの対応するコントロール画像とデザイン画像が必要です。


5.3 ステップ2 – 新しいジョブを作成

New Jobタブを開きます。表示される順に各パネルを設定しましょう。


5.3.1 JOBパネル – ジョブ名、GPU、トリガーワード

  • Training Name – 説明的な名前を設定します。例:qwen_edit2509_shirt_lora_v1。これがジョブ名とチェックポイントが保存されるフォルダ名になります。
  • GPU ID – ローカルインストールでは、マシン上のGPUを選択します。RunComfyのCloud AI Toolkitでは、GPU IDをデフォルトのままにします。実際のマシンタイプ(H100/H200)は、Training Queueからジョブを開始するときに選択します。
  • Trigger Word – 推論時に入力したいフレーズを入力します。例:put this design on their shirt。データセットのキャプションでは、[trigger]をプレースホルダーとして使用できます。AI Toolkitはトレーニング中に[trigger]をTrigger Wordに置き換えます。明確なトリガーフレーズは、LoRAのクリーンなオン/オフスイッチを提供します:それを含まないプロンプトは、特に後で推奨されるDifferential Output Preservation(DOP)を有効にしている場合、ベースのQwen‑Image‑Edit‑2509の動作に近い状態を維持する必要があります。

5.3.2 MODELパネル – ベースモデルとVRAMオプション

  • Model ArchitectureQwen‑Image‑Edit‑2509を選択。
  • Name or Path – ベースチェックポイントのHugging Face model id(repo id)。例:Qwen/Qwen-Image-Edit-2509

    ほとんどのAI Toolkitビルドでは、Qwen‑Image‑Edit‑2509を選択するとこの値が自動入力されます。変更する理由がない限り、そのままにしてください。

Optionsで:

  • Low VRAM24GB VRAM以下のGPUの場合はONにします。これにより、バックボーン内で追加のチェックポイントとメモリ節約トリックが有効になり、大きなQwenモデルが収まりやすくなります。
  • Match Target Res – Qwen Edit 2509 の LoRA 学習ジョブではONにします。これにより、コントロール画像がターゲット画像と同じ解像度バケット(例:768×768または1024×1024)にリサイズされます。編集ジオメトリを揃え、過大なコントロールでVRAMを無駄にするのを防ぎます。
  • Layer Offloading – これを安全弁として扱います。Low VRAMと量子化を有効にした後もCUDA OOMが発生する場合は、非常に小さなGPUでONにします。これにより、いくつかのレイヤーがCPU RAMにオフロードされますが、ステップが遅くなります。24GB以上またはRunComfyのクラウドGPUでは、最高の速度のためにOFFのままにします。

5.3.3 QUANTIZATIONパネル – 大きなトランスフォーマーへの対応

Qwen‑Image‑Edit‑2509は十分に大きいため、量子化はほぼ常に良いアイデアです。

  • Transformerfloat8 (default)に設定。AI Toolkitでは、これは通常3ビットARAベースと8ビット「リカバリ」アダプターに対応し、3ビットモデルに近いVRAM使用量でフル精度に近い品質を得ることができます。
  • Text Encoder – 同様にfloat8 (default)に設定。テキストエンコーダーは大きく、fp8で実行すると最小限の品質損失で多くのVRAMを節約できます。

UIでARAファイルを手動で設定する必要はありません。float8オプションを選択するだけで十分です。


5.3.4 TARGETパネル – LoRAタイプとランク

このパネルは、LoRAをトレーニングしていることと、それがどれだけの容量を持つべきかをAI Toolkitに伝えます。

  • Target TypeLoRAを選択。
  • Linear Rank – Qwen Edit 2509 の LoRA 学習では、32が強力なデフォルトです。「このデザインをシャツにプリントする」のような動作には十分に表現力があり、トレーニングとロードも軽量です。非常に小さなGPUでは16に下げることができます。より複雑な動作には48〜64を試すことができます(より高いランクでは過学習に注意してください)。

5.3.5 SAVEパネル – チェックポイントタイプと頻度

  • Data TypeBF16を選択。Qwen‑Image‑Edit‑2509は通常bfloat16で実行され、LoRAウェイトをBF16で保存すると互換性があり適度に小さくなります。
  • Save Every250ステップが実用的なデフォルトです。250トレーニングステップごとにチェックポイントを取得します。
  • Max Step Saves to Keep4は最後の4つのチェックポイントを保持し、古いものを自動的に削除してディスクがいっぱいにならないようにします。

5.3.6 TRAININGパネル – コアハイパーパラメータ

TRAININGパネルは、Qwen‑Image‑Edit‑2509をどれだけ積極的にファインチューニングするかを制御します。

単一データセットLoRA(768〜1024pxの10〜40画像)の推奨開始値:

  • Batch Size – デフォルトで1に設定。非常に大きなGPU(A100/H100/H200ティア)でのみ2を使用。
  • Gradient Accumulation1から開始。VRAMを増やさずにより大きな有効バッチサイズが必要な場合は、これを2〜4に増やします。有効バッチサイズ = Batch Size × Gradient Accumulation
  • Steps2500〜3000を使用。〜20〜30トリプレットのシャツデザイン例では、3000がうまく機能します。データセットが非常に小さい(<15画像)場合は、過学習を避けるために1500〜2200を検討してください。
  • OptimizerAdamW8Bitを選択。8ビットAdamは標準のAdamWのように動作しながらメモリを大幅に削減します。
  • Learning Rate0.0001に設定。トレーニングがノイジーまたは不安定に見える場合は、0.00005に下げます。
  • Weight Decay0.0001に設定して、小さなデータセットでLoRAがあまり離れないようにする軽い正則化として機能します。
  • Timestep TypeWeightedに設定。これにより、Qwen‑Image‑Editにとって最も重要なノイズレベルに向けてトレーニングがバイアスされます。
  • Timestep BiasBalancedに設定。非常に早いまたは非常に遅いタイムステップを過度に強調しない安全なデフォルトです。
  • Loss TypeMean Squared Errorのままにします。拡散/rectified-flowスタイルのトレーニングの標準的な選択です。
  • EMA(Exponential Moving Average → Use EMA) – LoRAではOFFのままにします。EMAは完全なモデルをトレーニングする場合により有用です。

5.3.7 正則化とテキストエンコーダーセクション(TRAININGパネルの右側)

TRAININGパネルの右側には、2つの重要な領域があります:Text Encoder OptimizationsRegularization

Text Encoder Optimizations

  • Cache Text EmbeddingsQwen‑Image‑Edit + Differential Output Preservation(DOP)の場合、これはOFFのままにする必要があります。DOPは各バッチで内部的にプロンプトテキストを書き換えるため、キャッシュされたエンベディングは実際のプロンプトと一致しなくなります。DOPがOFFでキャプションが静的な場合は、Cache Text EmbeddingsONにして、すべてのキャプションを一度エンコードし、エンベディングをディスクに保存してから、テキストエンコーダーをVRAMから解放できます。
  • Unload Text Encoder(Unload TE) – これは特別なトリガーのみのモードです。ONにすると、AI ToolkitはTrigger WordSampleプロンプトのエンベディングを一度だけキャッシュし、テキストエンコーダーをVRAMからアンロードし、すべてのデータセットキャプションを無視します。通常のキャプションに依存するQwen‑Image‑Edit‑2509 LoRA(特にDifferential Output PreservationがONの場合)では、Unload TEOFFのままにする必要があります。

キャプションドロップアウトはトレーニング中にランダムにキャプションを削除することで実装されるため、各ステップで新鮮なテキストエンコーディングに依存します。Cache Text Embeddingsを有効にする場合は、DATASETSパネルでCaption Dropout Rate = 0に設定して(下記参照)、キャッシュされたエンベディングと意図されたドロップアウト動作の間に不一致がないようにする必要があります。

Regularization → Differential Output Preservation

  • Differential Output Preservation – ほとんどの実際のプロジェクトではONにします。これはQwen‑Image‑Editにとって重要です:トリガーフレーズがない場合はベースモデルが正常に動作し、トリガーが存在する場合にのみあなたの動作を注入します。
  • DOP Loss Multiplier – 最初は1のままにします。非トリガープロンプトにスタイルが漏れすぎている場合は、少し増やすことができます。
  • DOP Preservation Class – 最も頻繁に編集するものを説明する中立的なクラスワードを使用します。人物中心の編集にはpersonが良いデフォルトです。製品のみの編集にはproductobjectのようなものを使用します。

DOPがキャプションとTrigger Wordにどう関連するか:

  • キャプションが"[trigger] a person walking down the street, wearing the design on their shirt"だとします
  • Trigger Word = put this design on their shirt
  • DOP Preservation Class = person

AI Toolkitは内部で2つのプロンプトを作成します:

  1. put this design on their shirt a person walking down the street, wearing the design on their shirt – LoRAパス。
  2. person a person walking down the street, wearing the design on their shirt – ベースモデルパス。

LoRAはこれら2つの差分のみでトレーニングされます。トリガーフレーズのない生成は、DOPがその動作を明示的に保持するため、バニラQwen‑Image‑Edit‑2509にはるかに近いままです。

  • Blank Prompt Preservation – 空のプロンプトの動作を保持する非常に特別な理由がない限り、OFFのままにします。

5.3.8 ADVANCEDパネル – Differential Guidance

  • Do Differential GuidanceONにします。
  • Differential Guidance Scale3から開始。

Differential GuidanceはAI Toolkit固有のトリックで、LoRAが見るエラー信号をスケールします。より大きなスケールは「ここが間違っている」信号をより大きくするため、LoRAは通常、学習率を上げることなく、目的の変更をより速く学習します。

トレーニングの早い段階でサンプルが不安定または過度に「シャープ」に見える場合は、2に下げます。学習が非常に遅いと感じる場合は、後で4を試すことができます。


5.3.9 DATASETSパネル – ターゲット、コントロール、デザイン画像の接続

Qwen Edit 2509 の LoRA 学習では、少なくとも1つのターゲットデータセット1つのコントロールデータセットを提供する必要があります。

Dataset 1内:

  • Target Dataset出力/編集後のデータセット、つまり「LoRA動作を適用した後」を表す画像を選択します。
  • Control Dataset 1入力画像(編集したい元の写真)を含むデータセットを選択します。各ファイルは名前でターゲット画像と一致する必要があります(例:scene_001.pngscene_001.png)。
  • Control Dataset 2 / 3 – これらはオプションです。シャツLoRAの場合、Control Dataset 2shirt_designに設定して、モデルがロゴやアートワークを2番目のコントロールストリームとして認識するようにします。深度マップやキーポイントなどの追加条件がない限り、コントロールスロットは空のままにします。
  • LoRA Weight – データセットを追加しない限り1のままにします。データセットを追加する場合は、ここで影響を再バランスできます。
  • Default Caption – 画像にすでに.txtキャプションがある場合は、空のままにできます。そうでなければ、以下のようなものを入力します:

    "[trigger] put this design on their shirt, full‑body street photo"

    覚えておいてください:[trigger]はJOBパネルのTrigger Wordに置き換えられます。

  • Caption Dropout Rateテキストエンベディングをキャッシュしていない場合0.05が良い開始値です。約20ステップに1回キャプションを無視するので、モデルは正確な言い回しに過学習しません。TRAININGパネルでCache Text EmbeddingsONにする予定の場合は、Caption Dropout Rate = 0に設定します。ドロップアウトは各ステップでキャプションを再エンコードする必要があり、キャッシュされたエンベディングでは正しく機能しないためです。
  • Settings → Cache LatentsONにします。AI Toolkitは各ターゲット画像を一度VAEレイテントにエンコードして再利用するため、キャッシュ後にGPUから重いVAEを削除し、トレーニングを大幅に高速化します。
  • Settings → Is Regularization – メインデータセットではOFFのままにします。後で純粋に正則化画像用の2番目のデータセット(例:一般的な人物写真)を追加する場合は、その2番目のデータセットのIs RegularizationONに設定します。
  • Flipping(Flip X / Flip Y) – ほとんどの人物/製品LoRAでは両方ともOFFのままにします。ミラーフリップが被写体に安全であることが確実でない限り(Flip Xはシャツのテキストをミラーリングします)。
  • Resolutions – Qwen‑Image‑Editでトレーニングしたいバケットを有効にします。例:5127681024。768は多くのQwen LoRAのスイートスポットです。512と1024を追加すると、わずかな解像度の変化に対してトレーニングがロバストになります。

Add Datasetで追加のデータセット(例:LoRA Weight < 1の正則化データセット)を追加できますが、「このデザインをシャツにプリント」のほとんどのユースケースでは、1つのターゲット+1つまたは2つのコントロールセットを持つ単一のDataset 1で十分です。


5.3.10 SAMPLEパネル – トレーニングプレビュー

SAMPLEパネルは、トレーニング中の定期的なプレビューを制御します。これらのサンプルはトレーニング損失に影響しません。監視専用です。

  • Sample Every250に設定して、250ステップごとにプレビューを生成し、チェックポイントスケジュールとうまく整合させます。
  • Width / Height – メインのトレーニング解像度と一致させます。例:1024 × 1024または768 × 1024、データセットに応じて。
  • Seed42のような安定したシードを選択します。各プレビューバッチで連続したシードを使用してより多くのバリエーションを表示したい場合は、Walk Seedを有効にできます。
  • SamplerFlowMatch(またはビルドのデフォルトQwenサンプラー)を選択します。これはTRAININGで使用されるFlowMatchスケジューラと一致する必要があります。
  • Guidance Scale – プレビューでは4に設定します。後でComfyUIや他のUIで推論する場合、通常は3〜6の間で実験します。
  • Sample Steps – 約25ステップがプレビューの品質対速度の良い妥協点です。
  • Advanced SamplingSkip First SampleForce First SampleDisable SamplingはすべてOFFのままにできます。デバッグ中またはプレビューなしで最大速度が必要な場合にのみDisable SamplingONにします。
  • Sample Prompts – LoRAの現実的なユースケースを表す4〜8個のプロンプトを追加します。

5.4 ステップ3 – トレーニングを開始して監視

ジョブを設定したら、Training Queueタブに移動し、ジョブを選択して、実行の準備をします。

Start / Playをクリックして、主に2つのことを監視します:

  • GPU VRAM / CPU RAM – 特にLayer Offloadingを使用する低VRAMカードでは、システムRAM使用量に注意してください。
  • サンプル画像 – デザインはシャツに残り、シワとポーズに従う必要があります。画像全体に広がり始めたり、色が極端になったりした場合は、早期に停止するか、合計ステップを減らすことを検討してください。

6. VRAMティア別の推奨Qwen Edit 2509 の LoRA 学習設定

24GBローカルGPUとすべてのH100/H200クラウド実行のための安全なデフォルトが1つだけ必要な場合は、セクション3〜6の設定を使用します:Low VRAM = ONTransformer/Text Encoder量子化 = float8Batch Size = 1LoRA Rank = 32Resolutions = 512 / 768 / 1024Differential Output Preservation = ONCache Text Embeddings = OFF

以下は、ハードウェアによって実際に変わる設定のみです。ここに記載されていないもの(Steps、Learning Rate、Optimizerなど)は、以前の推奨値のままにできます。


ティア1 – 低VRAM(〜10〜12GBローカル)

  • MODEL → Low VRAMONにします。これにより、追加のチェックポイントとシャッフルが有効になり、Qwen‑Image‑Edit‑2509が10〜12GBカードに収まります。
  • MODEL → Layer Offloading:まだCUDA OOMが発生する場合はONにします。高いCPU RAM使用量(≈60GB以上)と遅いステップを予想してください。ただし、GPU VRAMは約8〜9GBまで下がります。
  • QUANTIZATION → Transformer / Text Encoder:両方をfloat8に設定します。Qwen 3ビットARAアダプターを使用するこのアーキテクチャでは、float8が安定した品質のための実用的な最小値です。
  • TRAINING → Batch Size1に固定します。より大きな有効バッチが必要な場合は、Batch SizeではなくGradient Accumulationを増やします。
  • DATASETS → Resolutions512768をメインバケットとして有効にします。より遅く脆い実行を受け入れる場合は1024を追加できます。このティアでは、2つのコントロールストリームを持つ1024×1024を実用的な上限と考えてください。
  • TRAINING → Text Encoder Optimizations / Regularization:Low VRAMとLayer Offloadingを使用してもDifferential Output Preservationが収まらない場合は、DOP OFFにしてCache Text Embeddings ONにします。キャプションは一度だけエンコードされ、テキストエンコーダーがVRAMから解放されます。ベースモデルの保持は少し失われますが、数GBのヘッドルームが得られます。

ティア2 – きつい24GB(3090/4090/5090クラス)

ティア1と比較して緩和できるもの:

  • MODEL → Low VRAM:24GBでは安全のためにONのままにします。解像度とコントロール設定が快適に収まることがわかったら、OFFにすることを試すことができます。
  • MODEL → Layer Offloading:通常はOFF。選択した解像度とコントロールストリームの数でまだOOMが発生する場合にのみ有効にします。
  • QUANTIZATION → Transformer / Text Encoder:両方をfloat8のままにします。このティアで量子化を無効にしても役に立つことは稀で、解像度やバッチサイズに使用できるVRAMを燃やすだけです。
  • TRAINING → Batch Size1がまだデフォルトです。Low VRAMがONで量子化がONのままの場合、768×768で2つのコントロールではBatch Size 2が可能な場合があります。
  • DATASETS → Resolutions5127681024を有効にします。768を「常に安全」なバケット、1024をLow VRAMや部分的なオフロードが必要になる可能性のあるハイエンドバケットと考えてください。
  • TRAINING → Text Encoder Optimizations / Regularization:通常はDifferential Output Preservation ONCache Text Embeddings OFFを維持できます。特に主に768×768でトレーニングする場合。24GBカードで1024×1024が絶対に必要で、他の調整後もまだOOMが発生する場合、次のレバーはDOP OFFにしてCache Text Embeddings ONにすることです。

ティア3 – 快適な32GB以上のローカルとクラウドH100/H200

32GBローカルカードと80〜141GBクラウドGPU(H100/H200)では、VRAMとの戦いをやめて設定を簡素化できます:

  • MODEL → Low VRAM:オプション。32GB以上のローカルGPUとH100/H200ではOFFにして、わずかに速いステップとよりシンプルなトレースを得ることができます。
  • MODEL → Layer OffloadingOFFのままにします。すべてのQwen‑Image‑Edit‑2509コンポーネントをGPUに常駐させることができます。
  • QUANTIZATION → Transformer / Text Encoder:デフォルトで両方をfloat8のままにします。H100/H200ではText Encoder量子化を無効にすることを試すことができますが、良い品質のために必須ではなく、そのVRAMをバッチサイズや解像度に使用することと比較して利点は少ないです。
  • TRAINING → Batch Size:32GBローカルGPUでは1〜2、H100/H200では2〜4を使用し、1024×1024で2つのコントロールストリーム。
  • TARGET → LoRA Rank32が快適なデフォルトです。非常に複雑な動作(例:マルチエフェクト編集LoRA)には、過学習に注意しながらH100/H200で48〜64を試すことができます。
  • DATASETS → Resolutions:主に7681024でトレーニングします。低解像度の動作に特に関心がない限り、通常は512を削除できます。
  • TRAINING → Text Encoder Optimizations / Regularization:デフォルトでDifferential Output Preservation ONCache Text Embeddings OFFで実行します。VRAMはテキストエンコーダーを常駐させるのに十分で、「トリガーあり」と「トリガーなし」の動作の間で最もクリーンな分離が得られます。

7. Qwen Edit 2509 の LoRA 学習の一般的な問題と解決方法

7.1 ペアリングが間違ったデータセット(順序の間違い/人物の不一致)

症状: デザインは表示されますが、間違った場所、間違った人物、または歪んでいます。

ターゲットとコントロールのデータセットが整列していることを確認してください:shirt_target/img_0001.jpgshirt_control/img_0001.jpgshirt_design/img_0001.pngとペアになっている必要があります。画像を手動でシャッフルする場合は、アルファベット順が依然として整列するようにファイル名をペアに保ちます。


7.2 量子化してもVRAM OOM

小さなターゲット解像度(例:512×512)でトレーニングしているが、コントロールデータセットが依然として1024×1024を最高バケットとして使用し、Match Target Resがオフの場合、各コントロールストリームは1024×1024でエンコードされますが、ターゲットは512×512のみです。このようなコントロールストリームが2つまたは3つあると、合計レイテントサイズは予想よりもはるかに大きくなり、量子化が有効でもCUDA OOMが簡単に発生する可能性があります。

これを修正するには:

  • MODELパネルでMatch Target ResONにして、すべてのコントロール画像がターゲットと同じ解像度バケットに自動的にリサイズされるようにする(例:ターゲットサンプルが512×512の場合、すべて512×512になる)、または
  • Match Target ResOFFのままにするが、コントロールデータセットの最高解像度バケットをターゲットに合わせて下げる(1024を削除して512/768に固執する)。

クラウドのH100/H200では、ターゲットとコントロールの両方に1024×1024バケットを維持してこれらのトリックに依存しないことができますが、最も安全なルールは:Match Target Resが無効の場合、小さなターゲットと非常に大きなコントロールを混ぜないこと。


7.3 トレーニングが収束しない/ランダムに見える

以下を確認してください:

  • TRAININGパネルで、ノイズスケジューラとタイムステップ設定がまだFlowMatchに対応している。エクスポートされたYAMLではnoise_scheduler: "flowmatch"が表示され、SAMPLEパネルでもサンプラーがFlowMatchに設定されている必要があります。サンプラーが異なるスケジューラを使用している場合、LoRAが正しくトレーニングされていても、プレビューは純粋なノイズのように見える可能性があります。
  • Learning Rateが高すぎない。0.0001はQwen Edit 2509 の LoRA 学習の安全なデフォルトです。数百ステップ後もプレビューが振動し続けるか非常に不安定に見える場合は、0.00005に下げて最後の良いチェックポイントから再開してください。

7.4 LoRAが過学習(デザインがどこにでも広がる)

可能な解決策:

  • 合計Stepsを減らす(例:5000から3000へ)。
  • わずかに低いLoRA Rankを検討する(32ではなく16)。
  • 異なる人物、ポーズ、照明でデータセットを多様化する。
  • Differential Output Preservationが有効になっていることを確認し、必要に応じてDOP Loss Multiplierを少し増やして、ベースの動作がより強く保持されるようにする。

7.5 環境地獄

典型的なローカルの問題には、CUDAバージョンの不一致、間違ったPyTorchビルド、またはGPU/OSに一致しないドライバーが含まれます。RunComfyのCloud AI Toolkitでは、これらの問題は消えます:AI Toolkitと依存関係がプリインストールされており、設定とデータセットを使用してUIから直接開始します。

CUDAの修正に費やす時間がトレーニングよりも多い場合、それは通常、この特定のジョブをクラウドに移動する方が簡単なポイントです。


8. トレーニング後のQwen Edit 2509 LoRAの使用方法

トレーニングが完了したら、Qwen Edit 2509 LoRAを2つの簡単な方法で使用できます:

  • モデルプレイグラウンドQwen‑Image‑Edit‑2509 LoRAプレイグラウンドを開き、トレーニングされたLoRAのURLを貼り付けて、ベースモデル上でどのように動作するかをすばやく確認します。
  • ComfyUIワークフローComfyUIインスタンスを開始し、独自のワークフローを構築するか、Qwen Edit 2509 MultipleAnglesのようなワークフローをロードし、LoRAローダーノードでLoRAを交換し、より詳細な制御のためにLoRAウェイトやその他の設定を微調整します。

その他のAI Toolkit LoRAトレーニングガイド

Ready to start training?