AI Toolkit LoRA Training Guides

Ostris AI ToolkitでのWan 2.2 T2V 14B Text-to-Video LoRA学習

このガイドは、Ostris AI ToolkitでWan 2.2 T2V 14B(Text-to-Video)LoRAを学習する方法を、24GBクラスからH100/H200までの環境を想定して解説します。Wanのhigh-noise/low-noise expertsの仕組み、キャラクター/スタイル/モーション向けT2Vデータセット設計、Multi-stageやTimestep Type/Bias、4-bit ARA量子化、フレーム数調整で長尺でも安定させるコツをまとめています。

Train Diffusion Models with Ostris AI Toolkit

横にスクロールしてフォーム全体を表示

Ostris AI ToolkitOstrisAI-Toolkit

New Training Job

Job

Model

Quantization

Target

Save

Training

Datasets

Dataset 1

Sample

Wan 2.2 T2V 14B テキストから動画 LoRA学習は、シンプルなテキストプロンプトから、強力なモーション、ディテール、カメラコントロールを備えた豊かな5秒クリップを生成できるようにします。このガイドを終える頃には、以下のことができるようになります:

  • AI Toolkitを使用してWan 2.2 T2V 14B LoRAをトレーニングし、一貫したキャラクター強力なスタイルモーション/カメラの動作を実現
  • 24GB以上のNVIDIA GPU(4ビットARA量子化使用)でのローカルトレーニングと、H100/H200 GPUでのクラウドトレーニングの選択、そして各階層が現実的に何を処理できるかの理解
  • WanのハイノイズとローノイズのエキスパートMulti-stageTimestep Type/BiasNum Frames解像度とどのように相互作用するかを理解し、LoRAが変更を注入する場所を制御
  • AI Toolkitをパネルごとに設定(JOB、MODEL、QUANTIZATION、MULTISTAGE、TARGET、SAVE、TRAINING、DATASETS、SAMPLE)し、同じレシピを異なるLoRA目標とハードウェアに適応
この記事はAI Toolkit LoRAトレーニングシリーズの一部です。Ostris AI Toolkitが初めての方は、このガイドに入る前にAI Toolkit LoRAトレーニングの概要から始めてください。

目次


1. LoRAトレーニングのためのWan 2.2 T2V 14B概要

Wan 2.2は、3つの主要バリアントを持つオープンなテキスト/ビデオモデルファミリーです:5Bのテキスト/画像から動画モデルと、2つの14Bモデル(T2VとI2V)。(Wan 2.2 GitHub)。このガイドは14Bテキストから動画モデルWan2.2‑T2V‑A14Bを対象としています。

デュアルトランスフォーマー「ハイノイズ/ローノイズ」設計

内部的に、Wan 2.2 14BはWAN 2.2 T2V LoRA トレーニングのためのMixture-of-Expertsテキストから動画バックボーンを使用します:

  • ハイノイズ:デノイジングの非常にノイズの多い初期部分(粗い構成、グローバルモーション、カメラ)を処理する〜14Bパラメータのトランスフォーマー。
  • ローノイズ:終盤の比較的クリーンなフレーム(詳細、テクスチャ、アイデンティティ)を洗練する〜14Bパラメータのトランスフォーマー。

合計で、モデルは約27Bパラメータを持ちますが、各拡散ステップで1つのエキスパート(≈14Bパラメータ)のみがアクティブです。タイムステップはノイズスケジュールでt ≈ 875(1000中)付近で分割されます:おおよそ1000→875はハイノイズエキスパートに、875→0はローノイズエキスパートに行き、内部シフトにより軌道全体でバランスの取れたカバレッジを維持します。

Wan 2.2 T2V 14B テキストから動画 LoRA学習では、これは以下を意味します:

  • 一般的に両方のエキスパートをトレーニングしたいので、LoRAはデノイジングチェーン全体で機能します – 構成/モーションと詳細/アイデンティティの両方。
  • 小さいGPUでは、両方のトランスフォーマーをVRAMに保持し、各ステップで交換するのはコストがかかります。そのため、AI ToolkitはMulti-stageパネルとLow VRAM + ARA量子化 + "Switch Every N steps"オプションを公開し、速度とVRAMのトレードオフを可能にします。

2. Wan 2.2 T2V LoRAをどこでトレーニングするか(ローカル vs クラウド)

このチュートリアルは2つの環境で実行できます。AI Toolkitのインターフェースは同じです。

オプションA – ローカルAI Toolkit(自分のGPU)

  • GitHubのAI ToolkitリポジトリからAI Toolkitをインストールし、Webインターフェースを実行します。CUDA/ドライバーに慣れていて、すでに24GB以上のNVIDIA GPU(RTX 4090 / 5090 / A6000など)を持っている場合に最適です。
  • Wan 2.2 14Bは重いため、Macと24GB未満のGPUは一般的に512解像度での画像のみLoRA(Num Frames = 1)にしか適していません。本格的なWan 2.2 T2V 14B テキストから動画 LoRA学習には、24GB以上と積極的な量子化が本当に必要です。

オプションB – RunComfyのクラウドAI Toolkit(H100 / H200)

  • RunComfyのクラウドAI Toolkitを開いてログインします。すべての依存関係がプリインストールされたAI Toolkitインターフェースに直接入ります。
  • Wan 2.2 T2V 14B テキストから動画 LoRA学習には、ジョブを開始する際にH100(80GB)またはH200(141GB)マシンを選択し、より高い解像度で長いビデオをトレーニングできるようにします。

クラウド使用の利点:

  • セットアップ不要 – CUDA、ドライバー、モデルウェイトはすでに設定されています。
  • 巨大なVRAM33–81フレームLoRAを768–1024解像度で、OOMエラーと戦うことなく合理的なバッチサイズで実行できます。
  • 永続的なワークスペース – データセット、ジョブ、LoRAチェックポイントはRunComfyアカウントに保存され、後で再開または反復できます。

3. Wan 2.2 T2V LoRAのハードウェアとVRAM期待値

Wan 2.2 14Bは画像モデルやWan 2.1よりもはるかに重いです:

  • 1024×102481フレームでの公式T2Vワークフローは、量子化しないとハイエンドコンシューマーGPUでもOOMになる可能性があります。
  • 1024² / 81フレームでの長シーケンスLoRAトレーニングは、48–96GBサーバーカードでも何時間もかかることがあり、特に2–4kステップの場合です。
  • このモデルの公式AI Toolkit設定例(train_lora_wan22_14b_24gb.yaml)は24GB GPU向けに調整され、4ビットARA量子化Num Frames = 1(画像のみ)をセーフデフォルトとして使用します。

Wan2.2 High Noise Low Noise LoRAのVRAM階層別の合理的なメンタルモデル:

階層 GPU例 快適に動作するもの
24GB「コンシューマー」 4090 / 5090 / A6000 画像のみLoRA(Num Frames = 1)512–768 px4ビットARALow VRAM = ON使用。短いビデオLoRA(33–41フレーム @ 512)は可能だが遅くVRAMがタイト。
48–64GB「プロシューマー」 デュアル4090、一部サーバーGPU 33–41フレームビデオLoRA768–1024 pxで4ビットARAと最小限のオフロード。速度、容量、品質の良いバランス。
80–141GB「クラウド」 RunComfyのH100 / H200 1024²での81フレームトレーニング、バッチサイズ1–2、オフロードほとんどなし、float8または4ビットARA使用。本格的な長シーケンスビデオLoRAに最適。

4. Wan 2.2 T2V LoRAデータセットの構築

Wan T2V LoRAは以下でトレーニングできます:

  • 画像 – 1フレームの「ビデオ」として扱われます(Num Frames = 1)。
  • ビデオクリップ – T2Vモデルの真の強み。通常、3–8秒の短いクリップで作業します。

4.1 トレーニングするLoRAの種類を決定

3つの大きなファミリーで考え、それに応じてデータセットを設計します:

  1. キャラクターLoRA(顔/体/衣装)

    目標:Wanの一般的な能力を維持しながら、トリガーでアドレスできる新しい人物、アバター、または衣装を注入。同じ人物の10–30の高品質画像または短いクリップを使用し、様々なポーズ、背景、照明で。ベースモデルと戦う重いフィルターやスタイル化は避けます。キャプションにユニークなトリガートークン(例:"zxq-person")と、衣服、照明、フレーミングの豊かな説明を含め、LoRAがコンセプトをクリーンに学習できるようにします。

  2. スタイルLoRA(ルック&フィール)

    目標:コンテンツを柔軟に保ちながら、視覚スタイル(フィルムストック、アニメルック、絵画的など)を課す。同じルックを共有する10–40の画像またはクリップを使用 – 一貫した色、コントラスト、カメラ感 – ただし多様な被写体とシーンで。キャプションはスタイルワードに重点を置きます。例:"油絵、厚いインパスト、暖かいオレンジの照明、高コントラスト"、正確なオブジェクトを列挙するのではなく。

  3. モーション/カメラLoRA

    目標:Wanに時間的動作(オービット、パン、ドリー、スプライト風ループなど)を教える。ターゲットモーションを示す10–30の短いクリップ(〜5秒)を使用し、理想的には異なる被写体と環境で同じ種類のモーション。キャプションはモーションキーワードを明示的に言及する必要があります。例:"被写体の周りを180度オービット""横スクロール攻撃アニメーション"、または"キャラクターへの遅いドリーズーム"、モデルがどの動作に関心があるかを知るために。


4.2 解像度とアスペクト比

Wan 2.2 14B T2Vは正方形に近い1024×1024クラスのフレーム用に構築されています。公式例は1024²またはそれに近いバリアントを使用し、低解像度用の内部バケッティングがあります。

WAN 2.2 T2V LoRA トレーニングでは:

  • 24GB GPUでは、512または768解像度バケットを優先し、VRAMを節約するためにDATASETSパネルで1024のチェックを外します。
  • 48GB以上のGPUまたはH100/H200では、768と1024バケットの両方を有効にして、特にキャラクターとスタイルLoRAでよりシャープな結果を得ることができます。

AI Toolkitはビデオをダウンスケールし、選択した解像度にバケッティングします。主にソースクリップが高品質で、巨大な黒いバーでレターボックスされていないことを確認する必要があります。


4.3 ビデオクリップの長さとNum Frames

Wan 2.2は約16 FPSで5秒のクリップで事前トレーニングされ、トレーニングシーケンスあたり約81フレーム(4k+1パターンに従う)を与えます。

DATASETSパネルのAI ToolkitのNum Framesフィールドは、各ビデオからサンプリングされるフレーム数を制御します:

  • 画像の場合、Num Frames = 1を設定 – 各画像は1フレームビデオとして扱われます。
  • ビデオの場合、良い選択肢は:
    • 81 – 「完全忠実度」。事前トレーニングに一致しますが、VRAMを非常に消費します。
    • 41 – フレームの約半分、VRAM/時間も約半分。大きいGPU向けの強力な中間点。
    • 33 – 512 px解像度と組み合わせた24GBローカルトレーニング向けの積極的でVRAMフレンドリーなオプション。

フレームは各クリップ全体で均等にサンプリングされるため、すべてのビデオが正確に5秒である必要はありません。重要なのは有用なモーションがクリップを占めることです:長い静的なイントロ/アウトロをトリムし、サンプリングされたほぼすべてのフレームに意味のあるモーションまたはアイデンティティシグナルが含まれるようにします。

フレーム数は通常、Wan固有の「4n+1」パターン(例:9、13、17、21、33、41、81)に従うように選択されます。これらの値に固執すると、モデルの内部ウィンドウイングに一致するため、より安定した時間的動作を生成する傾向があります。


4.4 キャプション戦略

クリップごとのキャプションは、シンプルな画像LoRAよりもビデオLoRAで重要です。特にモーションとスタイルで。

  • 画像/キャラクターLoRAの場合、10–30の画像または短いクリップを目指し、それぞれにトリガーと説明を含むキャプションを付けます。例:

    "[trigger]のポートレート、ミディアムショット、スタジオ照明、レザージャケット着用、35mmレンズ"

    トレーニング時にAI Toolkitはこのパターンを使用すると、[trigger]をJOBパネルの実際のTrigger Wordに置き換えます。

  • モーションLoRAの場合、モーションワードがクリップ間で一貫して表示されることを確認します。例:

    "中世の城の周りを180度オービット"

    "剣を振るうテディベアの横スクロール攻撃アニメーション"

今のところ、各画像またはクリップに良いファイルごとの.txtキャプションがあるか、DATASETSパネルで有用なDefault Captionを設定することを確認してください。TRAININGセクションでは、キャプションベースモード(これらのキャプションを直接使用)または高VRAM設定でのトリガーワードのみモードで実行するかを決定します。


5. ステップバイステップ:AI ToolkitでWan 2.2 T2V 14B LoRAをトレーニング

このセクションでは、Wan 2.2 T2V 14BでのビデオLoRAのためにAI ToolkitのUIをパネルごとに見ていきます。

このウォークスルーの基本前提:

  • 512または768解像度でビデオLoRA(Num Frames = 33)をトレーニングしている。
  • 24–32GB GPUを使用しているか、Low VRAMトリックを使用してRunComfyで同等のセットアップを実行している。
  • データセットはビデオ+キャプションを含む1つのWan T2Vデータセットフォルダ

後でH100/H200とより高いVRAM階層向けのメモを追加します。


5.1 JOBパネル – 基本的なジョブメタデータ

後でジョブを見つけられるように、ハイレベルのメタデータを設定します:

  • Job Namewan22_t2v_char_zxq_v1wan22_t2v_style_neon_v1のような簡潔な名前。モデル、タスク、短い識別子を含めます。
  • Output Directory – AI Toolkitがチェックポイントとログを書き込む場所。例:./output/wan22_t2v_char_zxq_v1
  • GPU ID – ローカルインストールでは物理GPUを指します。RunComfyクラウドAI Toolkitではデフォルトのままにできます。実際のマシンタイプ(H100/H200)はTraining Queueで後で選択されます。
  • Trigger Word(オプション) – トリガーワードワークフローを使用する予定の場合、トークン(例:zxqperson)に設定します。キャプションで[trigger]と書くと、AI Toolkitは読み込み時にTrigger Wordに置き換えます。既存のトークンと衝突しないよう、短くユニークに保ちます。

5.2 MODELパネル – Wan 2.2 T2Vベースモデル

Musubi Tuner Wan2.2 LoRA 学習のためのベースモデルとVRAM関連オプションを設定します:

  • Model ArchitectureWan 2.2 T2V 14B(またはビルドでの同等のラベル)を選択。
  • Name or Path – ベースチェックポイントのHugging Face model id(repo id)。例:ai-toolkit/Wan2.2-T2V-A14B-Diffusers-bf16

    ほとんどのAI Toolkitビルドでは、Wan 2.2 T2V 14Bを選択するとこの値が自動入力されます。変更する理由がない限り、そのままにしてください。

    オーバーライドする場合は、Hugging Face repo idフォーマットを使用:org-or-user/model-name(オプションでorg-or-user/model-name@revision)。

  • Low VRAM24–32GB GPUでは、Low VRAM = ONに設定し、AI Toolkitがトレーニングを可能にする追加のチェックポイント/オフロード戦略を使用できるようにします。H100/H200または48GB以上では、最大速度のためにLow VRAM = OFFに設定できます。
  • Layer Offloading – ビルドがこれを公開している場合、24GB以上ではOFFのままにできます。ただし、まだOOMが発生している場合を除きます。非常にタイトなセットアップでは、一部のレイヤーをCPU RAMにストリームできますが、ステップが著しく遅くなります。

5.3 QUANTIZATIONパネル – 4ビットARA + float8テキストエンコーダー

量子化は、Wan 2.2 T2V 14B テキストから動画 LoRA学習をコンシューマーハードウェアで実用的にするものです。

  • Transformer4bit with ARAに設定。これはAccuracy Recovery Adapter付きの4ビット量子化です。VRAM使用量は純粋な4ビットに近いですが、品質はbf16にはるかに近いです。
  • Text Encoderfloat8(またはqfloat8)に設定。これにより、LoRAトレーニング品質への影響を無視できるほどで、テキストエンコーダーのVRAMと計算を削減します。

24–32GB GPUでは、この組み合わせがビデオLoRAトレーニングがそもそも可能な主な理由です。

H100/H200 / 48GB以上GPUでは:

  • 4bit with ARAを維持し、追加のVRAMをより高い解像度、より多くのフレーム、またはより高いLoRAランクに費やすことができ、多くの場合より良いリターンが得られます。
  • よりシンプルなスタックを好む場合、Text Encoderをfloat8のままにしながら、Transformerを純粋なfloat8オプションに切り替えることができます。すべてを完全にbf16に戻すのは通常必要ありません。

5.4 MULTISTAGEパネル – ハイノイズとローノイズエキスパートをトレーニング

このパネルはデュアルエキスパートアーキテクチャ(ハイノイズ vs ローノイズトランスフォーマー)と、トレーニングステップがそれらの間でどのように分割されるかを公開します。これはWan2.2 High Noise Low Noise LoRAアプローチのコア側面です。

  • Stages to Train – ほとんどのLoRAでは、High Noise = ONLow Noise = ONに設定。これは、トレーニング中に両方のエキスパートが更新されるため、LoRAが初期の構成/モーションと後半の詳細/アイデンティティの両方に影響を与えることを意味します。
  • Switch EveryLow VRAM = ONの24–32GB GPUでは、Switch Every = 10に設定。これにより、AI Toolkitに1つのエキスパートで何ステップ過ごしてから別のエキスパートに切り替えるかを指示します。例えば、Steps = 3000の場合:
    • ステップ1–10 → ハイノイズエキスパート
    • ステップ11–20 → ローノイズエキスパート
    • …トレーニング終了まで繰り返し。

これが重要な理由:

  • Low VRAM = ONでは、AI Toolkitは通常、一度に1つのエキスパートのみをGPUメモリに保持します。切り替え時に、〜14Bパラメータのトランスフォーマーをアンロードし、別のものをロードします。
  • Switch Every = 1に設定すると、各ステップで巨大なウェイトのロード/アンロードを強制し、これは極めて遅いです。
  • Switch Every = 10では、依然としておおよそ50/50のハイ/ローノイズカバレッジが得られますが、各ステップではなく10ステップごとにのみ切り替えるため、はるかに効率的です。

LoRAタイプのヒント:

  • キャラクターまたはスタイルビデオLoRAでは、High NoiseとLow Noiseの両方をONに保ちます。構成と詳細の両方が重要です。
  • モーション/カメラLoRAでは、ハイノイズはグローバルモーションに重要です。両方のステージをONで開始し、非常にターゲットを絞った動作が必要な場合は、後でハイノイズのみのトレーニングを実験します。

H100/H200では:

  • Switch Every = 1に設定できます。両方のエキスパートがVRAMに常駐でき、切り替えのオーバーヘッドは無視できるためです。

5.5 TARGETパネル – LoRAランクと容量

このパネルは、どのタイプのアダプターをトレーニングするか、どのくらいの容量を持つかを制御します。

  • Target TypeLoRAに設定。
  • Linear Rank – Wan 2.2 T2Vでの良いデフォルトは16
    • ランク16はLoRAを小さくし、トレーニングを高速に保ちます。
    • 512–768解像度でのキャラクター、スタイル、モーションLoRAには通常十分です。

非常に多様なデータセット(多くの被写体、スタイル、またはモーション)があり、十分なVRAMがある場合:

  • Linear Rank32に増やして、LoRAにより多くの表現力を与えることができます。
  • それほどの容量が必要だと分かっていない限り、64を超えることは避けてください。非常に高いランクはオーバーフィットし、LoRAを制御しにくくする可能性があります。

H100/H200では、ランク16から開始し、複雑なオールインワンLoRAでは32まで上げるのが合理的な範囲です。


5.6 SAVEパネル – チェックポイントスケジュール

トレーニング中にLoRAチェックポイントを保存する頻度を設定します:

  • Data TypeBF16に設定。これはWan 2.2が通常実行される方法と一致し、LoRAウェイトに対して安定しています。
  • Save Every250ステップに設定。3000ステップの実行では、トレーニング全体に12のチェックポイントが分散されます。
  • Max Step Saves to Keep4または6に設定し、最後のものよりも実際に良く見える可能性のある初期のチェックポイントを失わないようにします。

実際には、最後のチェックポイントを使用することはめったにありません。多くのユーザーはサンプルを比較した後、2000–3000ステップ範囲の何かを好みます。

H100/H200では:

  • 非常に長く実行する場合(例:大きなデータセットで5000–6000ステップ)、Save Every = 250を維持してMax Step Saves to Keepを増やすか、チェックポイントの数を制限するためにSave Every = 500に設定します。

5.7 TRAININGパネル – コアハイパーパラメータとテキストエンコーダーモード

ここでコアトレーニングハイパーパラメータを設定し、テキストエンコーダーとオプションの正則化をどのように処理するかを選択します。

5.7.1 コアトレーニング設定

Wan 2.2 T2Vでの汎用ビデオLoRAの場合:

  • Batch Size24–32GBでは、Batch Size = 1に設定。T2Vではこれだけですでに多くのVRAMを消費します。H100/H200では、十分な余裕があれば2にプッシュできます。
  • Gradient Accumulation1から開始。VRAMがタイトだが、より大きな有効バッチが必要な場合、2–4に設定できます。有効バッチサイズはBatch Size × Gradient Accumulationです。
  • Steps – 典型的な範囲:
    • 〜10–20クリップの小さくフォーカスしたモーションLoRA:1500–2500ステップ
    • 20–50クリップのキャラクターまたはスタイルLoRA:2000–3000ステップ
    • 非常に大きなデータセットはより高くなる可能性がありますが、単にステップを追加するよりもデータ品質を改善する方が良いことが多いです。
  • OptimizerOptimizer = AdamW8Bitに設定。8ビットAdamは標準のAdamWと同様に動作しながら、VRAMを大幅に削減します。
  • Learning Rate – 強力なデフォルトとしてLearning Rate = 0.0001に設定。トレーニングが不安定に見えたり、サンプルがステップ間で激しく振動したりする場合は、0.00005に下げます。トレーニングが早期に停滞するように見える場合は、Learning Rateを上げるよりもステップを増やすことを検討してください。
  • Loss TypeMean Squared Error (MSE)を維持。これはWanの元のトレーニング損失と一致し、標準的な選択です。

Wan 2.2はflow-matching noise schedulerを使用し、AI Toolkitが内部的に処理します。SAMPLEパネルでは、プレビューがトレーニングセットアップと一致するように、FlowMatch互換のサンプラーも使用する必要があります。


5.7.2 Timestep TypeとTimestep Bias – LoRAがフォーカスする場所

これら2つのフィールドは、トレーニング中にどのタイムステップが強調されるか、および更新が拡散チェーン全体にどのように分散されるかを制御します。

  • Timestep Type – タイムステップの分布を制御:
    • Linear – スケジュール全体でタイムステップを均一にサンプリング。ニュートラルで安全なデフォルト。
    • Sigmoid / その他の形状パターン – 中/低ノイズに向けてトレーニングをバイアス。キャラクターや詳細なスタイルに役立つことがある。
    • Shift / Weighted – ノイズスケジュールの特定の領域をさらに強調し、多くの場合Timestep Biasと組み合わせて使用。
  • Timestep Bias – AI Toolkitに軌道のどの部分を強調するかを指示:
    • Balanced – 更新がハイノイズとローノイズの間でほぼ均等に分散。
    • Favor High Noise早期のノイズの多いステップに向けてバイアスし、構成、レイアウト、グローバルモーションを強調。
    • Favor Low Noise後半のクリーンなステップに向けてバイアスし、アイデンティティ、テクスチャ、マイクロディテールを強調。

Wan 2.2 T2V 14B テキストから動画 LoRA学習の推奨組み合わせ:

  • モーション/カメラLoRA – 安全なデフォルトとしてTimestep Type = LinearTimestep Bias = Balancedに設定。

    カメラパスを本当にロックする純粋なモーションLoRAが必要な場合、Timestep Bias = Favor High Noiseにさらにプッシュできます。ハイノイズエキスパートはWan 2.2がレイアウトとモーションを決定する場所だからです。

  • スタイルLoRATimestep Type = LinearまたはShiftTimestep Bias = Favor High Noiseに設定。

    スタイル、カラーグレーディング、「フィルムストック」は主に軌道のハイノイズ/早期部分に存在するため、ハイノイズを優先するとLoRAがグローバルトーンを書き換えることができ、後半ステージの詳細は主にベースモデルに任せます。

  • キャラクターLoRATimestep Type = Sigmoid(またはLinear)Timestep Bias = Balancedに設定。

    アイデンティティと類似性はローノイズエキスパートにより依存しますが、構成と照明にもある程度の影響が必要です。非常にアイデンティティに焦点を当てたLoRAでは、ローノイズステップをわずかに優先する実験ができますが、Balancedが最も安全なデフォルトです。


5.7.3 EMA(指数移動平均)

  • Use EMA – LoRAの場合、EMAはオプションであり、追加のオーバーヘッドが発生します。ほとんどのユーザーはWan 2.2 LoRAでこれをOFFのままにし、EMAはフルモデルトレーニング用に予約します。よりスムーズなウェイトをアンサンブルしたいと分かっていない限り、EMAを無視しても安全です。

5.7.4 テキストエンコーダー最適化 – キャプション vs トリガーワードモード

これらのトグルは、テキストエンコーダーがロードされたままかどうか、埋め込みがキャッシュされるかどうかを制御します。

  • Unload TEONに設定すると、AI Toolkitはステップ間でVRAMからテキストエンコーダーを削除し、静的な埋め込み(例:Trigger Word)に依存し、トレーニング中の動的キャプショニングを効果的にオフにします。これはVRAMを節約しますが、キャプションが各ステップで再エンコードされないことを意味します。
  • Cache Text EmbeddingsONに設定すると、AI Toolkitはキャプションごとにテキストエンコーダーを1回実行し、埋め込みをキャッシュし、その後テキストエンコーダーをVRAMから安全に解放します。これは制約されたVRAMでのキャプションベーストレーニングに強く推奨されます。各ステップでの再エンコードを避けながらも、クリップごとのキャプションを使用するためです。

典型的なパターン:

  • 24–32GBキャプションベーストレーニングの場合、Cache Text Embeddings = ONに設定し、Unload TE = OFFのままにします。これにより、完全なキャプション情報を持つ効率的なトレーニングが得られます。
  • 非常に高いVRAM(H100/H200)でのトリガーワードのみトレーニングの場合、Unload TE = ONに設定し、完全なキャプションの代わりに単一のトリガートークンに依存できます。

5.7.5 Differential Output Preservation(DOP)

Differential Output Preservationは、LoRAがベースモデルの純粋な残差編集として動作することを奨励するオプションの正則化です:

  • AI Toolkitは2つの予測をレンダリングします:
    • ベースモデル(LoRAなし)での1つ、
    • LoRA有効での1つ。
  • Trigger Wordとキャプションを通じて明示的に変更が必要な場所を除いて、これらの出力間の違いにペナルティを課します。

主要フィールド:

  • Differential Output Preservation – メインスイッチ。
  • DOP Loss Multiplier – 正則化損失の強度。
  • DOP Preservation Classpersonscene、またはlandscapeのようなクラストークンで、何を保存すべきかを記述します。

使用法:

  • スタイルとキャラクターLoRAでは、DOPはLoRAが制御された修正を追加しながら、Wanの優れたベースリアリズムを維持するのに役立ちます。シンプルなレシピ:
    • Differential Output Preservation = ON
    • DOP Loss Multiplier = 1
    • DOP Preservation Class = キャラクターLoRAではperson、または広いスタイルLoRAではscene / landscape(利用可能な場合)。
  • モーション/カメラLoRAでは、通常DOPは不要です。動作の変更はすでにローカライズされており、DOPはおおよそ計算を2倍にします。

重要な互換性の注意:

  • DOPは各ステップでプロンプトを書き換えることで機能します(ブランチの1つでTrigger WordをPreservation Classに交換)。このため、DOPはテキストエンコーダーが各ステップでプロンプトを再エンコードすることを要求し、Cache Text Embeddingsと互換性がありません
  • DOPをONにする場合:
    • JOBパネルでTrigger Wordを設定する必要があり、
    • テキストエンコーダーがアクティブのままで各ステップで修正されたプロンプトを再エンコードできるように、Cache Text Embeddings = OFFを維持する必要があります。

H100/H200では、DOPの追加計算コストは通常、高品質のキャラクターとスタイルLoRAでは許容範囲です。


5.8 ADVANCEDパネル – Differential Guidance(オプション)

ビルドが以下を持つADVANCEDパネルを公開している場合:

  • Do Differential Guidance
  • Differential Guidance Scale

これをAI Toolkit固有の追加トリックとして扱うことができます:

  • Do Differential Guidance = ONScale = 3でオンにすると、モデルにベースとLoRA修正予測の違いにより焦点を当てるよう指示します。これはDOPと精神的に似ていますが、ガイダンス項として実装されています。
  • これにより、ターゲットを絞った編集(例:「ネオンアウトラインスタイル」または「オービットカメラ動作」)がLearning Rateを上げずにより速く収束する可能性があります。
  • トレーニング早期にサンプルが不安定または過度にシャープに見える場合、スケールを2に下げることができます。学習が非常に遅いと感じる場合、4を試すことができます。

ほとんどのユーザーは最初のWan 2.2 LoRAではこれをOFFのままにし、慣れてから実験できます。


5.9 DATASETSパネル – Wan T2Vデータセットの接続

各Datasetブロックは内部datasets:リストの1つのエントリに対応します。

単一のWan T2Vデータセットの場合:

  • Target Dataset – ビデオとキャプションを含むWan T2Vデータセットフォルダ(例:wan_orbit_clipsまたはwan_char_zxq_clips)を選択。
  • LoRA Weight – 複数のデータセットを混合して再バランスしたい場合を除き、1に設定。
  • Default Caption – 個々のクリップに.txtキャプションがない場合にのみ使用。例:
    • キャラクター/スタイル:"zxqpersonのポートレート、zxqstyle、シネマティック照明"
    • モーション:"被写体の周りを360度オービット、zxq_orbit"
  • Caption Dropout Rate0.05のような値は、モデルがフレージングをオーバーフィットする代わりにビジュアルにも注意を払うように、サンプルの5%でキャプションをドロップします。

    Cache Text Embeddingsに大きく依存している場合は、ここでは控えめに。キャプションドロップアウトは、テキストエンコーダーがアクティブでキャプションが変化できる場合に最も効果的です。

  • Settings → Cache Latents – ビデオLoRAでは通常OFFです。多くのフレームのVAEレイテントをキャッシュするのはディスクとRAMに重いためです。代わりにソースビデオを高品質に保ちます。
  • Settings → Is Regularization – 専用の正則化データセットがない限り、OFFのままにします。
  • Flipping(Flip X / Flip Y) – ほとんどのビデオLoRAでは両方をOFFに保ちます:
    • 水平フリップは左/右モーションセマンティクスとキャラクターの非対称性を壊す可能性があります、
    • 垂直フリップは実世界のフッテージには適切でないことがほとんどです。
  • Resolutions – AI Toolkitがバケッティングする解像度を有効にします:
    • 24–32GBでは、512を有効にし、VRAMが許せばオプションで768、1024+を無効にします。
    • H100/H200では、モデルの好ましい動作点に合わせて768と1024を有効にできます。
  • Num Frames – ベースの24–32GBビデオLoRAレシピではNum Frames = 33に設定。

    33は4n+1ルール(4·8+1)に従い、明確な時間パターンを提供しながら、フル81フレームトレーニングと比較してコストをおおよそ半分にします。

AI Toolkitは各クリップの持続時間全体で33フレームを均等にサンプリングします。関心のあるモーションがクリップの大部分を占めるようにクリップをトリムするだけです。

H100/H200では、Num Framesを41または81にプッシュし、768–1024 pxバケットとランク16–32を組み合わせて、非常に強力な長シーケンスLoRAを作成できます。


5.10 SAMPLEパネル – LoRAのプレビュー

SAMPLEパネルは、トレーニング中または後にプレビュービデオを生成するためのものです。

便利な設定:

  • Num Frames – 動作が予測可能になるように、トレーニング値(例:33または41)におおよそ一致させます。
  • Sampler / Scheduler – モデルのノイズスケジュールに合ったFlowMatch互換サンプラーを使用。
  • Prompt / Negative Prompt – トレーニングした同じTrigger Wordとコンセプトを使用し、LoRAが正しいことを行っているかどうかを素早く判断できるようにします。
  • Guidance Scale – トレーニングプレビュー中は、適度な値(例:2–4)で問題ありません。後で通常の推論ワークフローでは異なる値を使用する可能性があることを覚えておいてください。

複数のチェックポイント(例:250–500ステップごと)でサンプルを生成し、視覚的に強度と安定性のバランスが取れているものを保持します。


6. Wan 2.2 T2V 14B LoRAトレーニング設定

このセクションでは、3つの主要なLoRAタイプの実用的なレシピを要約します。

6.1 キャラクタービデオLoRA(アイデンティティ/アバター)

目標:多くのプロンプトとシーンにわたってキャラクターの顔、体、一般的なアイデンティティを保存。

データセット:

  • キャラクターの10–30の短いクリップまたは画像、様々なポーズ、背景、照明で。
  • キャプションにはTrigger Wordとクラスを含める。例:

    "[trigger]のポートレート、若い女性、カジュアルな服装、スタジオ照明"

Wan 2.2 T2V 14B テキストから動画 LoRA学習の主要設定:

  • Num Frames – 24GBでは33;H100/H200では41または81。
  • Resolutions – 512または768;高VRAMでは1024を追加。
  • Multi-stage – High Noise = ON、Low Noise = ON、Switch Every = 10(ローカル)または1(クラウド)。
  • Timestep Type / Bias – Linear(またはSigmoid)とBalanced biasで、構成とローノイズのアイデンティティ詳細の両方をキャプチャ。
  • Linear Rank – 16(24GB)または16–32(H100/H200)で、より微妙なアイデンティティのために。
  • DOP – ベースリアリズムを保持したいキャラクターLoRAではオプションで有効化:
    • Differential Output Preservation = ON
    • DOP Loss Multiplier = 1
    • DOP Preservation Class = person
    • Cache Text Embeddings = OFF(DOPが機能するために必要)
  • Steps – 2000–3000、250–500ステップごとにサンプルをチェック。

6.2 スタイルビデオLoRA(フィルムルック/アニメ/カラーグレード)

目標:コンテンツを柔軟に保ちながら、強力な視覚スタイルを課す。

データセット:

  • 異なる被写体とシーンにわたって同じスタイルを共有する10–40の画像またはクリップ。
  • キャプションは正確なオブジェクトではなく、ルック(例:フィルムストック、ブラシワーク、パレット)を記述。

WAN 2.2 T2V LoRA トレーニングの主要設定:

  • Num Frames – ほとんどのユースケースで33–41;大きいGPUで5秒クリップには81。
  • Resolutions – 24GBでは512–768;高VRAMでは768–1024。
  • Multi-stage – High Noise = ON、Low Noise = ON、Switch Every = 10(ローカル)または1(クラウド)。
  • Timestep Type / Bias – LinearまたはShiftとTimestep Bias = Favor High Noiseで、構成がまだ流動的な場所でLoRAがグローバルな色とコントラストを書き換えられるように。
  • Linear Rank – シンプルなスタイルでは16;複雑でシネマティックなルックでは16–32。
  • DOP – ベースリアリズムを保持したいスタイルLoRAでは推奨:
    • Differential Output Preservation = ON
    • DOP Loss Multiplier = 1
    • DOP Preservation Class = scene / landscapeまたは類似
    • Cache Text Embeddings = OFF
  • Steps – 1500–2500、スタイルが強いが過剰ではないときに停止。

6.3 モーション/カメラLoRA(オービット、パン、ドリームーブ)

目標:多くの被写体に適用できる新しいカメラムーブまたはモーションパターンを学習。

データセット:

  • それぞれがターゲットモーションを示す10–30の3–8秒クリップ。
  • モーションを一貫させる(例:すべてがオービット180またはすべてが横スクロール)、ただし被写体とシーンは変化。
  • キャプションはモーションキーワードを明示的に記述("被写体の周りを180度オービット""横スクロール攻撃アニメーション")。

Musubi Tuner Wan2.2 LoRA 学習の主要設定:

  • Num Frames – 24GBでは33、大きいGPUでは41–81。
  • Resolutions – 512(VRAMが許せば768も)。
  • Multi-stage – High Noise = ON、Low Noise = ON、Switch Every = 10(ローカル)または1(クラウド)。
  • Timestep Type / Bias – LinearとTimestep Bias = Balancedで、初期の構成と後半の洗練の両方が更新を見るように。モーションは本質的にハイノイズに依存。
  • Linear Rank – ランク16で通常十分。モーションは小さな詳細よりも動作に関するものだから。
  • DOP – 通常OFFのまま。モーションはすでにローカライズされており、DOPはフォワードパスを2倍にする。
  • Steps – 1500–2500。モーションがトレーニングクリップを超えて一般化することを確認するためにプレビューを観察。

7. Wan T2V LoRAのエクスポートと使用

トレーニングが完了したら、Wan 2.2 T2V 14B LoRAを2つのシンプルな方法で使用できます:

  • Model playgroundWan 2.2 T2V 14B LoRA playgroundを開き、トレーニングしたLoRAのURLを貼り付けて、ベースモデル上でどのように動作するかを素早く確認。
  • ComfyUIワークフローComfyUIインスタンスを開始し、独自のワークフローを構築し、LoRAを追加し、より詳細なコントロールのためにLoRAウェイトやその他の設定を微調整。

その他のAI Toolkit LoRAトレーニングガイド

Ready to start training?