AI Toolkit LoRA Training Guides

Ostris AI ToolkitでのLTX-2 LoRA学習

このチュートリアルは、Ostris AI ToolkitでLTX-2 LoRAを学習するための手順をまとめたものです。LTX-2の特徴(音声・映像ネイティブDiT/19Bチェックポイント)、データセット設計(画像1フレーム〜動画、8n+1)、安全な初期設定(rank 32、2,000〜3,000 steps、LR 1e-4/5e-5)、学習中のサンプリング、VRAM/OOMや過学習のトラブルシュートを紹介します。

Train Diffusion Models with Ostris AI Toolkit

横にスクロールしてフォーム全体を表示

Ostris AI ToolkitOstrisAI-Toolkit

New Training Job

Job

Model

Quantization

Target

Save

Training

Datasets

Dataset 1

Sample

LTX-2は、単一のモデル内で同期されたビデオとオーディオを生成するように設計されたオープンウェイトのDiffusion Transformer(DiT)基盤モデルです。「無音」のビデオモデルとは異なり、動きと音声が時間的に同期できるように、共同オーディオ・ビデオシステムとして構築されています。公式リリースでは、主要なチェックポイントファミリーは19Bクラスです(トレーニング可能な「dev」バリアント、複数の量子化バリアント、加速された蒸留バリアントを含む)。

このガイドでは、Ostris AI Toolkitを使用したLTX-2のLoRA学習に焦点を当てています。目標は、素早く生産的になること:LTX-2の得意分野、準備すべきデータ、重要なAI Toolkit設定、そして最初の実行で「安全」な設定を理解することです。

AI Toolkitをローカルにインストールしたくない場合は、RunComfyのクラウドGPU(H100 / H200)でブラウザから実行できます。

▶ こちらから開始:RunComfy cloud AI Toolkit


目次


1. LTX-2が他のビデオLoRAターゲットと異なる理由

LTX-2のいくつかの特性が、LTX-2 LoRA学習のアプローチに直接影響します:

  • オーディオ・ビデオがネイティブ:LTX-2は、1つのモデルで同期されたオーディオとビジュアルを生成するように構築されています(後付けではありません)。「完成したショット」(ダイアログ、アンビエンス、フォーリー)には最適ですが、オーディオ対応のファインチューニングは、トレーナーが実際にオーディオパスとクロスモーダルコンポーネントを更新するかどうかに依存します(多くのサードパーティトレーニングスタックは、最初にビデオのみのファインチューニングを行います)。
  • 大きい(19Bクラスのチェックポイント):VRAM、ステップ時間、そして「小さなランク」がしばしばアンダーフィットするという事実に影響します。公式チェックポイントリストには以下が含まれます:
    • ltx-2-19b-dev(bf16でトレーニング可能)、
    • dev量子化バリアント(fp8 / nvfp4)、
    • およびltx-2-19b-distilled(加速推論、8ステップ、CFG=1)。
  • 厳格な形状制約幅/高さは32で割り切れる必要がありフレーム数は8 + 1で割り切れる必要があります(つまり8n+1:1、9、17、25、…、121、…)。入力がこれに一致しない場合、通常はパディング(一般的に-1で)してからターゲットサイズ/フレーム数にクロップする必要があります。

2. LTX-2 LoRAが最適な用途

実際には、LTX-2 19B LoRA学習を行う際、これらの方向で最も価値があります:

  • キャラクター/アイデンティティLoRA:一貫した顔、衣装、小道具、「ブランドキャラクター」ルック、カメラ移動全体で安定したアイデンティティ。
  • スタイルLoRA:アートディレクション(照明言語、レンダリングスタイル、レンズ、フィルムストックの雰囲気)、被写体は柔軟に保つ。
  • モーション/振付LoRA:特定の動きパターン(歩行サイクルスタイル、ダンスフレーバー、クリーチャーのロコモーション)、または「世界がどのように動くか」(ハンドヘルドの揺れ、アニメーションタイミング)。
  • カメラ動作LoRA:ドリーイン/アウト、クレーン/ジブ感、軌道カメラ言語、安定化vsハンドヘルド。
  • (上級)オーディオLoRA:一貫したアンビエンスパレット、フォーリースタイル、または声のような特性—トレーニングスタックがオーディオブランチのファインチューニングをサポートしている場合のみ

画像のみ(ビデオなし)の場合でも、アイデンティティ/スタイルを効果的にトレーニングできますが、単一フレームから時間的な動きパターンを学習することは期待しないでください。


3. LTX-2 LoRA学習のためのデータセット準備

3.1 適切なクリップ長+解像度「バジェット」の選択

LTX2 LoRA学習のトレーニングコストは、空間サイズとフレーム数の両方でスケールします。最初のLoRAでは、シンプルに保ちましょう:

  • アイデンティティ/スタイルスターター
    • 解像度:512〜768程度(GPUに依存)
    • フレーム:49または81(短いクリップはより速くトレーニング;時間的一貫性には十分)
  • モーション/カメラスターター
    • 解像度:512(余裕があれば768)
    • フレーム:121(モーション学習に適切;24fpsで約5秒)

制約を覚えておいてください:フレームは8n+1である必要があります。

3.2 ビデオvsイメージデータセット(両方とも有効)

多くの人はLTX-2のLoRA学習にはビデオのみのデータセットが必要だと思っています。実際には、ほとんどの実用的なトレーニングスタックは両方で動作できます:

  • 画像のみのデータセット(各サンプルを「1フレームクリップ」として扱う)、または
  • ビデオデータセット(短い一貫したクリップ)。

AI Toolkitを使用する場合、各データセットエントリを均質に保つ(すべて画像またはすべてビデオ)のが通常最も簡単で、モダリティを混合する必要がある場合は別のデータセットエントリを使用します。

  • 画像の場合frames = 18n+1を満たします。
  • ビデオの場合:短く一貫したクリップを使用;長いマルチシーンセグメントは避けてください。

これはキャラクター作業において重要です:画像からアイデンティティをブートストラップし、後で短いクリップでモーションを洗練できます。

3.3 必要なデータ量(現実的なスケール)

単一の「公式最小値」はありませんが、ltx-2-19b LoRA 学習のための現実的な出発点は以下の範囲です:

  • 画像ベースのLoRA(アイデンティティ/小道具/スタイル):約20〜50枚のクリーンで多様な画像から始めます。照明、レンズ、構図全体でより強い堅牢性が必要な場合、50〜150枚のキュレートされた画像が、ほぼ重複を繰り返すよりも通常は役立ちます。
  • ビデオベースのLoRA(モーション/カメラ/時間的一貫性):長いビデオを数本ではなく、20〜60本の短い一貫したクリップ(シングルアクションショット)を目指します。より広範または動きの多い目標の場合、50〜150本の短いクリップ(または約10〜30分の「良い」映像)にスケールアップすると、著しく安定した結果が得られる傾向があります。

3.4 キャプションの品質は思っている以上に重要

LTX-2はより長く詳細なキャプションによく反応します、特に制御可能な結果が必要な場合。クリップにスピーチや重要なサウンドキューが含まれている場合、トレーニングスタックがサポートしていれば、キャプション(またはトランスクリプト抜粋)に含めてください。

実践的なキャプションのヒント:

  • アイデンティティLoRAの場合:一貫したアイデンティティトークンを含め(他のすべてを変化させる:照明、衣装、背景、レンズ)。
  • スタイルLoRAの場合:スタイル記述子を一貫させ、被写体/アクションを変化させます。
  • モーションLoRAの場合:アクションを正確に記述します(テンポ、ボディメカニクス、カメラ移動)。

3.5 正則化は「アンチブリード」ツールです(LoRAが狭い場合に使用)

狭いコンセプト(1人のキャラクター、1つの製品)をトレーニングしている場合、オーバーフィットして「すべてが私のデータセットのように見える」結果になりやすいです。AI Toolkitでは、Differential Output Preservation(DOP)がその種のドリフトを減らすように設計されており、「正則化」データセットと自然に組み合わせられます。

シンプルな正則化セット:

  • メインデータセットと同様のフレーミングの一般的なクリップ/画像
  • 一般的なドメインに一致するキャプション(ただし、ユニークなアイデンティティトークンは含まない)

4. Ostris AI Toolkitのトレーニングの考え方

AI Toolkitは本質的に、UIでラップされた一貫したトレーニングエンジンです:モデルファミリーを選択し、データセットを添付し、LoRAターゲット+ランクを定義し、最適化+サンプリングを調整します。UIパネルは基礎となるトレーニング設定にクリーンにマッピングされます:Job、Model、Quantization、Target、Training、Regularization、Datasets、Sample。

これがあなたにとって意味すること:基本的なことにモデル固有のスクリプトは必要なく、同じメンタルモデル(ランク/ステップ/LR/キャッシング/正則化)が適用されますが、LTX-2のサイズとビデオの性質により、いくつかの設定がより「敏感」になります(ランク、VRAM最適化、フレーム)。

Ostris AI Toolkitが初めての場合は、LTX-2固有の設定を調整する前に、AI Toolkit LoRAトレーニング概要から始めて、UIパネルとコアパラメータを理解してください:

AI Toolkit LoRAトレーニング概要

実行場所を決める場合:

  • ローカルAI Toolkit:すでに互換性のあるGPUを持っていて、環境を完全に制御したい場合に最適。
  • RunComfy cloud AI Toolkit:セットアップをスキップし、高VRAM GPUでトレーニングし、「私のマシンでは動かない」問題を減らして高速にイテレーションしたい場合に最適—特にLTX-2の大きなチェックポイントとビデオワークロードに役立ちます。RunComfy cloud AI Toolkitを開く

5. ステップバイステップ:AI ToolkitでのLTX-2のLoRA学習

5.1 AI Toolkitでデータセットを作成

Datasetsパネル/ジョブのDatasetセクションで:

  • Target Dataset:アップロードしたデータセット
  • Default Caption:グローバルサフィックスが必要でない限り空白のまま
  • Caption Dropout Rate:約0.05から始める(汎化に役立つ)
  • Cache Latents:ディスクスペースに余裕があればON(繰り返しで大きな速度向上、ただしビデオレイテントキャッシュはすぐに大きくなる)
  • Num Frames
    • 画像のみのデータセットの場合1
    • ビデオの場合、目標に応じて49 / 81 / 121
  • Resolutions512 + 768を有効にして開始;セットアップを証明するまで1024+は避ける

狭いアイデンティティLoRAを作成する場合、2番目のデータセットエントリを追加し、Is Regularizationとしてマークします(保存の積極性に応じて、ウェイトを低くまたは同等に保つ)。

5.2 新しいTraining Job → Model

Modelセクションで:

  • Model ArchitectureLTX-2(ビルドで利用可能な場合)
  • Name or Path:ベースモデルのHugging Face model id(例:Lightricks/LTX-2
  • チェックポイント選択LTX-2 Trainer LoRA学習にはdevチェックポイントを選択:
    • ltx-2-19b-devはフルモデルで、bf16でトレーニング可能です。
    • distilledチェックポイントは主に高速推論用(8ステップ、CFG=1)であり、蒸留された動作を特に適応させたい場合を除き、LoRAトレーニングのデフォルトの出発点ではありません。

5.3 量子化 + VRAMオプション

LTX-2は大きいため、量子化/オフロードをよく使用します:

  • H100/H200クラスのVRAMでは、bf16をより快適に実行できることが多いです。
  • 24〜48 GB GPUでは、量子化と「Low VRAM」モードが不可欠になります。

2つの実践的な注意:

  • LTX-2自体には、フルモデルの公式量子化バリアント(fp8 / nvfp4)が付属しています;それらのウェイトからトレーニングできるかどうかは、トレーナーの実装に依存します。
  • 別に、8ビットオプティマイザー(例:AdamW8bit)は、コンシューマーハードウェアでのトレーニングを実用的にするために一般的に使用されます。

5.4 Target = LoRA + ランク

ここでLTX-2のLoRA学習が小さなモデルと異なります。

  • Target Type:LoRA
  • Linear Rank32から始める
    • 多くのLTX-2 LoRAトレーナーは、ランク32が実用的な最小値であると報告しています。
    • VRAMに余裕があり、より多くの容量が必要な場合(複雑なスタイル、マルチコンセプト)、64をテストしてください。

5.5 トレーニングハイパーパラメータ(堅実な最初の実行)

爆発しない値から始めます:

  • Batch Size:1(ビデオはほぼ常にここで終わる)
  • Gradient Accumulation:より安定した有効バッチが必要で、時間に余裕があれば2〜4
  • Steps
    • 最初のパスで2,000〜3,000
    • より大きなデータセットや微妙なスタイルがある場合は長くする
  • Optimizer:AdamW8bit(VRAM効率のための一般的な選択)
  • Learning Rate:開始時0.0001、オーバーフィッティングやアイデンティティの「バーンイン」が速すぎる場合は0.00005
  • Weight Decay:〜0.0001
  • Timestep Type / Bias:変更する理由がわからない限りデフォルトを維持
  • DOP / Blank Prompt Preservation:スタイルブリードやベースの汎用性の喪失が見られる場合はDOPを有効にする。

5.6 トレーニング中のサンプリング(スキップしないでください)

サンプリングはLTX-2 LoRA学習の早期警告システムです。使用してください。

  • Sample Every:250ステップ(良いケイデンス)
  • Sampler / Scheduler:LTX-2プリセットのデフォルトから始め、ベースラインができてから実験してください。
  • Guidance + ステップは、サンプリングしているチェックポイントに依存
    • dev実行の場合、一般的な出発点はguidance 〜425〜30サンプリングステップです。
    • distilledの場合、公開された動作は8ステップ、CFG=1なので、guidance = 1steps = 8でサンプリングしてください(さもないと「なぜ悪く見えるのか?」という混乱が生じます)。
  • Width/Height/Frames:トレーニングバケット(または代表的なターゲット)に合わせる

実際の使用に合ったサンプルプロンプトを書きます:

  • トリガーワードを含める(アイデンティティLoRAの場合)。
  • カメラ/モーション記述子を含める(それらが重要な場合)。
  • オーバーフィッティングを明らかにする「退屈な」プロンプトを1つ保持する(シンプルな照明、シンプルなアクション)。

6. LTX-2 LoRA学習の時間予測

普遍的な数字はありません。ランタイムを実用的な推定として扱い、フレーム/解像度、オフロード/量子化の選択、サンプリング頻度によって変動する可能性があることを認識してください。

現実的なメンタルモデル:

  • フレームは多くの場合最大のレバーです:121 → 81 → 49は「トレーニングできる」と「クロール / OOM」の違いになることがあります。
  • サンプリングオーバーヘッドは、大きなビデオを頻繁にサンプリングする場合、トレーニング時間に匹敵することがあります。

大まかな参考として:H100で、小さなビデオデータセット(約20クリップ、各3〜5秒)、batch=1rank=32、gradient checkpointingを有効にした場合、768程度の解像度バケットと中程度の長さのフレームバケット(例:49〜81フレーム)で、トレーニングステップあたり一桁秒が一般的です。正確なステップ時間は、I/O、キャッシング、オーディオ対応の前処理を行っているかどうかによって大きく異なります。

サンプリングにも予算を立てましょう:「3プロンプト × 25ステップ × 121フレーム @ 1024×768」のプレビューは、実行するたびに簡単に数分かかることがあります。250ステップごとにサンプリングすると、そのオーバーヘッドは2,000ステップの実行全体で急速に積み上がります。


7. LTX-2 LoRA学習での一般的な問題(と解決方法)

  • 間違ったフレーム数:データセットが121ではなく120フレームを使用している場合、エラーまたはサイレントな不一致が発生します。8n+1フレーム数(1、9、17、25、…、49、81、121、…)を守ってください。
  • 間違ったサイズ:幅/高さは32で割り切れる必要があります。自動パディングしないパイプラインを使用している場合は、適切にリサイズ/バケット化してください。
  • ランクが低すぎる:症状は「トレーニングしているが何も変わらない」、またはLoRAスケール1.0でも弱いアイデンティティ/スタイル強度。ランク32を試してください。
  • オーバーフィッティング / LoRAブリード:無関係なプロンプトに被写体が表示される。DOPを有効にし、正則化データセットを追加してください。
  • キャプションが短すぎる:プロンプト遵守が崩壊する。キャプションを拡張してください(何を、どこで、カメラ、モーション、ムード;関連する場合はオーディオキュー/トランスクリプトも)。
  • 蒸留サンプリングの混乱:25+ステップまたはCFG>1で蒸留チェックポイントをサンプリングしている場合、意図通りにテストしていません。蒸留プレビューには8ステップ、CFG=1を使用してください。
  • VRAM OOM:まずフレームを減らし(121 → 81 → 49)、次に解像度を減らし(768 → 512)、次にオフロード/量子化/キャッシングを有効にしてください。

8. LTX-2のLoRA学習:クイックFAQ

画像のみからLTX-2 LoRAをトレーニングできますか?

はい、画像のみのデータセットを使用し、フレーム数を1に設定してください。アイデンティティとスタイルには最適です。モーションの学習には向いていません。

LoRAトレーニングにはdevと蒸留チェックポイントのどちらを使うべき?

LTX-2のLoRA学習にはltx-2-19b-devから始めてください;bf16で柔軟/トレーニング可能と明示的に説明されています。蒸留チェックポイントは主に高速推論用(8ステップ、CFG=1)です。

どのランクを使うべき?

32から始めてください。「実際に学習する」ために、多くの初期のLTX-2トレーナーがここに落ち着いています。

サンプルがガクガクしたり一貫性がないのはなぜ?

通常、以下の組み合わせです:VRAMに対してクリップが長すぎる(積極的なオフロードを強制)、モーション/カメラを説明しないキャプション、またはチェックポイントに一致しないサンプリング設定(特に蒸留をdevのようにサンプリング)。フレームを減らし、キャプションを締め、サンプリングしているチェックポイントにguidance/ステップを合わせてください。


9. さらに学ぶ:その他のAI Toolkit LoRAトレーニングガイド

モデルファミリー間でワークフロー、データセット、パラメータのトレードオフを比較したい場合、これらのガイドが良い参考になります:

Ready to start training?