Wan 2.2 T2V 14B LoRA訓練指南（文生影片）：Ostris AI Toolkit

Wan 2.2 T2V 14B 文字轉影片 LoRA 訓練讓你能夠從簡單的文字提示生成具有強大動作、細節和相機控制的豐富5秒影片片段。完成本指南後，你將能夠：

使用 AI Toolkit 訓練 Wan 2.2 T2V 14B LoRA，實現一致的角色、鮮明的風格和動作/相機行為。
在24GB+ NVIDIA GPU（使用4位元ARA量化）的本地訓練和H100/H200 GPU的雲端訓練之間做出選擇，並了解每個層級能夠實際處理什麼。
理解Wan的高噪聲和低噪聲專家如何與Multi-stage、Timestep Type/Bias、Num Frames和解析度交互，從而控制LoRA在哪裡注入變化。
逐面板配置AI Toolkit（JOB、MODEL、QUANTIZATION、MULTISTAGE、TARGET、SAVE、TRAINING、DATASETS、SAMPLE），以便將相同的配方適應不同的LoRA目標和硬體。

本文是AI Toolkit LoRA訓練系列的一部分。如果你是Ostris AI Toolkit的新手，請先閱讀AI Toolkit LoRA訓練概述，然後再深入本指南。

1. Wan 2.2 T2V 14B LoRA訓練概述

Wan 2.2是一個開放的文字/影片模型家族，包含三個主要變體：一個5B文字/圖片轉影片模型和兩個14B模型（T2V和I2V）。（Wan 2.2 GitHub）。本指南針對14B文字轉影片模型Wan2.2‑T2V‑A14B。

雙Transformer「高噪聲/低噪聲」設計

在底層，Wan 2.2 14B使用混合專家（Mixture-of-Experts）文生影片backbone進行Wan 2.2 T2V 14B 文字轉影片 LoRA 訓練：

高噪聲：約14B參數的transformer，處理去噪的早期高噪聲部分（粗略構圖、全域運動、相機）。
低噪聲：約14B參數的transformer，細化接近結束時相對乾淨的幀（細節、紋理、身份）。

整個模型大約有27B參數，但在每個擴散步驟中只有一個專家（約14B參數）處於活動狀態。時間步在噪聲調度中大約t ≈ 875（滿分1000）處分割：大約1000→875給高噪聲專家，875→0給低噪聲專家，內部有偏移以保持軌跡上的平衡覆蓋。

對於Wan2.2-T2V-A14B LoRA 微調，這意味著：

你通常希望同時訓練兩個專家，這樣你的LoRA就能在整個去噪鏈上工作——既包括構圖/運動，也包括細節/身份。
在較小的GPU上，將兩個transformer都保持在VRAM中並在每一步交換它們的代價很高，這就是為什麼AI Toolkit提供了Multi-stage面板和Low VRAM + ARA量化 + "Switch Every N steps"選項來以速度換取VRAM。

2. 在哪裡訓練Wan 2.2 T2V LoRA（本地vs雲端）

你可以在兩種環境中遵循本教學；AI Toolkit介面是相同的。

選項A – 本地AI Toolkit（你自己的GPU）

從GitHub AI Toolkit倉庫安裝AI Toolkit並執行web介面。如果你熟悉CUDA/驅動程式並且已經有24GB+ NVIDIA GPU（RTX 4090 / 5090 / A6000等），這是最佳選擇。
由於Wan 2.2 14B很重，Mac和24GB以下的GPU通常只適合在512解析度下的純圖片LoRA（Num Frames = 1）。對於嚴肅的Wan 2.2 T2V 14B 文字轉影片 LoRA 訓練，你確實需要24GB+和激進的量化。

選項B – RunComfy上的雲端AI Toolkit（H100 / H200）

開啟RunComfy上的雲端AI Toolkit並登入。你會直接進入預裝了所有相依套件的AI Toolkit介面。
對於Wan 2.2 T2V 14B 文字轉影片 LoRA 訓練，在啟動作業時選擇H100（80GB）或H200（141GB）機器，這樣你就可以在更高解析度下訓練長影片。

使用雲端的好處：

零配置 – CUDA、驅動程式和模型權重都已配置好。
巨大的VRAM – 你可以在768–1024解析度下執行33–81幀LoRA，使用合理的batch大小，無需與OOM錯誤作鬥爭。
持久工作空間 – 你的資料集、作業和LoRA檢查點保存在你的RunComfy帳戶中，你可以稍後恢復或迭代。

3. Wan 2.2 T2V LoRA的硬體和VRAM預期

Wan 2.2 14B比圖片模型或Wan 2.1重得多：

在1024×1024和81幀下的官方T2V工作流如果不量化，即使在高階消費級GPU上也可能會OOM。
在1024² / 81幀下的長序列LoRA訓練即使在48–96GB伺服器卡上也可能需要數小時，尤其是在2–4k步時。
該模型的官方AI Toolkit範例配置（train_lora_wan22_14b_24gb.yaml）針對24GB GPU進行了調優，使用4位元ARA量化和Num Frames = 1（僅圖片）作為安全的預設值。

按VRAM層級的合理心智模型用於Wan 2.2 文字生成影片 LoRA：

層級	範例GPU	舒適範圍
24GB「消費級」	4090 / 5090 / A6000	僅圖片LoRA（Num Frames = 1）在512–768 px，使用4位元ARA和Low VRAM = ON。短影片LoRA（33–41幀 @ 512）可行但緩慢且VRAM緊張。
48–64GB「專業級」	雙4090，部分伺服器GPU	33–41幀影片LoRA在768–1024 px，使用4位元ARA和最小卸載。速度、容量和品質的良好平衡。
80–141GB「雲端」	RunComfy上的H100 / H200	1024²下的81幀訓練，Batch Size 1–2，很少或無卸載，使用float8或4位元ARA。非常適合嚴肅的長序列影片LoRA。

4. 建構Wan 2.2 T2V LoRA資料集

Wan T2V LoRA可以在以下內容上訓練：

圖片 – 作為1幀「影片」處理（Num Frames = 1）。
影片片段 – T2V模型的真正優勢；你通常會使用3–8秒的短片段。

4.1 決定你要訓練什麼類型的LoRA

從三個大類的角度思考，並相應地設計你的資料集：

角色LoRA（面部/身體/服裝）
目標：保持Wan的通用能力，但注入一個新的人物、頭像或服裝，你可以透過觸發詞來調用。使用同一個人的10–30張高品質圖片或短片段，具有不同的姿勢、背景和光照。避免與基礎模型衝突的重濾鏡或風格化。在標題中包含一個獨特的觸發詞（例如"zxq-person"），加上對服裝、光照和構圖的豐富描述，以便LoRA能夠乾淨地學習概念。
風格LoRA（外觀和感覺）
目標：保持內容靈活，但施加視覺風格（膠卷質感、動漫風格、繪畫感等）。使用10–40張圖片或片段，它們共享相同的外觀——一致的顏色、對比度、相機感覺——但主題和場景多樣。標題應強調風格詞彙，例如"油畫，厚重的堆彩，溫暖的橙色光照，高對比度"，而不是列舉具體物件。
運動/相機LoRA
目標：教Wan時間行為（環繞、平移、推拉、精靈式迴圈等）。使用10–30個短片段（約5秒）展示目標運動，理想情況下是在不同主題和環境中的相同類型運動。標題必須明確提到運動關鍵字，如"環繞主體180度"、"橫向捲動攻擊動畫"或"緩慢推鏡頭聚焦角色"，以便模型知道你關心的是什麼行為。

4.2 解析度和寬高比

Wan 2.2 14B T2V是為接近正方形的1024×1024級幀建構的。官方範例使用1024²或接近的變體，具有內部分桶處理較低解析度。

對於Wan 2.2 T2V 14B 文字轉影片 LoRA 訓練：

在24GB GPU上，優先選擇512或768解析度桶，並在DATASETS面板中取消勾選1024以節省VRAM。
在48GB+ GPU或H100/H200上，你可以同時啟用768和1024桶以獲得更清晰的結果，特別是對於角色和風格LoRA。

AI Toolkit會將你的影片縮小並分類到所選解析度中；你主要需要確保來源片段是高品質的，沒有巨大黑邊的信箱化。

4.3 影片片段長度和Num Frames

Wan 2.2在大約16 FPS的5秒片段上進行了預訓練，每個訓練序列約81幀（遵循4k+1模式）。

DATASETS面板中AI Toolkit的Num Frames欄位控制從每個影片中取樣多少幀：

對於圖片，設定Num Frames = 1 – 每張圖片被視為1幀影片。
對於影片，好的選擇是：

81 – 「完全保真」；匹配預訓練但非常消耗VRAM。
41 – 大約一半的幀和大約一半的VRAM/時間；對較大GPU是強勁的中間選擇。
33 – 一個激進的、對VRAM友好的選項，用於24GB本地訓練，結合512 px解析度。

幀在每個片段中均勻取樣，所以你不需要每個影片都正好是5秒。重要的是有用的運動佔據片段：修剪掉長的靜態開場/結尾，使幾乎每個取樣幀都包含有意義的運動或身份訊號。

幀數通常選擇遵循Wan特定的「4n+1」模式（例如9、13、17、21、33、41、81）。堅持這些值往往會產生更穩定的時間行為，因為它與模型的內部視窗化相匹配。

4.4 標題策略

每個片段的標題對於影片LoRA比簡單的圖片LoRA更重要，特別是對於運動和風格。

對於圖片/角色LoRA，目標是10–30張圖片或短片段，每個都有包含觸發詞加描述的標題，例如：
"[trigger]的肖像，中景，攝影棚照明，穿皮夾克，35mm鏡頭"。

在訓練時，如果你使用這種模式，AI Toolkit會將[trigger]替換為JOB面板中的實際觸發詞。
對於運動LoRA，確保運動詞出現並在片段之間保持一致，例如：
"環繞中世紀城堡180度"，

"泰迪熊揮劍的橫向捲動攻擊動畫"。

現在，只需確保每個圖片或片段要麼有一個好的每檔案.txt標題，要麼你將在DATASETS面板中設定有用的Default Caption。在TRAINING部分，我們將決定是在基於標題的模式（直接使用這些標題）還是在高VRAM設定上的僅觸發詞模式下執行。

5. 逐步指南：在AI Toolkit中訓練Wan 2.2 T2V 14B LoRA

在本節中，我們逐面板瀏覽AI Toolkit介面，用於Wan 2.2 T2V 14B上的影片LoRA。

本指南的基線假設：

你正在以512或768解析度訓練影片LoRA（Num Frames = 33）。
你在24–32GB GPU上，或者在RunComfy上使用Low VRAM技巧執行等效設定。
你的資料集是一個包含影片+標題的Wan T2V資料集資料夾。

稍後我們將為H100/H200和更高VRAM層級新增註釋。

5.1 JOB面板 – 基本作業中繼資料

設定高階中繼資料，以便稍後找到你的作業：

Job Name – 簡潔的名稱，如wan22_t2v_char_zxq_v1或wan22_t2v_style_neon_v1。包括模型、任務和簡短識別符。
Output Directory – AI Toolkit將寫入檢查點和日誌的位置，例如./output/wan22_t2v_char_zxq_v1。
GPU ID – 在本地安裝中，這指向你的實體GPU。在RunComfy雲端AI Toolkit上，你可以保留預設值；實際機器類型（H100/H200）稍後在Training Queue中選擇。
Trigger Word（可選） – 如果你計劃使用觸發詞工作流，將其設定為你的代幣（例如zxqperson）。在標題中你可以寫[trigger]，AI Toolkit會在載入時將其替換為你的觸發詞。保持簡短和獨特，以免與現有代幣衝突。

5.2 MODEL面板 – Wan 2.2 T2V基礎模型

為ComfyUI Wan2.2 T2V LoRA 工作流程配置基礎模型和VRAM相關選項：

Model Architecture – 選擇Wan 2.2 T2V 14B（或你建構中的等效標籤）。
Name or Path – 基礎檢查點的Hugging Face模型ID（repo id），例如：ai-toolkit/Wan2.2-T2V-A14B-Diffusers-bf16。
在大多數AI Toolkit建構中，選擇Wan 2.2 T2V 14B會自動填充這個值；除非有理由更改，否則保持原樣。

如果你要覆寫，使用Hugging Face repo id格式：org-or-user/model-name（可選org-or-user/model-name@revision）。
Low VRAM – 在24–32GB GPU上，設定Low VRAM = ON，以便AI Toolkit可以使用額外的檢查點/卸載策略來使訓練成為可能。在H100/H200或48GB+上，你可以設定Low VRAM = OFF以獲得最大速度。
Layer Offloading – 如果你的建構公開了這個選項，你可以在24GB+上保持OFF，除非你仍然遇到OOM。在非常緊張的設定中，它可以將一些層串流傳輸到CPU RAM，代價是步驟明顯變慢。

5.3 QUANTIZATION面板 – 4位元ARA + float8文字編碼器

量化是使Wan 2.2 T2V 14B 文字轉影片 LoRA 訓練在消費級硬體上變得實用的關鍵。

Transformer – 設定為4bit with ARA。這是帶有精度恢復適配器的4位元量化；VRAM使用接近純4位元，但品質更接近bf16。
Text Encoder – 設定為float8（或qfloat8）。這減少了文字編碼器的VRAM和計算，對LoRA訓練品質的影響可以忽略不計。

在24–32GB GPU上，這種組合是影片LoRA訓練能夠實現的主要原因。

在H100/H200 / 48GB+ GPU上：

你可以保持4bit with ARA，將額外的VRAM用於更高解析度、更多幀或更高的LoRA rank，這通常會帶來更好的回報。
如果你更喜歡更簡單的堆疊，你可以將Transformer切換到純float8選項，同時保持Text Encoder為float8。完全回到bf16通常是不必要的。

5.4 MULTISTAGE面板 – 訓練高噪聲和低噪聲專家

這個面板公開了雙專家架構（高噪聲vs低噪聲transformer）以及訓練步驟如何在它們之間分配。

Stages to Train – 對於大多數LoRA，設定High Noise = ON和Low Noise = ON。這意味著兩個專家在訓練期間都會更新，因此LoRA會影響早期的構圖/運動和後期的細節/身份。
Switch Every – 在Low VRAM = ON的24–32GB GPU上，設定Switch Every = 10。這告訴AI Toolkit在切換到另一個專家之前在一個專家上花費多少步。例如，Steps = 3000時：

步驟1–10 → 高噪聲專家
步驟11–20 → 低噪聲專家
…重複直到訓練結束。

為什麼這很重要：

使用Low VRAM = ON時，AI Toolkit通常一次只在GPU記憶體中保留一個專家。切換時，它會卸載一個約14B參數的transformer並載入另一個。
如果你設定Switch Every = 1，你會強制每一步都載入/卸載巨大的權重，這非常慢。
使用Switch Every = 10，你仍然能獲得大約50/50的高/低噪聲覆蓋，但只每10步切換一次而不是每步，這樣效率高得多。

LoRA類型提示：

對於角色或風格影片LoRA，保持High Noise和Low Noise都ON；構圖和細節都很重要。
對於運動/相機LoRA，高噪聲對全域運動至關重要。從兩個階段都ON開始，如果你想要非常有針對性的行為，以後再嘗試僅高噪聲訓練。

在H100/H200上：

你可以設定Switch Every = 1，因為兩個專家都可以駐留在VRAM中，切換開銷可以忽略不計。

5.5 TARGET面板 – LoRA rank和容量

這個面板控制你訓練什麼類型的適配器以及它有多少容量。

Target Type – 設定為LoRA。
Linear Rank – 對於Wan 2.2 T2V，一個好的預設值是16：

Rank 16保持LoRA小巧，訓練快速。
對於512–768解析度的角色、風格和運動LoRA通常足夠。

如果你有一個非常多樣化的資料集（許多主題、風格或運動）和足夠的VRAM：

你可以將Linear Rank增加到32，給LoRA更多的表達能力。
除非你知道需要那麼多容量，否則避免超過64；非常高的rank可能會過擬合，使LoRA更難控制。

在H100/H200上，從Rank 16開始，對於複雜的全能LoRA可以增加到32，這是一個合理的範圍。

5.6 SAVE面板 – 檢查點計劃

配置在訓練期間儲存LoRA檢查點的頻率：

Data Type – 設定為BF16。這與Wan 2.2通常的執行方式匹配，對LoRA權重穩定。
Save Every – 設定為250步。對於3000步的執行，這會在整個訓練過程中產生12個檢查點。
Max Step Saves to Keep – 設定為4或6，這樣你不會遺失可能實際上比最後一個看起來更好的早期檢查點。

實際上你很少會使用最後一個檢查點；許多使用者在比較樣本後更喜歡2000–3000步範圍內的某個檢查點。

在H100/H200上：

如果你執行很長時間（例如大資料集的5000–6000步），要麼保持Save Every = 250並增加Max Step Saves to Keep，要麼設定Save Every = 500以限制檢查點數量。

5.7 TRAINING面板 – 核心超參數和文字編碼器模式

現在我們設定核心訓練超參數，然後選擇如何處理文字編碼器和可選的正則化。

5.7.1 核心訓練設定

對於Wan 2.2 T2V上的通用影片LoRA：

Batch Size – 在24–32GB上，設定Batch Size = 1。對於T2V，這已經消耗了大量VRAM。在H100/H200上，如果有足夠的餘量，你可以增加到2。
Gradient Accumulation – 從1開始。如果VRAM緊張但你想要更大的有效batch，可以設定為2–4；有效batch大小是Batch Size × Gradient Accumulation。
Steps – 典型範圍：

約10–20個片段的小型、聚焦的運動LoRA：1500–2500步。
20–50個片段的角色或風格LoRA：2000–3000步。
非常大的資料集可以更高，但通常提高資料品質比簡單地新增更多步驟更好。

Optimizer – 設定Optimizer = AdamW8Bit。8位元Adam顯著減少VRAM，同時行為類似於標準AdamW。
Learning Rate – 設定Learning Rate = 0.0001作為強預設值。如果訓練看起來不穩定或樣本在步驟之間劇烈振盪，降低到0.00005。如果訓練似乎過早平穩，考慮增加步數而不是提高Learning Rate。
Loss Type – 保持Mean Squared Error (MSE)。這與Wan的原始訓練損失匹配，是標準選擇。

Wan 2.2使用flow-matching噪聲調度器，AI Toolkit內部處理。在SAMPLE面板中，你也應該使用相容FlowMatch的取樣器，以便預覽與訓練設定匹配。

5.7.2 Timestep Type和Timestep Bias – LoRA聚焦的位置

這兩個欄位控制訓練期間哪些時間步被強調，以及更新如何在擴散鏈上分佈。

Timestep Type – 控制時間步的分佈：

Linear – 在調度中均勻取樣時間步；中立、安全的預設值。
Sigmoid / 其他形狀模式 – 將訓練偏向中/低噪聲；有時對角色和詳細風格有幫助。
Shift / Weighted – 進一步強調噪聲調度的特定區域，通常與Timestep Bias結合使用。

Timestep Bias – 告訴AI Toolkit強調軌跡的哪個部分：

Balanced – 更新大致均勻地分佈在高噪聲和低噪聲之間。
Favor High Noise – 偏向早期、噪聲大的步驟，強調構圖、佈局和全域運動。
Favor Low Noise – 偏向後期、乾淨的步驟，強調身份、紋理和微細節。

Wan2.2-T2V-A14B LoRA 微調的推薦組合：

運動/相機LoRA – 設定Timestep Type = Linear和Timestep Bias = Balanced作為安全的預設值。
如果你想要一個真正鎖定相機路徑的純運動LoRA，你可以進一步推向Timestep Bias = Favor High Noise，因為高噪聲專家是Wan 2.2決定佈局和運動的地方。
風格LoRA – 設定Timestep Type = Linear或Shift和Timestep Bias = Favor High Noise。
風格、調色和「膠卷質感」主要存在於軌跡的高噪聲/早期部分，因此偏好高噪聲讓LoRA能夠重寫全域色調，同時將後期細節主要留給基礎模型。
角色LoRA – 設定Timestep Type = Sigmoid（或Linear）和Timestep Bias = Balanced。
身份和相似性更多依賴於低噪聲專家，但你仍然希望對構圖和光照有一些影響。對於非常注重身份的LoRA，你可以嘗試稍微偏好低噪聲步驟，但Balanced是最安全的預設值。

5.7.3 EMA（指數移動平均）

Use EMA – 對於LoRA，EMA是可選的，會增加額外開銷。大多數使用者對Wan 2.2 LoRA保持OFF，將EMA保留給完整模型訓練。除非你知道你想要整合更平滑的權重，否則忽略EMA是安全的。

5.7.4 文字編碼器最佳化 – 標題vs觸發詞模式

這些開關控制文字編碼器是否保持載入以及embedding是否被快取。

Unload TE – 如果設定ON，AI Toolkit會在步驟之間從VRAM中移除文字編碼器，依賴於靜態embedding（例如觸發詞），有效地在訓練期間關閉動態標題。這節省VRAM但意味著標題不會在每一步重新編碼。
Cache Text Embeddings – 當設定ON時，AI Toolkit對每個標題執行一次文字編碼器，快取embedding，然後安全地從VRAM中釋放文字編碼器。這對於在受限VRAM上進行基於標題的訓練非常推薦，因為它避免了每步重新編碼，但仍然使用你的每個片段的標題。

典型模式：

對於24–32GB基於標題的訓練，設定Cache Text Embeddings = ON並保持Unload TE = OFF。這給你提供了帶有完整標題資訊的高效訓練。
對於在非常高VRAM（H100/H200）上的僅觸發詞訓練，你可以設定Unload TE = ON，依賴於單個觸發代幣而不是完整標題。

5.7.5 差分輸出保持（DOP）

差分輸出保持是一種可選的正則化，鼓勵LoRA表現得像基礎模型的純殘差編輯：

AI Toolkit渲染兩個預測：

一個使用基礎模型（無LoRA），
一個使用啟用LoRA。

它懲罰這些輸出之間的差異，除非你明確希望改變（透過你的觸發詞和標題）。

關鍵欄位：

Differential Output Preservation – 主開關。
DOP Loss Multiplier – 正則化損失的強度。
DOP Preservation Class – 一個類別代幣，如person、scene或landscape，描述應該保持什麼。

用法：

對於風格和角色LoRA，DOP可以幫助保持Wan優秀的基礎真實感不變，同時LoRA新增受控的修改。簡單配方：

Differential Output Preservation = ON
DOP Loss Multiplier = 1
DOP Preservation Class = 角色LoRA用person，或寬泛風格LoRA用scene / landscape（如果可用）。

對於運動/相機LoRA，你通常不需要DOP；行為變化已經是局部的，DOP大約會使計算翻倍。

重要的相容性說明：

DOP透過每步重寫提示來工作（在其中一個分支中將你的觸發詞與保持類別交換）。因此，DOP要求文字編碼器每步重新編碼提示，並且與Cache Text Embeddings不相容。
如果你開啟DOP ON：

你必須在JOB面板中設定觸發詞，
你必須保持Cache Text Embeddings = OFF，以便文字編碼器保持活動並能夠每步重新編碼修改後的提示。

在H100/H200上，DOP的額外計算成本對於高品質的角色和風格LoRA通常是可以接受的。

5.8 ADVANCED面板 – 差分引導（可選）

如果你的建構公開了帶有以下內容的ADVANCED面板：

Do Differential Guidance
Differential Guidance Scale

你可以將其視為AI-Toolkit特定的額外技巧：

開啟Do Differential Guidance = ON並設定Scale = 3告訴模型更多地關注基礎和LoRA修改預測之間的差異，在精神上類似於DOP但作為引導項實現。
這可以使有針對性的編輯（例如「霓虹輪廓風格」或「環繞相機行為」）更快收斂而不提高Learning Rate。
如果樣本在訓練早期看起來不穩定或太銳利，你可以將scale降低到2。如果學習感覺非常慢，你可以嘗試4。

大多數使用者可以安全地為他們的第一個Wan 2.2 LoRA保持OFF，熟悉後再進行實驗。

5.9 DATASETS面板 – 連接你的Wan T2V資料集

每個Dataset區塊對應內部datasets:列表中的一個條目。

對於單個Wan T2V資料集：

Target Dataset – 選擇包含影片和標題的Wan T2V資料集資料夾（例如wan_orbit_clips或wan_char_zxq_clips）。
LoRA Weight – 設定為1，除非你混合多個資料集並想重新平衡它們。
Default Caption – 僅在單個片段沒有.txt標題時使用。例如：

角色/風格："zxqperson的肖像，zxqstyle，電影感光照"。
運動："環繞主體360度，zxq_orbit"。

Caption Dropout Rate – 像0.05這樣的值會為5%的樣本丟棄標題，使模型也關注視覺而不是過擬合措辭。
如果你嚴重依賴Cache Text Embeddings，這裡要保守；當文字編碼器活躍且標題可以變化時，caption dropout最有效。
Settings → Cache Latents – 對於影片LoRA，這通常是OFF，因為為許多幀快取VAE latents在磁碟和RAM上很重。保持你的來源影片高品質。
Settings → Is Regularization – 保持OFF，除非你有專門的正則化資料集。
Flipping（Flip X / Flip Y） – 對於大多數影片LoRA，保持兩者都OFF：

水平翻轉可能會破壞左/右運動語義和角色不對稱性，
垂直翻轉很少適合真實世界的鏡頭。

Resolutions – 啟用你希望AI Toolkit分桶的解析度：

在24–32GB上，啟用512，如果VRAM允許可選768，並停用1024+。
在H100/H200上，你可以啟用768和1024以匹配模型的首選工作點。

Num Frames – 為基準24–32GB影片LoRA配方設定Num Frames = 33。
33遵循4n+1規則（4·8+1），大約將成本減半（相比完整的81幀訓練），同時仍然給出清晰的時間模式。

AI Toolkit將在每個片段的持續時間內均勻取樣33幀；你只需要修剪片段，使你關心的運動佔據片段的大部分。

在H100/H200上，你可以將Num Frames增加到41或81，並將其與768–1024 px桶和Rank 16–32結合，以獲得非常強大的長序列LoRA。

5.10 SAMPLE面板 – 預覽你的LoRA

SAMPLE面板用於在訓練期間或之後生成預覽影片。

有用的設定：

Num Frames – 大致匹配訓練值（例如33或41），以便行為可預測。
Sampler / Scheduler – 使用與模型的噪聲調度匹配的相容FlowMatch的取樣器。
Prompt / Negative Prompt – 使用你訓練時相同的觸發詞和概念，這樣你可以快速判斷LoRA是否在做正確的事情。
Guidance Scale – 在訓練預覽期間，適中的值（例如2–4）是可以的；記住你可能在以後的正常推理工作流中使用不同的值。

在多個檢查點（例如每250–500步）生成樣本，並保留那些在視覺上平衡強度和穩定性的樣本。

6. Wan 2.2 T2V 14B LoRA訓練設定

本節總結了三種主要LoRA類型的實用配方。

6.1 角色影片LoRA（身份/頭像）

目標：在許多提示和場景中保持角色的面部、身體和一般身份。

資料集：

角色的10–30個短片段或圖片，具有不同的姿勢、背景和光照。
標題包含觸發詞和類別，例如：
"[trigger]的肖像，年輕女性，休閒服裝，攝影棚照明"。

Wan 2.2 T2V 14B 文字轉影片 LoRA 訓練的關鍵設定：

Num Frames – 24GB上為33；H100/H200上為41或81。
Resolutions – 512或768；高VRAM上新增1024。
Multi-stage – High Noise = ON，Low Noise = ON，Switch Every = 10（本地）或1（雲端）。
Timestep Type / Bias – Linear（或Sigmoid）與Balanced bias，以捕獲構圖和低噪聲身份細節。
Linear Rank – 16（24GB）或16–32（H100/H200）以獲得更細微的身份。
DOP – 當你想保持基礎真實感時，可選擇為角色LoRA啟用：

Differential Output Preservation = ON
DOP Loss Multiplier = 1
DOP Preservation Class = person
Cache Text Embeddings = OFF（DOP工作所需）

Steps – 2000–3000，每250–500步檢查樣本。

6.2 風格影片LoRA（電影感/動漫/調色）

目標：在保持內容靈活的同時施加強烈的視覺風格。

資料集：

10–40張圖片或片段，在不同主題和場景中共享相同的風格。
標題描述外觀（例如膠卷質感、筆觸、調色盤）而不是確切的物件。

Wan 2.2 文字生成影片 LoRA的關鍵設定：

Num Frames – 大多數用例為33–41；大GPU上的5秒片段為81。
Resolutions – 24GB上為512–768；高VRAM上為768–1024。
Multi-stage – High Noise = ON，Low Noise = ON，Switch Every = 10（本地）或1（雲端）。
Timestep Type / Bias – Linear或Shift與Timestep Bias = Favor High Noise，以便LoRA可以在構圖仍然流動的地方重寫全域顏色和對比度。
Linear Rank – 簡單風格為16；複雜、電影感外觀為16–32。
DOP – 當你想保持基礎真實感時，推薦用於風格LoRA：

Differential Output Preservation = ON
DOP Loss Multiplier = 1
DOP Preservation Class = scene / landscape或類似
Cache Text Embeddings = OFF

Steps – 1500–2500，當風格看起來強烈但不過度時停止。

6.3 運動/相機LoRA（環繞、平移、推拉移動）

目標：學習可以應用於許多主題的新相機移動或運動模式。

資料集：

10–30個3–8秒的片段，每個展示目標運動。
保持運動一致（例如都是環繞180或都是橫向捲動），但變化主題和場景。
標題明確說明運動關鍵字（"環繞主體180度"，"橫向捲動攻擊動畫"）。

ComfyUI Wan2.2 T2V LoRA 工作流程的關鍵設定：

Num Frames – 24GB上為33，更大GPU上為41–81。
Resolutions – 512（如果VRAM允許則768）。
Multi-stage – High Noise = ON，Low Noise = ON，Switch Every = 10（本地）或1（雲端）。
Timestep Type / Bias – Linear與Timestep Bias = Balanced，以便早期構圖和後期細化都能看到更新；運動本質上依賴於高噪聲。
Linear Rank – Rank 16通常足夠；運動更多關於行為而不是微小細節。
DOP – 通常保持OFF；運動已經是局部的，DOP會使前向傳遞翻倍。
Steps – 1500–2500；觀察預覽以確保運動能夠泛化到你的訓練片段之外。

7. 匯出和使用你的Wan T2V LoRA

訓練完成後，你可以透過兩種簡單方式使用你的Wan 2.2 T2V 14B LoRA：

Run LoRA – 開啟 Wan 2.2 T2V 14B Run LoRA 頁面。在這個基礎模型的推論頁面裡，你可以直接選擇你在 RunComfy 上訓練出來的 LoRA 資產，也可以 import 你用 AI Toolkit 訓練好的 LoRA 檔案，接著透過 playground 或 API 進行推論。RunComfy 會使用與你訓練設定一致的 base model，並復用訓練設定裡完整的 AI Toolkit pipeline 定義，所以訓練時看到什麼，推論就得到什麼；這種 training/inference 的強對齊能特別保證推論效果與訓練採樣的一致。
ComfyUI工作流程 – 啟動一個ComfyUI執行個體並建構你自己的工作流程，新增你的LoRA並微調LoRA權重和其他設定以獲得更詳細的控制。

OstrisAI-Toolkit

New Training Job

Job

Model

Quantization

Target

Save

Training

Advanced

Datasets

Dataset 1

Sample

目錄

1. Wan 2.2 T2V 14B LoRA訓練概述

雙Transformer「高噪聲/低噪聲」設計

2. 在哪裡訓練Wan 2.2 T2V LoRA（本地vs雲端）

選項A – 本地AI Toolkit（你自己的GPU）

選項B – RunComfy上的雲端AI Toolkit（H100 / H200）

3. Wan 2.2 T2V LoRA的硬體和VRAM預期

4. 建構Wan 2.2 T2V LoRA資料集

4.1 決定你要訓練什麼類型的LoRA

4.2 解析度和寬高比

4.3 影片片段長度和Num Frames

4.4 標題策略

5. 逐步指南：在AI Toolkit中訓練Wan 2.2 T2V 14B LoRA

5.1 JOB面板 – 基本作業中繼資料

5.2 MODEL面板 – Wan 2.2 T2V基礎模型

5.3 QUANTIZATION面板 – 4位元ARA + float8文字編碼器

5.4 MULTISTAGE面板 – 訓練高噪聲和低噪聲專家

5.5 TARGET面板 – LoRA rank和容量

5.6 SAVE面板 – 檢查點計劃

5.7 TRAINING面板 – 核心超參數和文字編碼器模式

5.7.1 核心訓練設定

5.7.2 Timestep Type和Timestep Bias – LoRA聚焦的位置

5.7.3 EMA（指數移動平均）

5.7.4 文字編碼器最佳化 – 標題vs觸發詞模式

5.7.5 差分輸出保持（DOP）

5.8 ADVANCED面板 – 差分引導（可選）

5.9 DATASETS面板 – 連接你的Wan T2V資料集

5.10 SAMPLE面板 – 預覽你的LoRA

6. Wan 2.2 T2V 14B LoRA訓練設定

6.1 角色影片LoRA（身份/頭像）

6.2 風格影片LoRA（電影感/動漫/調色）

6.3 運動/相機LoRA（環繞、平移、推拉移動）

7. 匯出和使用你的Wan T2V LoRA

更多AI Toolkit LoRA訓練指南