Wan 2.2 T2V 14B 文字轉影片 LoRA 訓練讓你能夠從簡單的文字提示生成具有強大動作、細節和相機控制的豐富5秒影片片段。完成本指南後,你將能夠:
- 使用 AI Toolkit 訓練 Wan 2.2 T2V 14B LoRA,實現一致的角色、鮮明的風格和動作/相機行為。
- 在24GB+ NVIDIA GPU(使用4位元ARA量化)的本地訓練和H100/H200 GPU的雲端訓練之間做出選擇,並了解每個層級能夠實際處理什麼。
- 理解Wan的高噪聲和低噪聲專家如何與Multi-stage、Timestep Type/Bias、Num Frames和解析度交互,從而控制LoRA在哪裡注入變化。
- 逐面板配置AI Toolkit(JOB、MODEL、QUANTIZATION、MULTISTAGE、TARGET、SAVE、TRAINING、DATASETS、SAMPLE),以便將相同的配方適應不同的LoRA目標和硬體。
本文是AI Toolkit LoRA訓練系列的一部分。如果你是Ostris AI Toolkit的新手,請先閱讀AI Toolkit LoRA訓練概述,然後再深入本指南。
目錄
- 1. Wan 2.2 T2V 14B LoRA訓練概述
- 2. 在哪裡訓練Wan 2.2 T2V LoRA(本地vs雲端)
- 3. Wan 2.2 T2V LoRA的硬體和VRAM預期
- 4. 建構Wan 2.2 T2V LoRA資料集
- 5. 逐步指南:在AI Toolkit中訓練Wan 2.2 T2V 14B LoRA
- 6. Wan 2.2 T2V 14B LoRA訓練設定
- 7. 匯出和使用你的Wan T2V LoRA
1. Wan 2.2 T2V 14B LoRA訓練概述
Wan 2.2是一個開放的文字/影片模型家族,包含三個主要變體:一個5B文字/圖片轉影片模型和兩個14B模型(T2V和I2V)。(Wan 2.2 GitHub)。本指南針對14B文字轉影片模型Wan2.2‑T2V‑A14B。
雙Transformer「高噪聲/低噪聲」設計
在底層,Wan 2.2 14B使用混合專家(Mixture-of-Experts)文生影片backbone進行Wan 2.2 T2V 14B 文字轉影片 LoRA 訓練:
- 高噪聲:約14B參數的transformer,處理去噪的早期高噪聲部分(粗略構圖、全域運動、相機)。
- 低噪聲:約14B參數的transformer,細化接近結束時相對乾淨的幀(細節、紋理、身份)。
整個模型大約有27B參數,但在每個擴散步驟中只有一個專家(約14B參數)處於活動狀態。時間步在噪聲調度中大約t ≈ 875(滿分1000)處分割:大約1000→875給高噪聲專家,875→0給低噪聲專家,內部有偏移以保持軌跡上的平衡覆蓋。
對於Wan2.2-T2V-A14B LoRA 微調,這意味著:
- 你通常希望同時訓練兩個專家,這樣你的LoRA就能在整個去噪鏈上工作——既包括構圖/運動,也包括細節/身份。
- 在較小的GPU上,將兩個transformer都保持在VRAM中並在每一步交換它們的代價很高,這就是為什麼AI Toolkit提供了Multi-stage面板和Low VRAM + ARA量化 + "Switch Every N steps"選項來以速度換取VRAM。
2. 在哪裡訓練Wan 2.2 T2V LoRA(本地vs雲端)
你可以在兩種環境中遵循本教學;AI Toolkit介面是相同的。
選項A – 本地AI Toolkit(你自己的GPU)
- 從GitHub AI Toolkit倉庫安裝AI Toolkit並執行web介面。如果你熟悉CUDA/驅動程式並且已經有24GB+ NVIDIA GPU(RTX 4090 / 5090 / A6000等),這是最佳選擇。
- 由於Wan 2.2 14B很重,Mac和24GB以下的GPU通常只適合在512解析度下的純圖片LoRA(Num Frames = 1)。對於嚴肅的Wan 2.2 T2V 14B 文字轉影片 LoRA 訓練,你確實需要24GB+和激進的量化。
選項B – RunComfy上的雲端AI Toolkit(H100 / H200)
- 開啟RunComfy上的雲端AI Toolkit並登入。你會直接進入預裝了所有相依套件的AI Toolkit介面。
- 對於Wan 2.2 T2V 14B 文字轉影片 LoRA 訓練,在啟動作業時選擇H100(80GB)或H200(141GB)機器,這樣你就可以在更高解析度下訓練長影片。
使用雲端的好處:
- 零配置 – CUDA、驅動程式和模型權重都已配置好。
- 巨大的VRAM – 你可以在768–1024解析度下執行33–81幀LoRA,使用合理的batch大小,無需與OOM錯誤作鬥爭。
- 持久工作空間 – 你的資料集、作業和LoRA檢查點保存在你的RunComfy帳戶中,你可以稍後恢復或迭代。
3. Wan 2.2 T2V LoRA的硬體和VRAM預期
Wan 2.2 14B比圖片模型或Wan 2.1重得多:
- 在1024×1024和81幀下的官方T2V工作流如果不量化,即使在高階消費級GPU上也可能會OOM。
- 在1024² / 81幀下的長序列LoRA訓練即使在48–96GB伺服器卡上也可能需要數小時,尤其是在2–4k步時。
- 該模型的官方AI Toolkit範例配置(
train_lora_wan22_14b_24gb.yaml)針對24GB GPU進行了調優,使用4位元ARA量化和Num Frames = 1(僅圖片)作為安全的預設值。
按VRAM層級的合理心智模型用於Wan 2.2 文字生成影片 LoRA:
| 層級 | 範例GPU | 舒適範圍 |
|---|---|---|
| 24GB「消費級」 | 4090 / 5090 / A6000 | 僅圖片LoRA(Num Frames = 1)在512–768 px,使用4位元ARA和Low VRAM = ON。短影片LoRA(33–41幀 @ 512)可行但緩慢且VRAM緊張。 |
| 48–64GB「專業級」 | 雙4090,部分伺服器GPU | 33–41幀影片LoRA在768–1024 px,使用4位元ARA和最小卸載。速度、容量和品質的良好平衡。 |
| 80–141GB「雲端」 | RunComfy上的H100 / H200 | 1024²下的81幀訓練,Batch Size 1–2,很少或無卸載,使用float8或4位元ARA。非常適合嚴肅的長序列影片LoRA。 |
4. 建構Wan 2.2 T2V LoRA資料集
Wan T2V LoRA可以在以下內容上訓練:
- 圖片 – 作為1幀「影片」處理(Num Frames = 1)。
- 影片片段 – T2V模型的真正優勢;你通常會使用3–8秒的短片段。
4.1 決定你要訓練什麼類型的LoRA
從三個大類的角度思考,並相應地設計你的資料集:
- 角色LoRA(面部/身體/服裝)
目標:保持Wan的通用能力,但注入一個新的人物、頭像或服裝,你可以透過觸發詞來調用。使用同一個人的10–30張高品質圖片或短片段,具有不同的姿勢、背景和光照。避免與基礎模型衝突的重濾鏡或風格化。在標題中包含一個獨特的觸發詞(例如
"zxq-person"),加上對服裝、光照和構圖的豐富描述,以便LoRA能夠乾淨地學習概念。 - 風格LoRA(外觀和感覺)
目標:保持內容靈活,但施加視覺風格(膠卷質感、動漫風格、繪畫感等)。使用10–40張圖片或片段,它們共享相同的外觀——一致的顏色、對比度、相機感覺——但主題和場景多樣。標題應強調風格詞彙,例如
"油畫,厚重的堆彩,溫暖的橙色光照,高對比度",而不是列舉具體物件。 - 運動/相機LoRA
目標:教Wan時間行為(環繞、平移、推拉、精靈式迴圈等)。使用10–30個短片段(約5秒)展示目標運動,理想情況下是在不同主題和環境中的相同類型運動。標題必須明確提到運動關鍵字,如
"環繞主體180度"、"橫向捲動攻擊動畫"或"緩慢推鏡頭聚焦角色",以便模型知道你關心的是什麼行為。
4.2 解析度和寬高比
Wan 2.2 14B T2V是為接近正方形的1024×1024級幀建構的。官方範例使用1024²或接近的變體,具有內部分桶處理較低解析度。
對於Wan 2.2 T2V 14B 文字轉影片 LoRA 訓練:
- 在24GB GPU上,優先選擇512或768解析度桶,並在DATASETS面板中取消勾選1024以節省VRAM。
- 在48GB+ GPU或H100/H200上,你可以同時啟用768和1024桶以獲得更清晰的結果,特別是對於角色和風格LoRA。
AI Toolkit會將你的影片縮小並分類到所選解析度中;你主要需要確保來源片段是高品質的,沒有巨大黑邊的信箱化。
4.3 影片片段長度和Num Frames
Wan 2.2在大約16 FPS的5秒片段上進行了預訓練,每個訓練序列約81幀(遵循4k+1模式)。
DATASETS面板中AI Toolkit的Num Frames欄位控制從每個影片中取樣多少幀:
- 對於圖片,設定Num Frames = 1 – 每張圖片被視為1幀影片。
- 對於影片,好的選擇是:
- 81 – 「完全保真」;匹配預訓練但非常消耗VRAM。
- 41 – 大約一半的幀和大約一半的VRAM/時間;對較大GPU是強勁的中間選擇。
- 33 – 一個激進的、對VRAM友好的選項,用於24GB本地訓練,結合512 px解析度。
幀在每個片段中均勻取樣,所以你不需要每個影片都正好是5秒。重要的是有用的運動佔據片段:修剪掉長的靜態開場/結尾,使幾乎每個取樣幀都包含有意義的運動或身份訊號。
幀數通常選擇遵循Wan特定的「4n+1」模式(例如9、13、17、21、33、41、81)。堅持這些值往往會產生更穩定的時間行為,因為它與模型的內部視窗化相匹配。
4.4 標題策略
每個片段的標題對於影片LoRA比簡單的圖片LoRA更重要,特別是對於運動和風格。
- 對於圖片/角色LoRA,目標是10–30張圖片或短片段,每個都有包含觸發詞加描述的標題,例如:
"[trigger]的肖像,中景,攝影棚照明,穿皮夾克,35mm鏡頭"。在訓練時,如果你使用這種模式,AI Toolkit會將
[trigger]替換為JOB面板中的實際觸發詞。 - 對於運動LoRA,確保運動詞出現並在片段之間保持一致,例如:
"環繞中世紀城堡180度","泰迪熊揮劍的橫向捲動攻擊動畫"。
現在,只需確保每個圖片或片段要麼有一個好的每檔案.txt標題,要麼你將在DATASETS面板中設定有用的Default Caption。在TRAINING部分,我們將決定是在基於標題的模式(直接使用這些標題)還是在高VRAM設定上的僅觸發詞模式下執行。
5. 逐步指南:在AI Toolkit中訓練Wan 2.2 T2V 14B LoRA
在本節中,我們逐面板瀏覽AI Toolkit介面,用於Wan 2.2 T2V 14B上的影片LoRA。
本指南的基線假設:
- 你正在以512或768解析度訓練影片LoRA(Num Frames = 33)。
- 你在24–32GB GPU上,或者在RunComfy上使用Low VRAM技巧執行等效設定。
- 你的資料集是一個包含影片+標題的Wan T2V資料集資料夾。
稍後我們將為H100/H200和更高VRAM層級新增註釋。
5.1 JOB面板 – 基本作業中繼資料
設定高階中繼資料,以便稍後找到你的作業:
- Job Name – 簡潔的名稱,如
wan22_t2v_char_zxq_v1或wan22_t2v_style_neon_v1。包括模型、任務和簡短識別符。 - Output Directory – AI Toolkit將寫入檢查點和日誌的位置,例如
./output/wan22_t2v_char_zxq_v1。 - GPU ID – 在本地安裝中,這指向你的實體GPU。在RunComfy雲端AI Toolkit上,你可以保留預設值;實際機器類型(H100/H200)稍後在Training Queue中選擇。
- Trigger Word(可選) – 如果你計劃使用觸發詞工作流,將其設定為你的代幣(例如
zxqperson)。在標題中你可以寫[trigger],AI Toolkit會在載入時將其替換為你的觸發詞。保持簡短和獨特,以免與現有代幣衝突。
5.2 MODEL面板 – Wan 2.2 T2V基礎模型
為ComfyUI Wan2.2 T2V LoRA 工作流程配置基礎模型和VRAM相關選項:
- Model Architecture – 選擇
Wan 2.2 T2V 14B(或你建構中的等效標籤)。 - Name or Path – 基礎檢查點的Hugging Face模型ID(repo id),例如:
ai-toolkit/Wan2.2-T2V-A14B-Diffusers-bf16。在大多數AI Toolkit建構中,選擇
Wan 2.2 T2V 14B會自動填充這個值;除非有理由更改,否則保持原樣。如果你要覆寫,使用Hugging Face repo id格式:
org-or-user/model-name(可選org-or-user/model-name@revision)。 - Low VRAM – 在24–32GB GPU上,設定Low VRAM = ON,以便AI Toolkit可以使用額外的檢查點/卸載策略來使訓練成為可能。在H100/H200或48GB+上,你可以設定Low VRAM = OFF以獲得最大速度。
- Layer Offloading – 如果你的建構公開了這個選項,你可以在24GB+上保持OFF,除非你仍然遇到OOM。在非常緊張的設定中,它可以將一些層串流傳輸到CPU RAM,代價是步驟明顯變慢。
5.3 QUANTIZATION面板 – 4位元ARA + float8文字編碼器
量化是使Wan 2.2 T2V 14B 文字轉影片 LoRA 訓練在消費級硬體上變得實用的關鍵。
- Transformer – 設定為
4bit with ARA。這是帶有精度恢復適配器的4位元量化;VRAM使用接近純4位元,但品質更接近bf16。 - Text Encoder – 設定為
float8(或qfloat8)。這減少了文字編碼器的VRAM和計算,對LoRA訓練品質的影響可以忽略不計。
在24–32GB GPU上,這種組合是影片LoRA訓練能夠實現的主要原因。
在H100/H200 / 48GB+ GPU上:
- 你可以保持
4bit with ARA,將額外的VRAM用於更高解析度、更多幀或更高的LoRA rank,這通常會帶來更好的回報。 - 如果你更喜歡更簡單的堆疊,你可以將Transformer切換到純
float8選項,同時保持Text Encoder為float8。完全回到bf16通常是不必要的。
5.4 MULTISTAGE面板 – 訓練高噪聲和低噪聲專家
這個面板公開了雙專家架構(高噪聲vs低噪聲transformer)以及訓練步驟如何在它們之間分配。
- Stages to Train – 對於大多數LoRA,設定High Noise = ON和Low Noise = ON。這意味著兩個專家在訓練期間都會更新,因此LoRA會影響早期的構圖/運動和後期的細節/身份。
- Switch Every – 在Low VRAM = ON的24–32GB GPU上,設定Switch Every = 10。這告訴AI Toolkit在切換到另一個專家之前在一個專家上花費多少步。例如,Steps = 3000時:
- 步驟1–10 → 高噪聲專家
- 步驟11–20 → 低噪聲專家
- …重複直到訓練結束。
為什麼這很重要:
- 使用Low VRAM = ON時,AI Toolkit通常一次只在GPU記憶體中保留一個專家。切換時,它會卸載一個約14B參數的transformer並載入另一個。
- 如果你設定Switch Every = 1,你會強制每一步都載入/卸載巨大的權重,這非常慢。
- 使用Switch Every = 10,你仍然能獲得大約50/50的高/低噪聲覆蓋,但只每10步切換一次而不是每步,這樣效率高得多。
LoRA類型提示:
- 對於角色或風格影片LoRA,保持High Noise和Low Noise都ON;構圖和細節都很重要。
- 對於運動/相機LoRA,高噪聲對全域運動至關重要。從兩個階段都ON開始,如果你想要非常有針對性的行為,以後再嘗試僅高噪聲訓練。
在H100/H200上:
- 你可以設定Switch Every = 1,因為兩個專家都可以駐留在VRAM中,切換開銷可以忽略不計。
5.5 TARGET面板 – LoRA rank和容量
這個面板控制你訓練什麼類型的適配器以及它有多少容量。
- Target Type – 設定為
LoRA。 - Linear Rank – 對於Wan 2.2 T2V,一個好的預設值是
16: - Rank 16保持LoRA小巧,訓練快速。
- 對於512–768解析度的角色、風格和運動LoRA通常足夠。
如果你有一個非常多樣化的資料集(許多主題、風格或運動)和足夠的VRAM:
- 你可以將Linear Rank增加到
32,給LoRA更多的表達能力。 - 除非你知道需要那麼多容量,否則避免超過64;非常高的rank可能會過擬合,使LoRA更難控制。
在H100/H200上,從Rank 16開始,對於複雜的全能LoRA可以增加到32,這是一個合理的範圍。
5.6 SAVE面板 – 檢查點計劃
配置在訓練期間儲存LoRA檢查點的頻率:
- Data Type – 設定為
BF16。這與Wan 2.2通常的執行方式匹配,對LoRA權重穩定。 - Save Every – 設定為
250步。對於3000步的執行,這會在整個訓練過程中產生12個檢查點。 - Max Step Saves to Keep – 設定為
4或6,這樣你不會遺失可能實際上比最後一個看起來更好的早期檢查點。
實際上你很少會使用最後一個檢查點;許多使用者在比較樣本後更喜歡2000–3000步範圍內的某個檢查點。
在H100/H200上:
- 如果你執行很長時間(例如大資料集的5000–6000步),要麼保持
Save Every = 250並增加Max Step Saves to Keep,要麼設定Save Every = 500以限制檢查點數量。
5.7 TRAINING面板 – 核心超參數和文字編碼器模式
現在我們設定核心訓練超參數,然後選擇如何處理文字編碼器和可選的正則化。
5.7.1 核心訓練設定
對於Wan 2.2 T2V上的通用影片LoRA:
- Batch Size – 在24–32GB上,設定Batch Size = 1。對於T2V,這已經消耗了大量VRAM。在H100/H200上,如果有足夠的餘量,你可以增加到2。
- Gradient Accumulation – 從1開始。如果VRAM緊張但你想要更大的有效batch,可以設定為2–4;有效batch大小是
Batch Size × Gradient Accumulation。 - Steps – 典型範圍:
- 約10–20個片段的小型、聚焦的運動LoRA:1500–2500步。
- 20–50個片段的角色或風格LoRA:2000–3000步。
- 非常大的資料集可以更高,但通常提高資料品質比簡單地新增更多步驟更好。
- Optimizer – 設定Optimizer = AdamW8Bit。8位元Adam顯著減少VRAM,同時行為類似於標準AdamW。
- Learning Rate – 設定Learning Rate = 0.0001作為強預設值。如果訓練看起來不穩定或樣本在步驟之間劇烈振盪,降低到0.00005。如果訓練似乎過早平穩,考慮增加步數而不是提高Learning Rate。
- Loss Type – 保持
Mean Squared Error (MSE)。這與Wan的原始訓練損失匹配,是標準選擇。
Wan 2.2使用flow-matching噪聲調度器,AI Toolkit內部處理。在SAMPLE面板中,你也應該使用相容FlowMatch的取樣器,以便預覽與訓練設定匹配。
5.7.2 Timestep Type和Timestep Bias – LoRA聚焦的位置
這兩個欄位控制訓練期間哪些時間步被強調,以及更新如何在擴散鏈上分佈。
- Timestep Type – 控制時間步的分佈:
- Linear – 在調度中均勻取樣時間步;中立、安全的預設值。
- Sigmoid / 其他形狀模式 – 將訓練偏向中/低噪聲;有時對角色和詳細風格有幫助。
- Shift / Weighted – 進一步強調噪聲調度的特定區域,通常與Timestep Bias結合使用。
- Timestep Bias – 告訴AI Toolkit強調軌跡的哪個部分:
- Balanced – 更新大致均勻地分佈在高噪聲和低噪聲之間。
- Favor High Noise – 偏向早期、噪聲大的步驟,強調構圖、佈局和全域運動。
- Favor Low Noise – 偏向後期、乾淨的步驟,強調身份、紋理和微細節。
Wan2.2-T2V-A14B LoRA 微調的推薦組合:
- 運動/相機LoRA – 設定Timestep Type = Linear和Timestep Bias = Balanced作為安全的預設值。
如果你想要一個真正鎖定相機路徑的純運動LoRA,你可以進一步推向Timestep Bias = Favor High Noise,因為高噪聲專家是Wan 2.2決定佈局和運動的地方。
- 風格LoRA – 設定Timestep Type = Linear或Shift和Timestep Bias = Favor High Noise。
風格、調色和「膠卷質感」主要存在於軌跡的高噪聲/早期部分,因此偏好高噪聲讓LoRA能夠重寫全域色調,同時將後期細節主要留給基礎模型。
- 角色LoRA – 設定Timestep Type = Sigmoid(或Linear)和Timestep Bias = Balanced。
身份和相似性更多依賴於低噪聲專家,但你仍然希望對構圖和光照有一些影響。對於非常注重身份的LoRA,你可以嘗試稍微偏好低噪聲步驟,但Balanced是最安全的預設值。
5.7.3 EMA(指數移動平均)
- Use EMA – 對於LoRA,EMA是可選的,會增加額外開銷。大多數使用者對Wan 2.2 LoRA保持OFF,將EMA保留給完整模型訓練。除非你知道你想要整合更平滑的權重,否則忽略EMA是安全的。
5.7.4 文字編碼器最佳化 – 標題vs觸發詞模式
這些開關控制文字編碼器是否保持載入以及embedding是否被快取。
- Unload TE – 如果設定ON,AI Toolkit會在步驟之間從VRAM中移除文字編碼器,依賴於靜態embedding(例如觸發詞),有效地在訓練期間關閉動態標題。這節省VRAM但意味著標題不會在每一步重新編碼。
- Cache Text Embeddings – 當設定ON時,AI Toolkit對每個標題執行一次文字編碼器,快取embedding,然後安全地從VRAM中釋放文字編碼器。這對於在受限VRAM上進行基於標題的訓練非常推薦,因為它避免了每步重新編碼,但仍然使用你的每個片段的標題。
典型模式:
- 對於24–32GB基於標題的訓練,設定Cache Text Embeddings = ON並保持Unload TE = OFF。這給你提供了帶有完整標題資訊的高效訓練。
- 對於在非常高VRAM(H100/H200)上的僅觸發詞訓練,你可以設定Unload TE = ON,依賴於單個觸發代幣而不是完整標題。
5.7.5 差分輸出保持(DOP)
差分輸出保持是一種可選的正則化,鼓勵LoRA表現得像基礎模型的純殘差編輯:
- AI Toolkit渲染兩個預測:
- 一個使用基礎模型(無LoRA),
- 一個使用啟用LoRA。
- 它懲罰這些輸出之間的差異,除非你明確希望改變(透過你的觸發詞和標題)。
關鍵欄位:
- Differential Output Preservation – 主開關。
- DOP Loss Multiplier – 正則化損失的強度。
- DOP Preservation Class – 一個類別代幣,如
person、scene或landscape,描述應該保持什麼。
用法:
- 對於風格和角色LoRA,DOP可以幫助保持Wan優秀的基礎真實感不變,同時LoRA新增受控的修改。簡單配方:
- Differential Output Preservation = ON
- DOP Loss Multiplier = 1
- DOP Preservation Class = 角色LoRA用
person,或寬泛風格LoRA用scene/landscape(如果可用)。 - 對於運動/相機LoRA,你通常不需要DOP;行為變化已經是局部的,DOP大約會使計算翻倍。
重要的相容性說明:
- DOP透過每步重寫提示來工作(在其中一個分支中將你的觸發詞與保持類別交換)。因此,DOP要求文字編碼器每步重新編碼提示,並且與Cache Text Embeddings不相容。
- 如果你開啟DOP ON:
- 你必須在JOB面板中設定觸發詞,
- 你必須保持Cache Text Embeddings = OFF,以便文字編碼器保持活動並能夠每步重新編碼修改後的提示。
在H100/H200上,DOP的額外計算成本對於高品質的角色和風格LoRA通常是可以接受的。
5.8 ADVANCED面板 – 差分引導(可選)
如果你的建構公開了帶有以下內容的ADVANCED面板:
- Do Differential Guidance
- Differential Guidance Scale
你可以將其視為AI-Toolkit特定的額外技巧:
- 開啟Do Differential Guidance = ON並設定Scale = 3告訴模型更多地關注基礎和LoRA修改預測之間的差異,在精神上類似於DOP但作為引導項實現。
- 這可以使有針對性的編輯(例如「霓虹輪廓風格」或「環繞相機行為」)更快收斂而不提高Learning Rate。
- 如果樣本在訓練早期看起來不穩定或太銳利,你可以將scale降低到2。如果學習感覺非常慢,你可以嘗試4。
大多數使用者可以安全地為他們的第一個Wan 2.2 LoRA保持OFF,熟悉後再進行實驗。
5.9 DATASETS面板 – 連接你的Wan T2V資料集
每個Dataset區塊對應內部datasets:列表中的一個條目。
對於單個Wan T2V資料集:
- Target Dataset – 選擇包含影片和標題的Wan T2V資料集資料夾(例如
wan_orbit_clips或wan_char_zxq_clips)。 - LoRA Weight – 設定為1,除非你混合多個資料集並想重新平衡它們。
- Default Caption – 僅在單個片段沒有
.txt標題時使用。例如: - 角色/風格:
"zxqperson的肖像,zxqstyle,電影感光照"。 - 運動:
"環繞主體360度,zxq_orbit"。 - Caption Dropout Rate – 像0.05這樣的值會為5%的樣本丟棄標題,使模型也關注視覺而不是過擬合措辭。
如果你嚴重依賴Cache Text Embeddings,這裡要保守;當文字編碼器活躍且標題可以變化時,caption dropout最有效。
- Settings → Cache Latents – 對於影片LoRA,這通常是OFF,因為為許多幀快取VAE latents在磁碟和RAM上很重。保持你的來源影片高品質。
- Settings → Is Regularization – 保持OFF,除非你有專門的正則化資料集。
- Flipping(Flip X / Flip Y) – 對於大多數影片LoRA,保持兩者都OFF:
- 水平翻轉可能會破壞左/右運動語義和角色不對稱性,
- 垂直翻轉很少適合真實世界的鏡頭。
- Resolutions – 啟用你希望AI Toolkit分桶的解析度:
- 在24–32GB上,啟用512,如果VRAM允許可選768,並停用1024+。
- 在H100/H200上,你可以啟用768和1024以匹配模型的首選工作點。
- Num Frames – 為基準24–32GB影片LoRA配方設定Num Frames = 33。
33遵循4n+1規則(4·8+1),大約將成本減半(相比完整的81幀訓練),同時仍然給出清晰的時間模式。
AI Toolkit將在每個片段的持續時間內均勻取樣33幀;你只需要修剪片段,使你關心的運動佔據片段的大部分。
在H100/H200上,你可以將Num Frames增加到41或81,並將其與768–1024 px桶和Rank 16–32結合,以獲得非常強大的長序列LoRA。
5.10 SAMPLE面板 – 預覽你的LoRA
SAMPLE面板用於在訓練期間或之後生成預覽影片。
有用的設定:
- Num Frames – 大致匹配訓練值(例如33或41),以便行為可預測。
- Sampler / Scheduler – 使用與模型的噪聲調度匹配的相容FlowMatch的取樣器。
- Prompt / Negative Prompt – 使用你訓練時相同的觸發詞和概念,這樣你可以快速判斷LoRA是否在做正確的事情。
- Guidance Scale – 在訓練預覽期間,適中的值(例如2–4)是可以的;記住你可能在以後的正常推理工作流中使用不同的值。
在多個檢查點(例如每250–500步)生成樣本,並保留那些在視覺上平衡強度和穩定性的樣本。
6. Wan 2.2 T2V 14B LoRA訓練設定
本節總結了三種主要LoRA類型的實用配方。
6.1 角色影片LoRA(身份/頭像)
目標:在許多提示和場景中保持角色的面部、身體和一般身份。
資料集:
- 角色的10–30個短片段或圖片,具有不同的姿勢、背景和光照。
- 標題包含觸發詞和類別,例如:
"[trigger]的肖像,年輕女性,休閒服裝,攝影棚照明"。
Wan 2.2 T2V 14B 文字轉影片 LoRA 訓練的關鍵設定:
- Num Frames – 24GB上為33;H100/H200上為41或81。
- Resolutions – 512或768;高VRAM上新增1024。
- Multi-stage – High Noise = ON,Low Noise = ON,Switch Every = 10(本地)或1(雲端)。
- Timestep Type / Bias – Linear(或Sigmoid)與Balanced bias,以捕獲構圖和低噪聲身份細節。
- Linear Rank – 16(24GB)或16–32(H100/H200)以獲得更細微的身份。
- DOP – 當你想保持基礎真實感時,可選擇為角色LoRA啟用:
- Differential Output Preservation = ON
- DOP Loss Multiplier = 1
- DOP Preservation Class =
person - Cache Text Embeddings = OFF(DOP工作所需)
- Steps – 2000–3000,每250–500步檢查樣本。
6.2 風格影片LoRA(電影感/動漫/調色)
目標:在保持內容靈活的同時施加強烈的視覺風格。
資料集:
- 10–40張圖片或片段,在不同主題和場景中共享相同的風格。
- 標題描述外觀(例如膠卷質感、筆觸、調色盤)而不是確切的物件。
Wan 2.2 文字生成影片 LoRA的關鍵設定:
- Num Frames – 大多數用例為33–41;大GPU上的5秒片段為81。
- Resolutions – 24GB上為512–768;高VRAM上為768–1024。
- Multi-stage – High Noise = ON,Low Noise = ON,Switch Every = 10(本地)或1(雲端)。
- Timestep Type / Bias – Linear或Shift與Timestep Bias = Favor High Noise,以便LoRA可以在構圖仍然流動的地方重寫全域顏色和對比度。
- Linear Rank – 簡單風格為16;複雜、電影感外觀為16–32。
- DOP – 當你想保持基礎真實感時,推薦用於風格LoRA:
- Differential Output Preservation = ON
- DOP Loss Multiplier = 1
- DOP Preservation Class =
scene/landscape或類似 - Cache Text Embeddings = OFF
- Steps – 1500–2500,當風格看起來強烈但不過度時停止。
6.3 運動/相機LoRA(環繞、平移、推拉移動)
目標:學習可以應用於許多主題的新相機移動或運動模式。
資料集:
- 10–30個3–8秒的片段,每個展示目標運動。
- 保持運動一致(例如都是
環繞180或都是橫向捲動),但變化主題和場景。 - 標題明確說明運動關鍵字(
"環繞主體180度","橫向捲動攻擊動畫")。
ComfyUI Wan2.2 T2V LoRA 工作流程的關鍵設定:
- Num Frames – 24GB上為33,更大GPU上為41–81。
- Resolutions – 512(如果VRAM允許則768)。
- Multi-stage – High Noise = ON,Low Noise = ON,Switch Every = 10(本地)或1(雲端)。
- Timestep Type / Bias – Linear與Timestep Bias = Balanced,以便早期構圖和後期細化都能看到更新;運動本質上依賴於高噪聲。
- Linear Rank – Rank 16通常足夠;運動更多關於行為而不是微小細節。
- DOP – 通常保持OFF;運動已經是局部的,DOP會使前向傳遞翻倍。
- Steps – 1500–2500;觀察預覽以確保運動能夠泛化到你的訓練片段之外。
7. 匯出和使用你的Wan T2V LoRA
訓練完成後,你可以透過兩種簡單方式使用你的Wan 2.2 T2V 14B LoRA:
- Run LoRA – 開啟 Wan 2.2 T2V 14B Run LoRA 頁面。在這個基礎模型的推論頁面裡,你可以直接選擇你在 RunComfy 上訓練出來的 LoRA 資產,也可以 import 你用 AI Toolkit 訓練好的 LoRA 檔案,接著透過 playground 或 API 進行推論。RunComfy 會使用與你訓練設定一致的 base model,並復用訓練設定裡完整的 AI Toolkit pipeline 定義,所以訓練時看到什麼,推論就得到什麼;這種 training/inference 的強對齊能特別保證推論效果與訓練採樣的一致。
- ComfyUI工作流程 – 啟動一個ComfyUI執行個體並建構你自己的工作流程,新增你的LoRA並微調LoRA權重和其他設定以獲得更詳細的控制。
更多AI Toolkit LoRA訓練指南
準備好開始訓練了嗎?

