AI Toolkit LoRA 訓練指南

使用Ostris AI Toolkit訓練Wan 2.2 T2V 14B文生影片LoRA

本文說明如何用Ostris AI Toolkit訓練Wan 2.2 T2V 14B(Text-to-Video)LoRA,從24GB消費級顯卡到H100/H200雲端伺服器都可執行。內容包含Wan的高噪/低噪專家機制、角色/風格/運動T2V資料集設計、多階段(Multi-stage)與Timestep Type/Bias調參、4-bit ARA量化與幀數設定,幫助你獲得更穩定的長序列影片LoRA效果。

使用 Ostris AI Toolkit 訓練擴散模型

水平滾動查看完整表單

Ostris AI ToolkitOstrisAI-Toolkit

New Training Job

Job

Model

Use a Hugging Face repo ID (e.g. owner/model-name).
⚠️ full URLs, .safetensors files, and local files are not supported.

Quantization

Target

Save

Training

Datasets

Dataset 1

Sample

Wan 2.2 T2V 14B 文字轉影片 LoRA 訓練讓你能夠從簡單的文字提示生成具有強大動作、細節和相機控制的豐富5秒影片片段。完成本指南後,你將能夠:

  • 使用 AI Toolkit 訓練 Wan 2.2 T2V 14B LoRA,實現一致的角色鮮明的風格動作/相機行為
  • 在24GB+ NVIDIA GPU(使用4位元ARA量化)的本地訓練和H100/H200 GPU的雲端訓練之間做出選擇,並了解每個層級能夠實際處理什麼。
  • 理解Wan的高噪聲和低噪聲專家如何與Multi-stageTimestep Type/BiasNum Frames解析度交互,從而控制LoRA在哪裡注入變化。
  • 逐面板配置AI Toolkit(JOB、MODEL、QUANTIZATION、MULTISTAGE、TARGET、SAVE、TRAINING、DATASETS、SAMPLE),以便將相同的配方適應不同的LoRA目標和硬體。
本文是AI Toolkit LoRA訓練系列的一部分。如果你是Ostris AI Toolkit的新手,請先閱讀AI Toolkit LoRA訓練概述,然後再深入本指南。

目錄


1. Wan 2.2 T2V 14B LoRA訓練概述

Wan 2.2是一個開放的文字/影片模型家族,包含三個主要變體:一個5B文字/圖片轉影片模型和兩個14B模型(T2V和I2V)。(Wan 2.2 GitHub)。本指南針對14B文字轉影片模型Wan2.2‑T2V‑A14B

雙Transformer「高噪聲/低噪聲」設計

在底層,Wan 2.2 14B使用混合專家(Mixture-of-Experts)文生影片backbone進行Wan 2.2 T2V 14B 文字轉影片 LoRA 訓練:

  • 高噪聲:約14B參數的transformer,處理去噪的早期高噪聲部分(粗略構圖、全域運動、相機)。
  • 低噪聲:約14B參數的transformer,細化接近結束時相對乾淨的幀(細節、紋理、身份)。

整個模型大約有27B參數,但在每個擴散步驟中只有一個專家(約14B參數)處於活動狀態。時間步在噪聲調度中大約t ≈ 875(滿分1000)處分割:大約1000→875給高噪聲專家,875→0給低噪聲專家,內部有偏移以保持軌跡上的平衡覆蓋。

對於Wan2.2-T2V-A14B LoRA 微調,這意味著:

  • 你通常希望同時訓練兩個專家,這樣你的LoRA就能在整個去噪鏈上工作——既包括構圖/運動,也包括細節/身份。
  • 在較小的GPU上,將兩個transformer都保持在VRAM中並在每一步交換它們的代價很高,這就是為什麼AI Toolkit提供了Multi-stage面板和Low VRAM + ARA量化 + "Switch Every N steps"選項來以速度換取VRAM。

2. 在哪裡訓練Wan 2.2 T2V LoRA(本地vs雲端)

你可以在兩種環境中遵循本教學;AI Toolkit介面是相同的。

選項A – 本地AI Toolkit(你自己的GPU)

  • 從GitHub AI Toolkit倉庫安裝AI Toolkit並執行web介面。如果你熟悉CUDA/驅動程式並且已經有24GB+ NVIDIA GPU(RTX 4090 / 5090 / A6000等),這是最佳選擇。
  • 由於Wan 2.2 14B很重,Mac和24GB以下的GPU通常只適合在512解析度下的純圖片LoRA(Num Frames = 1)。對於嚴肅的Wan 2.2 T2V 14B 文字轉影片 LoRA 訓練,你確實需要24GB+和激進的量化。

選項B – RunComfy上的雲端AI Toolkit(H100 / H200)

  • 開啟RunComfy上的雲端AI Toolkit並登入。你會直接進入預裝了所有相依套件的AI Toolkit介面。
  • 對於Wan 2.2 T2V 14B 文字轉影片 LoRA 訓練,在啟動作業時選擇H100(80GB)H200(141GB)機器,這樣你就可以在更高解析度下訓練長影片。

使用雲端的好處:

  • 零配置 – CUDA、驅動程式和模型權重都已配置好。
  • 巨大的VRAM – 你可以在768–1024解析度下執行33–81幀LoRA,使用合理的batch大小,無需與OOM錯誤作鬥爭。
  • 持久工作空間 – 你的資料集、作業和LoRA檢查點保存在你的RunComfy帳戶中,你可以稍後恢復或迭代。

3. Wan 2.2 T2V LoRA的硬體和VRAM預期

Wan 2.2 14B比圖片模型或Wan 2.1重得多

  • 1024×102481幀下的官方T2V工作流如果不量化,即使在高階消費級GPU上也可能會OOM。
  • 在1024² / 81幀下的長序列LoRA訓練即使在48–96GB伺服器卡上也可能需要數小時,尤其是在2–4k步時。
  • 該模型的官方AI Toolkit範例配置(train_lora_wan22_14b_24gb.yaml)針對24GB GPU進行了調優,使用4位元ARA量化Num Frames = 1(僅圖片)作為安全的預設值。

按VRAM層級的合理心智模型用於Wan 2.2 文字生成影片 LoRA:

層級 範例GPU 舒適範圍
24GB「消費級」 4090 / 5090 / A6000 僅圖片LoRA(Num Frames = 1)512–768 px,使用4位元ARALow VRAM = ON。短影片LoRA(33–41幀 @ 512)可行但緩慢且VRAM緊張。
48–64GB「專業級」 雙4090,部分伺服器GPU 33–41幀影片LoRA768–1024 px,使用4位元ARA和最小卸載。速度、容量和品質的良好平衡。
80–141GB「雲端」 RunComfy上的H100 / H200 1024²下的81幀訓練,Batch Size 1–2,很少或無卸載,使用float8或4位元ARA。非常適合嚴肅的長序列影片LoRA。

4. 建構Wan 2.2 T2V LoRA資料集

Wan T2V LoRA可以在以下內容上訓練:

  • 圖片 – 作為1幀「影片」處理(Num Frames = 1)。
  • 影片片段 – T2V模型的真正優勢;你通常會使用3–8秒的短片段。

4.1 決定你要訓練什麼類型的LoRA

從三個大類的角度思考,並相應地設計你的資料集:

  1. 角色LoRA(面部/身體/服裝)

    目標:保持Wan的通用能力,但注入一個新的人物、頭像或服裝,你可以透過觸發詞來調用。使用同一個人的10–30張高品質圖片或短片段,具有不同的姿勢、背景和光照。避免與基礎模型衝突的重濾鏡或風格化。在標題中包含一個獨特的觸發詞(例如"zxq-person"),加上對服裝、光照和構圖的豐富描述,以便LoRA能夠乾淨地學習概念。

  2. 風格LoRA(外觀和感覺)

    目標:保持內容靈活,但施加視覺風格(膠卷質感、動漫風格、繪畫感等)。使用10–40張圖片或片段,它們共享相同的外觀——一致的顏色、對比度、相機感覺——但主題和場景多樣。標題應強調風格詞彙,例如"油畫,厚重的堆彩,溫暖的橙色光照,高對比度",而不是列舉具體物件。

  3. 運動/相機LoRA

    目標:教Wan時間行為(環繞、平移、推拉、精靈式迴圈等)。使用10–30個短片段(約5秒)展示目標運動,理想情況下是在不同主題和環境中的相同類型運動。標題必須明確提到運動關鍵字,如"環繞主體180度""橫向捲動攻擊動畫""緩慢推鏡頭聚焦角色",以便模型知道你關心的是什麼行為。


4.2 解析度和寬高比

Wan 2.2 14B T2V是為接近正方形的1024×1024級幀建構的。官方範例使用1024²或接近的變體,具有內部分桶處理較低解析度。

對於Wan 2.2 T2V 14B 文字轉影片 LoRA 訓練:

  • 24GB GPU上,優先選擇512768解析度桶,並在DATASETS面板中取消勾選1024以節省VRAM。
  • 48GB+ GPU或H100/H200上,你可以同時啟用768和1024桶以獲得更清晰的結果,特別是對於角色和風格LoRA。

AI Toolkit會將你的影片縮小並分類到所選解析度中;你主要需要確保來源片段是高品質的,沒有巨大黑邊的信箱化。


4.3 影片片段長度和Num Frames

Wan 2.2在大約16 FPS的5秒片段上進行了預訓練,每個訓練序列約81幀(遵循4k+1模式)。

DATASETS面板中AI Toolkit的Num Frames欄位控制從每個影片中取樣多少幀:

  • 對於圖片,設定Num Frames = 1 – 每張圖片被視為1幀影片。
  • 對於影片,好的選擇是:
    • 81 – 「完全保真」;匹配預訓練但非常消耗VRAM。
    • 41 – 大約一半的幀和大約一半的VRAM/時間;對較大GPU是強勁的中間選擇。
    • 33 – 一個激進的、對VRAM友好的選項,用於24GB本地訓練,結合512 px解析度。

幀在每個片段中均勻取樣,所以你不需要每個影片都正好是5秒。重要的是有用的運動佔據片段:修剪掉長的靜態開場/結尾,使幾乎每個取樣幀都包含有意義的運動或身份訊號。

幀數通常選擇遵循Wan特定的「4n+1」模式(例如9、13、17、21、33、41、81)。堅持這些值往往會產生更穩定的時間行為,因為它與模型的內部視窗化相匹配。


4.4 標題策略

每個片段的標題對於影片LoRA比簡單的圖片LoRA更重要,特別是對於運動和風格。

  • 對於圖片/角色LoRA,目標是10–30張圖片或短片段,每個都有包含觸發詞加描述的標題,例如:

    "[trigger]的肖像,中景,攝影棚照明,穿皮夾克,35mm鏡頭"

    在訓練時,如果你使用這種模式,AI Toolkit會將[trigger]替換為JOB面板中的實際觸發詞。

  • 對於運動LoRA,確保運動詞出現並在片段之間保持一致,例如:

    "環繞中世紀城堡180度"

    "泰迪熊揮劍的橫向捲動攻擊動畫"

現在,只需確保每個圖片或片段要麼有一個好的每檔案.txt標題,要麼你將在DATASETS面板中設定有用的Default Caption。在TRAINING部分,我們將決定是在基於標題的模式(直接使用這些標題)還是在高VRAM設定上的僅觸發詞模式下執行。


5. 逐步指南:在AI Toolkit中訓練Wan 2.2 T2V 14B LoRA

在本節中,我們逐面板瀏覽AI Toolkit介面,用於Wan 2.2 T2V 14B上的影片LoRA

本指南的基線假設:

  • 你正在以512或768解析度訓練影片LoRA(Num Frames = 33)。
  • 你在24–32GB GPU上,或者在RunComfy上使用Low VRAM技巧執行等效設定。
  • 你的資料集是一個包含影片+標題的Wan T2V資料集資料夾

稍後我們將為H100/H200和更高VRAM層級新增註釋。


5.1 JOB面板 – 基本作業中繼資料

設定高階中繼資料,以便稍後找到你的作業:

  • Job Name – 簡潔的名稱,如wan22_t2v_char_zxq_v1wan22_t2v_style_neon_v1。包括模型、任務和簡短識別符。
  • Output Directory – AI Toolkit將寫入檢查點和日誌的位置,例如./output/wan22_t2v_char_zxq_v1
  • GPU ID – 在本地安裝中,這指向你的實體GPU。在RunComfy雲端AI Toolkit上,你可以保留預設值;實際機器類型(H100/H200)稍後在Training Queue中選擇。
  • Trigger Word(可選) – 如果你計劃使用觸發詞工作流,將其設定為你的代幣(例如zxqperson)。在標題中你可以寫[trigger],AI Toolkit會在載入時將其替換為你的觸發詞。保持簡短和獨特,以免與現有代幣衝突。

5.2 MODEL面板 – Wan 2.2 T2V基礎模型

為ComfyUI Wan2.2 T2V LoRA 工作流程配置基礎模型和VRAM相關選項:

  • Model Architecture – 選擇Wan 2.2 T2V 14B(或你建構中的等效標籤)。
  • Name or Path – 基礎檢查點的Hugging Face模型ID(repo id),例如:ai-toolkit/Wan2.2-T2V-A14B-Diffusers-bf16

    在大多數AI Toolkit建構中,選擇Wan 2.2 T2V 14B自動填充這個值;除非有理由更改,否則保持原樣。

    如果你要覆寫,使用Hugging Face repo id格式:org-or-user/model-name(可選org-or-user/model-name@revision)。

  • Low VRAM – 在24–32GB GPU上,設定Low VRAM = ON,以便AI Toolkit可以使用額外的檢查點/卸載策略來使訓練成為可能。在H100/H200或48GB+上,你可以設定Low VRAM = OFF以獲得最大速度。
  • Layer Offloading – 如果你的建構公開了這個選項,你可以在24GB+上保持OFF,除非你仍然遇到OOM。在非常緊張的設定中,它可以將一些層串流傳輸到CPU RAM,代價是步驟明顯變慢。

5.3 QUANTIZATION面板 – 4位元ARA + float8文字編碼器

量化是使Wan 2.2 T2V 14B 文字轉影片 LoRA 訓練在消費級硬體上變得實用的關鍵。

  • Transformer – 設定為4bit with ARA。這是帶有精度恢復適配器的4位元量化;VRAM使用接近純4位元,但品質更接近bf16。
  • Text Encoder – 設定為float8(或qfloat8)。這減少了文字編碼器的VRAM和計算,對LoRA訓練品質的影響可以忽略不計。

24–32GB GPU上,這種組合是影片LoRA訓練能夠實現的主要原因。

H100/H200 / 48GB+ GPU上:

  • 你可以保持4bit with ARA,將額外的VRAM用於更高解析度、更多幀或更高的LoRA rank,這通常會帶來更好的回報。
  • 如果你更喜歡更簡單的堆疊,你可以將Transformer切換到純float8選項,同時保持Text Encoder為float8。完全回到bf16通常是不必要的。

5.4 MULTISTAGE面板 – 訓練高噪聲和低噪聲專家

這個面板公開了雙專家架構(高噪聲vs低噪聲transformer)以及訓練步驟如何在它們之間分配。

  • Stages to Train – 對於大多數LoRA,設定High Noise = ONLow Noise = ON。這意味著兩個專家在訓練期間都會更新,因此LoRA會影響早期的構圖/運動和後期的細節/身份。
  • Switch Every – 在Low VRAM = ON的24–32GB GPU上,設定Switch Every = 10。這告訴AI Toolkit在切換到另一個專家之前在一個專家上花費多少步。例如,Steps = 3000時:
    • 步驟1–10 → 高噪聲專家
    • 步驟11–20 → 低噪聲專家
    • …重複直到訓練結束。

為什麼這很重要:

  • 使用Low VRAM = ON時,AI Toolkit通常一次只在GPU記憶體中保留一個專家。切換時,它會卸載一個約14B參數的transformer並載入另一個。
  • 如果你設定Switch Every = 1,你會強制每一步都載入/卸載巨大的權重,這非常慢。
  • 使用Switch Every = 10,你仍然能獲得大約50/50的高/低噪聲覆蓋,但只每10步切換一次而不是每步,這樣效率高得多。

LoRA類型提示:

  • 對於角色或風格影片LoRA,保持High Noise和Low Noise都ON;構圖和細節都很重要。
  • 對於運動/相機LoRA,高噪聲對全域運動至關重要。從兩個階段都ON開始,如果你想要非常有針對性的行為,以後再嘗試僅高噪聲訓練。

H100/H200上:

  • 你可以設定Switch Every = 1,因為兩個專家都可以駐留在VRAM中,切換開銷可以忽略不計。

5.5 TARGET面板 – LoRA rank和容量

這個面板控制你訓練什麼類型的適配器以及它有多少容量。

  • Target Type – 設定為LoRA
  • Linear Rank – 對於Wan 2.2 T2V,一個好的預設值是16
    • Rank 16保持LoRA小巧,訓練快速。
    • 對於512–768解析度的角色、風格和運動LoRA通常足夠。

如果你有一個非常多樣化的資料集(許多主題、風格或運動)和足夠的VRAM:

  • 你可以將Linear Rank增加到32,給LoRA更多的表達能力。
  • 除非你知道需要那麼多容量,否則避免超過64;非常高的rank可能會過擬合,使LoRA更難控制。

H100/H200上,從Rank 16開始,對於複雜的全能LoRA可以增加到32,這是一個合理的範圍。


5.6 SAVE面板 – 檢查點計劃

配置在訓練期間儲存LoRA檢查點的頻率:

  • Data Type – 設定為BF16。這與Wan 2.2通常的執行方式匹配,對LoRA權重穩定。
  • Save Every – 設定為250步。對於3000步的執行,這會在整個訓練過程中產生12個檢查點。
  • Max Step Saves to Keep – 設定為46,這樣你不會遺失可能實際上比最後一個看起來更好的早期檢查點。

實際上你很少會使用最後一個檢查點;許多使用者在比較樣本後更喜歡2000–3000步範圍內的某個檢查點。

H100/H200上:

  • 如果你執行很長時間(例如大資料集的5000–6000步),要麼保持Save Every = 250並增加Max Step Saves to Keep,要麼設定Save Every = 500以限制檢查點數量。

5.7 TRAINING面板 – 核心超參數和文字編碼器模式

現在我們設定核心訓練超參數,然後選擇如何處理文字編碼器和可選的正則化。

5.7.1 核心訓練設定

對於Wan 2.2 T2V上的通用影片LoRA:

  • Batch Size – 在24–32GB上,設定Batch Size = 1。對於T2V,這已經消耗了大量VRAM。在H100/H200上,如果有足夠的餘量,你可以增加到2
  • Gradient Accumulation – 從1開始。如果VRAM緊張但你想要更大的有效batch,可以設定為2–4;有效batch大小是Batch Size × Gradient Accumulation
  • Steps – 典型範圍:
    • 約10–20個片段的小型、聚焦的運動LoRA:1500–2500步
    • 20–50個片段的角色或風格LoRA:2000–3000步
    • 非常大的資料集可以更高,但通常提高資料品質比簡單地新增更多步驟更好。
  • Optimizer – 設定Optimizer = AdamW8Bit。8位元Adam顯著減少VRAM,同時行為類似於標準AdamW。
  • Learning Rate – 設定Learning Rate = 0.0001作為強預設值。如果訓練看起來不穩定或樣本在步驟之間劇烈振盪,降低到0.00005。如果訓練似乎過早平穩,考慮增加步數而不是提高Learning Rate。
  • Loss Type – 保持Mean Squared Error (MSE)。這與Wan的原始訓練損失匹配,是標準選擇。

Wan 2.2使用flow-matching噪聲調度器,AI Toolkit內部處理。在SAMPLE面板中,你也應該使用相容FlowMatch的取樣器,以便預覽與訓練設定匹配。


5.7.2 Timestep Type和Timestep Bias – LoRA聚焦的位置

這兩個欄位控制訓練期間哪些時間步被強調,以及更新如何在擴散鏈上分佈。

  • Timestep Type – 控制時間步的分佈:
    • Linear – 在調度中均勻取樣時間步;中立、安全的預設值。
    • Sigmoid / 其他形狀模式 – 將訓練偏向中/低噪聲;有時對角色和詳細風格有幫助。
    • Shift / Weighted – 進一步強調噪聲調度的特定區域,通常與Timestep Bias結合使用。
  • Timestep Bias – 告訴AI Toolkit強調軌跡的哪個部分:
    • Balanced – 更新大致均勻地分佈在高噪聲和低噪聲之間。
    • Favor High Noise – 偏向早期、噪聲大的步驟,強調構圖、佈局和全域運動。
    • Favor Low Noise – 偏向後期、乾淨的步驟,強調身份、紋理和微細節。

Wan2.2-T2V-A14B LoRA 微調的推薦組合:

  • 運動/相機LoRA – 設定Timestep Type = LinearTimestep Bias = Balanced作為安全的預設值。

    如果你想要一個真正鎖定相機路徑的運動LoRA,你可以進一步推向Timestep Bias = Favor High Noise,因為高噪聲專家是Wan 2.2決定佈局和運動的地方。

  • 風格LoRA – 設定Timestep Type = Linear或ShiftTimestep Bias = Favor High Noise

    風格、調色和「膠卷質感」主要存在於軌跡的高噪聲/早期部分,因此偏好高噪聲讓LoRA能夠重寫全域色調,同時將後期細節主要留給基礎模型。

  • 角色LoRA – 設定Timestep Type = Sigmoid(或Linear)Timestep Bias = Balanced

    身份和相似性更多依賴於低噪聲專家,但你仍然希望對構圖和光照有一些影響。對於非常注重身份的LoRA,你可以嘗試稍微偏好低噪聲步驟,但Balanced是最安全的預設值。


5.7.3 EMA(指數移動平均)

  • Use EMA – 對於LoRA,EMA是可選的,會增加額外開銷。大多數使用者對Wan 2.2 LoRA保持OFF,將EMA保留給完整模型訓練。除非你知道你想要整合更平滑的權重,否則忽略EMA是安全的。

5.7.4 文字編碼器最佳化 – 標題vs觸發詞模式

這些開關控制文字編碼器是否保持載入以及embedding是否被快取。

  • Unload TE – 如果設定ON,AI Toolkit會在步驟之間從VRAM中移除文字編碼器,依賴於靜態embedding(例如觸發詞),有效地在訓練期間關閉動態標題。這節省VRAM但意味著標題不會在每一步重新編碼。
  • Cache Text Embeddings – 當設定ON時,AI Toolkit對每個標題執行一次文字編碼器,快取embedding,然後安全地從VRAM中釋放文字編碼器。這對於在受限VRAM上進行基於標題的訓練非常推薦,因為它避免了每步重新編碼,但仍然使用你的每個片段的標題。

典型模式:

  • 對於24–32GB基於標題的訓練,設定Cache Text Embeddings = ON並保持Unload TE = OFF。這給你提供了帶有完整標題資訊的高效訓練。
  • 對於在非常高VRAM(H100/H200)上的僅觸發詞訓練,你可以設定Unload TE = ON,依賴於單個觸發代幣而不是完整標題。

5.7.5 差分輸出保持(DOP)

差分輸出保持是一種可選的正則化,鼓勵LoRA表現得像基礎模型的純殘差編輯

  • AI Toolkit渲染兩個預測:
    • 一個使用基礎模型(無LoRA)
    • 一個使用啟用LoRA
  • 它懲罰這些輸出之間的差異,除非你明確希望改變(透過你的觸發詞和標題)。

關鍵欄位:

  • Differential Output Preservation – 主開關。
  • DOP Loss Multiplier – 正則化損失的強度。
  • DOP Preservation Class – 一個類別代幣,如personscenelandscape,描述應該保持什麼。

用法:

  • 對於風格和角色LoRA,DOP可以幫助保持Wan優秀的基礎真實感不變,同時LoRA新增受控的修改。簡單配方:
    • Differential Output Preservation = ON
    • DOP Loss Multiplier = 1
    • DOP Preservation Class = 角色LoRA用person,或寬泛風格LoRA用scene / landscape(如果可用)。
  • 對於運動/相機LoRA,你通常需要DOP;行為變化已經是局部的,DOP大約會使計算翻倍。

重要的相容性說明:

  • DOP透過每步重寫提示來工作(在其中一個分支中將你的觸發詞與保持類別交換)。因此,DOP要求文字編碼器每步重新編碼提示,並且與Cache Text Embeddings不相容
  • 如果你開啟DOP ON:
    • 你必須在JOB面板中設定觸發詞
    • 你必須保持Cache Text Embeddings = OFF,以便文字編碼器保持活動並能夠每步重新編碼修改後的提示。

H100/H200上,DOP的額外計算成本對於高品質的角色和風格LoRA通常是可以接受的。


5.8 ADVANCED面板 – 差分引導(可選)

如果你的建構公開了帶有以下內容的ADVANCED面板:

  • Do Differential Guidance
  • Differential Guidance Scale

你可以將其視為AI-Toolkit特定的額外技巧:

  • 開啟Do Differential Guidance = ON並設定Scale = 3告訴模型更多地關注基礎和LoRA修改預測之間的差異,在精神上類似於DOP但作為引導項實現。
  • 這可以使有針對性的編輯(例如「霓虹輪廓風格」或「環繞相機行為」)更快收斂而不提高Learning Rate
  • 如果樣本在訓練早期看起來不穩定或太銳利,你可以將scale降低到2。如果學習感覺非常慢,你可以嘗試4。

大多數使用者可以安全地為他們的第一個Wan 2.2 LoRA保持OFF,熟悉後再進行實驗。


5.9 DATASETS面板 – 連接你的Wan T2V資料集

每個Dataset區塊對應內部datasets:列表中的一個條目。

對於單個Wan T2V資料集:

  • Target Dataset – 選擇包含影片和標題的Wan T2V資料集資料夾(例如wan_orbit_clipswan_char_zxq_clips)。
  • LoRA Weight – 設定為1,除非你混合多個資料集並想重新平衡它們。
  • Default Caption – 僅在單個片段沒有.txt標題時使用。例如:
    • 角色/風格:"zxqperson的肖像,zxqstyle,電影感光照"
    • 運動:"環繞主體360度,zxq_orbit"
  • Caption Dropout Rate – 像0.05這樣的值會為5%的樣本丟棄標題,使模型也關注視覺而不是過擬合措辭。

    如果你嚴重依賴Cache Text Embeddings,這裡要保守;當文字編碼器活躍且標題可以變化時,caption dropout最有效。

  • Settings → Cache Latents – 對於影片LoRA,這通常是OFF,因為為許多幀快取VAE latents在磁碟和RAM上很重。保持你的來源影片高品質。
  • Settings → Is Regularization – 保持OFF,除非你有專門的正則化資料集。
  • Flipping(Flip X / Flip Y) – 對於大多數影片LoRA,保持兩者都OFF
    • 水平翻轉可能會破壞左/右運動語義和角色不對稱性,
    • 垂直翻轉很少適合真實世界的鏡頭。
  • Resolutions – 啟用你希望AI Toolkit分桶的解析度:
    • 24–32GB上,啟用512,如果VRAM允許可選768,並停用1024+。
    • H100/H200上,你可以啟用768和1024以匹配模型的首選工作點。
  • Num Frames – 為基準24–32GB影片LoRA配方設定Num Frames = 33

    33遵循4n+1規則(4·8+1),大約將成本減半(相比完整的81幀訓練),同時仍然給出清晰的時間模式。

AI Toolkit將在每個片段的持續時間內均勻取樣33幀;你只需要修剪片段,使你關心的運動佔據片段的大部分。

H100/H200上,你可以將Num Frames增加到41或81,並將其與768–1024 px桶和Rank 16–32結合,以獲得非常強大的長序列LoRA。


5.10 SAMPLE面板 – 預覽你的LoRA

SAMPLE面板用於在訓練期間或之後生成預覽影片。

有用的設定:

  • Num Frames – 大致匹配訓練值(例如33或41),以便行為可預測。
  • Sampler / Scheduler – 使用與模型的噪聲調度匹配的相容FlowMatch的取樣器
  • Prompt / Negative Prompt – 使用你訓練時相同的觸發詞和概念,這樣你可以快速判斷LoRA是否在做正確的事情。
  • Guidance Scale – 在訓練預覽期間,適中的值(例如2–4)是可以的;記住你可能在以後的正常推理工作流中使用不同的值。

在多個檢查點(例如每250–500步)生成樣本,並保留那些在視覺上平衡強度和穩定性的樣本。


6. Wan 2.2 T2V 14B LoRA訓練設定

本節總結了三種主要LoRA類型的實用配方

6.1 角色影片LoRA(身份/頭像)

目標:在許多提示和場景中保持角色的面部、身體和一般身份

資料集:

  • 角色的10–30個短片段或圖片,具有不同的姿勢、背景和光照。
  • 標題包含觸發詞和類別,例如:

    "[trigger]的肖像,年輕女性,休閒服裝,攝影棚照明"

Wan 2.2 T2V 14B 文字轉影片 LoRA 訓練的關鍵設定:

  • Num Frames – 24GB上為33;H100/H200上為41或81。
  • Resolutions – 512或768;高VRAM上新增1024。
  • Multi-stage – High Noise = ON,Low Noise = ON,Switch Every = 10(本地)或1(雲端)。
  • Timestep Type / Bias – Linear(或Sigmoid)與Balanced bias,以捕獲構圖和低噪聲身份細節。
  • Linear Rank – 16(24GB)或16–32(H100/H200)以獲得更細微的身份。
  • DOP – 當你想保持基礎真實感時,可選擇為角色LoRA啟用:
    • Differential Output Preservation = ON
    • DOP Loss Multiplier = 1
    • DOP Preservation Class = person
    • Cache Text Embeddings = OFF(DOP工作所需)
  • Steps – 2000–3000,每250–500步檢查樣本。

6.2 風格影片LoRA(電影感/動漫/調色)

目標:在保持內容靈活的同時施加強烈的視覺風格

資料集:

  • 10–40張圖片或片段,在不同主題和場景中共享相同的風格。
  • 標題描述外觀(例如膠卷質感、筆觸、調色盤)而不是確切的物件。

Wan 2.2 文字生成影片 LoRA的關鍵設定:

  • Num Frames – 大多數用例為33–41;大GPU上的5秒片段為81。
  • Resolutions – 24GB上為512–768;高VRAM上為768–1024。
  • Multi-stage – High Noise = ON,Low Noise = ON,Switch Every = 10(本地)或1(雲端)。
  • Timestep Type / Bias – Linear或Shift與Timestep Bias = Favor High Noise,以便LoRA可以在構圖仍然流動的地方重寫全域顏色和對比度。
  • Linear Rank – 簡單風格為16;複雜、電影感外觀為16–32。
  • DOP – 當你想保持基礎真實感時,推薦用於風格LoRA:
    • Differential Output Preservation = ON
    • DOP Loss Multiplier = 1
    • DOP Preservation Class = scene / landscape或類似
    • Cache Text Embeddings = OFF
  • Steps – 1500–2500,當風格看起來強烈但不過度時停止。

6.3 運動/相機LoRA(環繞、平移、推拉移動)

目標:學習可以應用於許多主題的新相機移動或運動模式

資料集:

  • 10–30個3–8秒的片段,每個展示目標運動。
  • 保持運動一致(例如都是環繞180或都是橫向捲動),但變化主題和場景。
  • 標題明確說明運動關鍵字("環繞主體180度""橫向捲動攻擊動畫")。

ComfyUI Wan2.2 T2V LoRA 工作流程的關鍵設定:

  • Num Frames – 24GB上為33,更大GPU上為41–81。
  • Resolutions – 512(如果VRAM允許則768)。
  • Multi-stage – High Noise = ON,Low Noise = ON,Switch Every = 10(本地)或1(雲端)。
  • Timestep Type / Bias – Linear與Timestep Bias = Balanced,以便早期構圖和後期細化都能看到更新;運動本質上依賴於高噪聲。
  • Linear Rank – Rank 16通常足夠;運動更多關於行為而不是微小細節。
  • DOP – 通常保持OFF;運動已經是局部的,DOP會使前向傳遞翻倍。
  • Steps – 1500–2500;觀察預覽以確保運動能夠泛化到你的訓練片段之外。

7. 匯出和使用你的Wan T2V LoRA

訓練完成後,你可以透過兩種簡單方式使用你的Wan 2.2 T2V 14B LoRA:

  • Run LoRA – 開啟 Wan 2.2 T2V 14B Run LoRA 頁面。在這個基礎模型的推論頁面裡,你可以直接選擇你在 RunComfy 上訓練出來的 LoRA 資產,也可以 import 你用 AI Toolkit 訓練好的 LoRA 檔案,接著透過 playground 或 API 進行推論。RunComfy 會使用與你訓練設定一致的 base model,並復用訓練設定裡完整的 AI Toolkit pipeline 定義,所以訓練時看到什麼,推論就得到什麼;這種 training/inference 的強對齊能特別保證推論效果與訓練採樣的一致。
  • ComfyUI工作流程 – 啟動一個ComfyUI執行個體並建構你自己的工作流程,新增你的LoRA並微調LoRA權重和其他設定以獲得更詳細的控制。

更多AI Toolkit LoRA訓練指南

準備好開始訓練了嗎?