LTX-2是一個開放權重的Diffusion Transformer(DiT)基礎模型,旨在單一模型中生成同步的影片和音訊。與「靜音」影片模型不同,它被建構為聯合音訊影片系統,使動作和聲音能夠在時間上對齊。在官方發布中,主要的檢查點系列是19B級別(包含可訓練的「dev」變體、多個量化變體和加速的蒸餾變體)。
本指南重點介紹使用Ostris AI Toolkit進行LTX-2 LoRA 訓練。目標是讓您快速上手:了解LTX-2擅長什麼、準備哪些資料、哪些AI Toolkit設定很重要,以及首次執行時哪些設定是「安全的」。
如果您不想在本地安裝AI Toolkit,可以在RunComfy的雲端GPU(H100 / H200)上透過瀏覽器執行。
▶ 從這裡開始:RunComfy雲端AI Toolkit
目錄
- 1. 為什麼LTX-2與其他影片LoRA目標表現不同
- 2. LTX-2 LoRA 訓練最適合的用途
- 3. LTX-2 LoRA 訓練的資料集準備
- 4. Ostris AI Toolkit的訓練理念
- 5. 分步指南:在AI Toolkit中進行LTX-2 LoRA 訓練
- 6. LTX-2 LoRA 訓練時間預期
- 7. LTX-2 LoRA 訓練常見問題(及解決方法)
- 8. LTX-2 LoRA 訓練:快速FAQ
- 9. 了解更多:其他AI Toolkit LoRA訓練指南
1. 為什麼LTX-2與其他影片LoRA目標表現不同
LTX-2的幾個特性直接影響您應該如何進行LTX-2 LoRA 訓練:
- 音訊影片是原生的:LTX-2被建構為在一個模型中生成同步的音訊和視覺(不是附加功能)。這對於「成品鏡頭」(對話、環境音、擬音)非常好,但也意味著音訊感知微調取決於您的訓練器是否真正更新音訊路徑和跨模態元件(許多第三方訓練堆疊從僅影片微調開始)。
- 體積大(19B級檢查點):您會在VRAM、步驟時間以及「小rank」經常欠擬合這一事實中感受到這一點。官方檢查點列表包括:
- ltx-2-19b-dev(可在bf16下訓練),
- dev量化變體(fp8 / nvfp4),
- 以及ltx-2-19b-distilled(加速推論,8步,CFG=1)。
- 嚴格的形狀約束:寬度/高度必須能被32整除,且幀數必須能被8+1整除(即8n+1:1、9、17、25、…、121、…)。如果您的輸入不匹配,通常需要padding(通常用
-1),然後裁剪回目標尺寸/幀數。
2. LTX-2 LoRA 訓練最適合的用途
在實踐中,進行LTX-2 19B LoRA 訓練時,這些方向最有價值:
- 角色/身份LoRA:一致的面部、服裝、道具、「品牌角色」外觀,以及跨鏡頭運動的穩定身份。
- 風格LoRA:藝術指導(光線語言、渲染風格、鏡頭、膠片質感),同時保持主體靈活。
- 動作/編舞LoRA:特定的運動模式(行走循環風格、舞蹈風味、生物運動),或「世界如何運動」(手持抖動、動畫時序)。
- 鏡頭行為LoRA:推拉鏡頭、搖臂/吊臂感、軌道鏡頭語言、穩定vs手持。
- (進階)音訊LoRA:一致的環境音調色板、擬音風格或類似聲音的特徵——僅當您的訓練堆疊支援音訊分支微調時。
如果您只有影像(沒有影片),仍然可以有效地訓練身份/風格,但不要期望從單幀學習時間性運動模式。
3. LTX-2 LoRA 訓練的資料集準備
3.1 選擇合適的片段長度+解析度「預算」
LTX2 LoRA 訓練的訓練成本隨空間尺寸和幀數而增加。對於第一個LoRA,保持簡單:
- 身份/風格入門:
- 解析度:512–768左右(取決於您的GPU)
- 幀數:49或81(短片段訓練更快;仍足以保持時間一致性)
- 運動/鏡頭入門:
- 解析度:512(如有餘量可用768)
- 幀數:121(適合學習運動;24fps下約5秒)
記住約束:幀數必須是8n+1。
3.2 影片vs影像資料集(兩者都有效)
許多人認為LTX-2 LoRA 訓練需要純影片資料集。實際上,大多數實用訓練堆疊可以處理兩種:
- 純影像資料集(將每個樣本視為「1幀片段」),或
- 影片資料集(短的連貫片段)。
使用AI Toolkit時,通常最簡單的方法是保持每個資料集條目同質(全是影像或全是影片),如果需要混合模態則使用單獨的資料集條目。
- 對於影像:
frames = 1滿足8n+1。 - 對於影片:使用短的、連貫的片段;避免長的多場景片段。
這對角色工作很重要:您可以用影像啟動身份,然後用短片段細化運動。
3.3 需要多少資料(現實規模)?
沒有單一的「官方最小值」,但這些範圍是ltx-2-19b LoRA 訓練的現實起點:
- 基於影像的LoRA(身份/道具/風格):從約20–50張乾淨、多樣的影像開始。如果您希望在光線、鏡頭和構圖方面有更強的魯棒性,50–150張精選影像通常比重複近似重複更有幫助。
- 基於影片的LoRA(運動/鏡頭/時間一致性):瞄準約20–60個短的、連貫的片段(單動作鏡頭),而不是幾個長影片。對於更廣泛或運動更豐富的目標,擴展到約50–150個短片段(或約10–30分鐘的「好」素材)往往會產生明顯更穩定的結果。
3.4 描述品質比您想像的更重要
LTX-2對更長、更描述性的描述反應良好,特別是如果您想要可控的結果。如果您的片段包含語音或關鍵聲音提示,請在您的訓練堆疊支援時將它們包含在描述(或轉錄摘錄)中。
實用描述提示:
- 對於身份LoRA:包含一致的身份標記(並變化其他所有內容:光線、服裝、背景、鏡頭)。
- 對於風格LoRA:保持風格描述符一致,變化主體/動作。
- 對於運動LoRA:精確描述動作(節奏、身體力學、鏡頭運動)。
3.5 正則化是您的「防溢出」工具(當LoRA較窄時使用)
如果您正在訓練一個狹窄的概念(一個角色、一個產品),很容易過擬合並得到「一切都看起來像我的資料集」。在AI Toolkit中,Differential Output Preservation(DOP)旨在減少這種漂移,並自然地與「正則化」資料集配合。
簡單的正則化集:
- 與您的主資料集相似構圖的通用片段/影像
- 匹配一般領域的描述(但不是您獨特的身份標記)
4. Ostris AI Toolkit的訓練理念
AI Toolkit本質上是一個包裝在UI中的一致訓練引擎:您選擇一個模型系列,附加資料集,定義一個LoRA目標+rank,並調整最佳化+取樣。UI面板清晰地對應到底層訓練配置:Job、Model、Quantization、Target、Training、Regularization、Datasets、Sample。
這對您意味著:您不需要針對基礎操作的模型特定腳本,相同的心智模型(rank/步數/LR/快取/正則化)適用,但LTX-2的大小和影片性質使某些設定更「敏感」(rank、VRAM最佳化、幀數)。
如果您是Ostris AI Toolkit新手,請先從AI Toolkit LoRA訓練概述開始,以便在調整LTX-2特定設定之前理解UI面板和核心參數:
如果您在決定在哪裡執行:
- 本地AI Toolkit:如果您已經有相容的GPU並想完全控制您的環境,這是最好的選擇。
- RunComfy雲端AI Toolkit:如果您想跳過設定、在高VRAM GPU上訓練並更快迭代、減少「在我的機器上不執行」的問題——特別適用於LTX-2的大型檢查點和影片工作負載。▶ 開啟RunComfy雲端AI Toolkit
5. 分步指南:在AI Toolkit中進行LTX-2 LoRA 訓練
5.1 在AI Toolkit中建立資料集
在Datasets面板/作業的Dataset部分:
- Target Dataset:您上傳的資料集
- Default Caption:除非需要全域後綴,否則留空
- Caption Dropout Rate:從約0.05開始(有助於泛化)
- Cache Latents:如果有足夠的磁碟空間則開啟(重複時速度大增,但影片latent快取增長很快)
- Num Frames:
- 純影像資料集為1
- 影片根據目標為49 / 81 / 121
- Resolutions:從512 + 768啟用開始;在驗證設定之前避免1024+
如果您正在做一個狹窄的身份LoRA,新增第二個資料集條目並標記為Is Regularization(根據您想要的保留積極程度,保持其權重較低或相等)。
5.2 新Training Job → Model
在Model部分:
- Model Architecture:LTX-2(如果在您的版本中可用)
- Name or Path:基礎模型的Hugging Face model id(例如
Lightricks/LTX-2) - 檢查點選擇:為LTX-2 Trainer LoRA 訓練選擇dev檢查點:
- ltx-2-19b-dev是完整模型,可在bf16下訓練。
- distilled檢查點主要用於快速推論(8步,CFG=1),除非您特別想適應蒸餾行為,否則不是LoRA訓練的預設起點。
5.3 量化+VRAM選項
LTX-2很大,所以您經常會使用量化/卸載:
- 如果您在H100/H200級VRAM上,通常可以更舒適地執行bf16。
- 如果您在24–48 GB GPU上,量化和「Low VRAM」模式變得必不可少。
兩個實用說明:
- LTX-2本身附帶完整模型的官方量化變體(fp8 / nvfp4);您能否從這些權重訓練取決於您的訓練器實作。
- 另外,8位元最佳化器(例如AdamW8bit)通常用於使消費級硬體上的訓練變得實用。
5.4 Target = LoRA + Rank
這是LTX-2 LoRA 微調與較小模型不同的地方。
- Target Type:LoRA
- Linear Rank:從32開始
- 許多LTX-2 LoRA訓練者報告rank 32是獲得可靠結果的實際最小值。
- 如果您有VRAM餘量並需要更多容量(複雜風格、多概念),測試64。
5.5 訓練超參數(可靠的首次執行)
從不會崩潰的值開始:
- Batch Size:1(影片幾乎總是在這裡)
- Gradient Accumulation:如果您想要更穩定的有效批次(並能承擔時間),則為2–4
- Steps:
- 首次執行2000–3000
- 如果您有更大的資料集或微妙的風格則更長
- Optimizer:AdamW8bit(VRAM效率的常見選擇)
- Learning Rate:開始時0.0001,如果看到過擬合或身份「烙印」太快則0.00005
- Weight Decay:~0.0001
- Timestep Type / Bias:除非知道為什麼要更改,否則保持預設
- DOP / Blank Prompt Preservation:如果看到風格溢出或基礎多功能性喪失,啟用DOP。
5.6 訓練期間取樣(不要跳過)
取樣是LTX-2 LoRA 訓練的預警系統。使用它。
- Sample Every:250步(良好的節奏)
- Sampler / Scheduler:從您的LTX-2預設預設開始,只在有基線後再實驗。
- Guidance + 步數取決於您取樣的檢查點:
- 對於dev執行,常見起點是
guidance ~4配合25–30取樣步數。 - 對於distilled,發布的行為是8步,CFG=1,所以用
guidance = 1和steps = 8取樣(否則您會困惑「為什麼看起來更差?」)。 - Width/Height/Frames:匹配您的訓練桶(或代表性目標)
編寫與您實際使用相匹配的取樣提示:
- 包含您的觸發詞(用於身份LoRA)。
- 如果重要,包含鏡頭/運動描述符。
- 保留一個「無聊」的提示來揭示過擬合(簡單光線、簡單動作)。
6. LTX-2 LoRA 訓練時間預期
沒有通用數字,將執行時間視為實際估計,它可能隨幀數/解析度、卸載/量化選擇和取樣頻率而變化。
現實的心智模型:
- 幀數通常是最大的槓桿:121 → 81 → 49可能是「這能訓練」和「這爬行/OOM」之間的區別。
- 取樣開銷如果您經常取樣大型影片,可能與訓練時間相當。
作為粗略參考:在H100上,使用小型影片資料集(約20個片段,每個3–5秒),batch=1,rank=32,啟用gradient checkpointing,在768左右的解析度桶和中等長度的幀桶(例如49–81幀)下,通常看到每訓練步個位數秒。您的確切步驟時間將因I/O、快取以及是否進行音訊感知預處理而大不相同。
還要為取樣預算:一個「3個提示 × 25步 × 121幀 @ 1024×768」預覽每次執行很容易需要分鐘。如果您每250步取樣一次,該開銷會在2000步執行中快速累積。
7. LTX-2 LoRA 訓練常見問題(及解決方法)
- 幀數錯誤:如果您的資料集使用120幀而不是121,您會遇到錯誤或靜默不匹配。堅持8n+1幀數(1、9、17、25、…、49、81、121、…)。
- 尺寸錯誤:寬度/高度必須能被32整除。如果您使用的管道不自動填充,請相應地調整大小/分桶。
- Rank太低:症狀是「訓練但什麼都沒變」,或即使在LoRA scale 1.0下身份/風格強度也很弱。嘗試rank 32。
- 過擬合/LoRA溢出:您的主體出現在不相關的提示中。啟用DOP並新增正則化資料集。
- 描述太短:提示遵循度崩潰。擴展描述(什麼、哪裡、鏡頭、運動、情緒;如果相關還有音訊提示/轉錄)。
- 蒸餾取樣混淆:如果您用25+步或CFG>1取樣蒸餾檢查點,您沒有按預期測試它。對蒸餾預覽使用8步,CFG=1。
- VRAM OOM:首先減少幀數(121 → 81 → 49),然後減少解析度(768 → 512),然後啟用卸載/量化/快取。
8. LTX-2 LoRA 訓練:快速FAQ
我可以只用影像訓練LTX-2 LoRA嗎?
可以,使用純影像資料集並將幀數設為1。非常適合身份和風格。不太適合學習運動。
LoRA訓練用dev還是蒸餾檢查點?
對於LTX-2 LoRA 訓練,從ltx-2-19b-dev開始;它被明確描述為在bf16下靈活/可訓練。蒸餾檢查點主要用於快速推論(8步,CFG=1)。
應該用什麼rank?
從32開始。這是許多早期LTX-2訓練者為「真正學習」而落腳的地方。
為什麼我的樣本看起來抖動或不一致?
通常是以下組合:對於您的VRAM來說片段太長(強制激進卸載)、描述沒有描述運動/鏡頭,或取樣設定與檢查點不匹配(特別是將蒸餾當作dev取樣)。減少幀數,收緊描述,並將guidance/步數與您取樣的檢查點對齊。
9. 了解更多:其他AI Toolkit LoRA訓練指南
如果您想比較不同模型系列之間的工作流程、資料集和參數權衡,這些指南是很好的參考點:
Ready to start training?

