LTX 2.3 Sulphur 2 文本轉影片工作流程,用於電影角色動畫#
這個 ComfyUI 管道將自然語言提示轉換為短片、電影風格的角色影片,並可選擇性地添加音頻,圍繞 Lightricks LTX‑2.3 和 Sulphur 2 組件構建。它在低分辨率下進行生成以進行運動規劃,升級潛在序列,然後在高分辨率下精細化,最後解碼為幀並將同步音軌合併。
LTX 2.3 Sulphur 2 文本轉影片工作流程非常適合快速角色動畫測試、D‑Human 風格的運動概念以及精緻的文本轉影片實驗。它不依賴於圖像轉影片輸入或提示中繼;一切都從文本開始,LTXV 條件設置引導視頻和音頻潛在變量從頭到尾。
Comfyui LTX 2.3 Sulphur 2 文本轉影片工作流程中的關鍵模型#
- Lightricks LTX‑2.3。核心文本轉影片生成器,用於時空合成和多模式 AV 潛在變量。請參閱官方模型庫以獲取權重以及關於功能和限制的說明。 Hugging Face: Lightricks/LTX-2.3
- Lightricks LTX‑2.3 FP8 檢查點。LTX‑2.3 的內存高效變體,加快推理速度,並在受限制的 GPU 上實現更長的影片或更高的分辨率。 Hugging Face: Lightricks/LTX-2.3-fp8
- Sulphur 2 基礎模型。通過 LoRA 提供風格先驗和角色細節,幫助實現清晰的面孔和電影音調。 Hugging Face: SulphurAI/Sulphur-2-base
- LTX‑2.3 空間升級器 x2 1.1。潛在空間升級器,在高分辨率精細化通道前增加空間細節。 Hugging Face: Lightricks/LTX-2.3 file ltx-2.3-spatial-upscaler-x2-1.1.safetensors
- LTX 文本編碼器 (Gemma 3 12B IT 為 LTX 打包)。提供與 LTX‑2.3 條件設置匹配的文本嵌入空間,以忠實地跟隨提示。 Hugging Face: Comfy-Org/ltx-2
- LTX 音頻 VAE。解碼與視頻一起生成的音頻潛在變量,以便最終渲染可以包含同步的聲音軌道。 Hugging Face: Lightricks/LTX-2.3
如何使用 Comfyui LTX 2.3 Sulphur 2 文本轉影片工作流程#
整體邏輯 該管道分為三個階段:低分辨率生成以確立運動和構圖,潛在升級以增加空間細節,以及高分辨率精細化通道,這也產生最終音頻。潛在變量被解碼為幀和波形,然後合併為 MP4 容器,準備交付。
影片設置 使用“影片設置”組來定義寬度、高度、幀率和時長。幀數會根據您的時長和 fps 自動計算,以保持時間和節拍一致。這些值驅動潛在分配和解碼,因此首先設置它們以匹配您的目標長寬比和運行時長。調整此處的 fps 也會通知條件設置,以便運動平滑度和音頻對齊使用相同的時鐘。
提示 在“提示”中,使用 LTXAVTextEncoderLoader (#316) 加載 LTX 文本編碼器,然後在 CLIPTextEncode (#303) 中編寫您的正面描述,在 CLIPTextEncode (#312) 中寫下任何不需要的特徵。節點 LTXVConditioning (#304) 合併正面和負面條件設置,並添加所選幀率,使時間指導與您的 fps 匹配。將正面提示視為鏡頭簡介:主題、攝影機、照明、氛圍和風格提示。將負面清單集中在您經常看到並希望刪除的工件上。
模型 “模型”組通過 CheckpointLoaderSimple (#315) 加載主檢查點,並使用 LoraLoaderModelOnly (#285) 應用 Sulphur 2 LoRA,以融入電影質感和角色保真度。這是您可以交換檢查點或 LoRA 以改變整體外觀和運動先驗的地方。模型輸出被路由到初始和精細化指導者,以便風格和身份在各個階段保持一致。將 LTX‑2.3 與 Sulphur 2 配對可產生鮮明的對比和細緻的面孔,在運動中表現良好。
數字轉換 實用表達式將您的 fps 和秒數轉換為下游使用的整數幀數。這樣可以保持音頻和視頻的時間線對齊,無需手動計算。如果您稍後修改 fps 或時長,圖形會自動更新依賴節點。
空白潛在變量 “空白潛在變量”為生成創建對齊的容器:EmptyLTXVLatentVideo (#295) 定義視頻潛在變量的空間大小和長度,LTXVEmptyLatentAudio (#305) 以相同的幀率分配音頻潛在變量,LTXVConcatAVLatent (#321) 將它們合併為單一的 AV 潛在變量。從空白潛在變量開始,確保擴散過程完全反映您的提示和條件設置,而不是任何現有內容。
生成低分辨率 第一個採樣階段以較低的成本確立運動和構圖。CFGGuider (#313)、KSamplerSelect (#291) 和 ManualSigmas (#306) 管理提示對生成的影響力度和整體噪聲計劃。然後 SamplerCustomAdvanced (#283) 將 AV 潛在變量去噪為一致的剪輯。結果由 LTXVSeparateAVLatent (#307) 分割,並由 LTXVCropGuides (#284) 精細化空間注意力,以便您在後續升級過程中希望保留的主題框架。
潛在升級 LTXVLatentUpsampler (#287) 使用 LTX‑2.3 x2 升級器提升空間細節,同時保持在潛在空間中以提高速度和穩定性。將升級後的視頻潛在變量向前傳遞,提高了紋理和可讀性,然後進行高分辨率精細化。這樣可以保留您在第一遍中喜歡的運動,同時為更清晰的邊緣和更豐富的材料打開空間。
生成高分辨率 升級後的視頻潛在變量在 LTXVConcatAVLatent (#278) 中重新與音頻潛在變量合併,並再次進行精細化以達到最終質量。CFGGuider (#282)、KSamplerSelect (#280) 和 ManualSigmas (#281) 給予提示強度、細節和時間一致性的最後決定,SamplerCustomAdvanced (#308) 生成精細化的 AV 潛在變量。LTXVSeparateAVLatent (#309) 將視頻傳遞給 VAEDecodeTiled (#314) 以進行內存友好的幀解碼,並將音頻傳遞給 LTXVAudioVAEDecode (#297) 以進行波形重建。CreateVideo (#310) 以您的目標 fps 合併幀和音頻,SaveVideo (#75) 寫入 MP4/H.264 文件。
圖像預處理 此區域路由基礎 VAE 和升級器模型,以便平鋪和潛在升級在您的 VRAM 預算內工作。如果您遇到內存壓力,請偏好 FP8 LTX‑2.3 權重並保持平鋪解碼啟用以維持吞吐量和質量。
Comfyui LTX 2.3 Sulphur 2 文本轉影片工作流程中的關鍵節點#
LTXVConditioning (#304) 合併正面和負面文本條件設置,並附加工作幀率,以便時間指導與您的渲染相匹配。強而具體的場景語言改善鏡頭結構;簡潔的負面條件減少工件。請參閱 LTX‑2.3 模型卡以獲取條件設置說明。 Hugging Face: Lightricks/LTX-2.3
LTXVCropGuides (#284) 輕柔地引導構圖以保持主要主題按預期框架。使用它來保護面孔大小、地平線位置或中心主題,然後進行升級和精細化。對於對話風格的鏡頭和中距特寫特別有幫助。
CFGGuider (#313, #282) 控制提示在兩個階段中對擴散軌跡的影響程度。使用第一個引導器來鎖定運動和佈局,然後使用第二個引導器來增加清晰度而不偏離已建立的鏡頭。
ManualSigmas (#306, #281) 定義噪聲計劃。前期加載更多噪聲鼓勵更大的運動探索;溫和的計劃強調時間一致性。保持低分辨率和高分辨率計劃互補而不是相同。
LTXVLatentUpsampler (#287) 使用官方 LTX 升級器進行 x2 潛在升級,以便在精細化採樣器之前獲取細節。切換到另一個 LTX‑2.3 升級器變體可能會稍微改變清晰度和顆粒感。 Hugging Face: Lightricks/LTX-2.3
VAEDecodeTiled (#314) 以可管理的平鋪解碼長或大剪輯,以避免 VRAM 峰值。如果您更改空間大小或剪輯長度,請調整平鋪以平衡內存空間和解碼速度。
LoraLoaderModelOnly (#285) 將 Sulphur 2 LoRA 應用於基礎模型路徑,以便角色保真度和風格提示轉移到兩個採樣階段。使用此功能快速切換外觀,同時保持相同的 LTX‑2.3 主幹。 Hugging Face: SulphurAI/Sulphur-2-base
可選擴展#
- 種子控制:在兩個
RandomNoise節點中設置固定值,以便拍攝可重複;更改一個種子以探索替代方案。 - 提示:將提示寫成鏡頭方向(主題、攝影機、照明、氛圍)。保持負面清單集中且簡短。
- 性能:如果 VRAM 有限,偏好 FP8 LTX‑2.3 權重並保持平鋪解碼啟用。
- 輸出:圖形寫入 MP4/H.264;如果需要 ProRes 代理工作流程,請在
SaveVideo中更改容器或編解碼器。
這個 LTX 2.3 Sulphur 2 文本轉影片工作流程提供了一個乾淨的、從提示到精緻影片的端到端路徑,並與同步音頻一起構建,適用於快速迭代電影角色動畫。
致謝#
此工作流程實施並建立在以下作品和資源之上。我們由衷感謝 RunningHub 提供的 Sulphur2 基礎工作流程,用於視頻製作,SulphurAI 提供的 Sulphur-2-base 模型,Lightricks 提供的 LTX-2.3 和 LTX-2.3-fp8 模型,以及 Comfy-Org 提供的 LTX-2 文本編碼器,感謝他們的貢獻和維護。欲了解權威詳情,請參考下方鏈接的原始文檔和庫。
資源#
- RunningHub/Sulphur2 基礎工作流程,用於視頻製作
- 文檔 / 發佈說明: Sulphur2 基礎工作流程,用於視頻製作
- SulphurAI/Sulphur-2-base
- Hugging Face: SulphurAI/Sulphur-2-base
- Lightricks/LTX-2.3
- GitHub: Lightricks/LTX-2
- Hugging Face: Lightricks/LTX-2.3
- arXiv: LTX-2: Efficient Joint Audio-Visual Foundation Model (2601.03233)
- Lightricks/LTX-2.3-fp8
- GitHub: Lightricks/LTX-2
- Hugging Face: Lightricks/LTX-2.3-fp8
- arXiv: LTX-2: Efficient Joint Audio-Visual Foundation Model (2601.03233)
- Comfy-Org/ltx-2
- Hugging Face: Comfy-Org/ltx-2
注意:使用參考的模型、數據集和代碼需遵循其作者和維護者提供的各自許可和條款。


