LTX 2.3 Sulphur 2 文字轉影片工作流程,用於電影角色動畫#
這個 ComfyUI 管道將自然語言提示轉換為短篇、以角色為中心的電影風格影片,並可選擇包含音頻,圍繞 Lightricks LTX‑2.3 和 Sulphur 2 組件構建。它在低解析度下分段生成以進行運動規劃,然後將潛在序列升級,再在高解析度下精煉,最後解碼為幀並混合同步音頻軌道。
LTX 2.3 Sulphur 2 文字轉影片工作流程非常適合快速角色動畫測試、D‑Human 風格的運動概念,以及精緻的文字轉影片實驗。它不依賴於圖像到影片的輸入或提示中繼;一切都從文本開始,由 LTXV 條件引導視頻和音頻潛在端到端。
Comfyui LTX 2.3 Sulphur 2 文字轉影片工作流程中的關鍵模型#
- Lightricks LTX‑2.3。核心文字轉影片生成器,用於時空合成和多模態 AV 潛在。請參閱官方模型存儲庫以獲取權重和關於能力及限制的說明。 Hugging Face: Lightricks/LTX-2.3
- Lightricks LTX‑2.3 FP8 檢查點。LTX‑2.3 的內存高效變體,加快推理速度,並在受限 GPU 上實現更長的剪輯或更高的分辨率。 Hugging Face: Lightricks/LTX-2.3-fp8
- Sulphur 2 基礎模型。通過 LoRA 提供樣式先驗和角色細節,幫助實現清晰的面孔和電影色調。 Hugging Face: SulphurAI/Sulphur-2-base
- LTX‑2.3 空間升級器 x2 1.1。潛在空間升級器,在高分辨率精煉通道之前增加空間細節。 Hugging Face: Lightricks/LTX-2.3 file ltx-2.3-spatial-upscaler-x2-1.1.safetensors
- LTX 文本編碼器 (Gemma 3 12B IT 為 LTX 打包)。提供與 LTX‑2.3 條件匹配的文本嵌入空間,以忠實地遵循提示。 Hugging Face: Comfy-Org/ltx-2
- LTX 音頻 VAE。解碼與視頻一起生成的音頻潛在,以便最終渲染可以包含同步的音軌。 Hugging Face: Lightricks/LTX-2.3
如何使用 Comfyui LTX 2.3 Sulphur 2 文字轉影片工作流程#
總體邏輯 管道分三個階段運行:低分辨率生成以建立運動和構圖,潛在升級以增加空間細節,以及高分辨率精煉通道,還產生最終音頻。潛在被解碼為幀和波形,然後混合到一個準備交付的 MP4 容器中。
視頻設置 使用“視頻設置”組定義寬度、高度、幀率和持續時間。幀數是根據您的持續時間和 fps 自動計算的,因此時間和節奏保持一致。這些值驅動潛在分配和解碼,因此首先設置它們以匹配您的目標長寬比和運行時間。在此處調整 fps 也會通知條件,以便運動平滑度和音頻對齊使用相同的時鐘。
提示 在“提示”中,使用 LTXAVTextEncoderLoader (#316) 加載 LTX 文本編碼器,然後在 CLIPTextEncode (#303) 中寫下您的正面描述,在 CLIPTextEncode (#312) 中寫下任何不需要的特徵。節點 LTXVConditioning (#304) 合併正面和負面條件,並添加所選幀率,以便時間指導與您的 fps 匹配。將正面提示視為拍攝簡報:主題、攝影機、照明、情感和風格線索。保持負面列表專注於您經常看到並想要刪除的人工製品。
模型 “模型”組通過 CheckpointLoaderSimple (#315) 加載主檢查點,並使用 LoraLoaderModelOnly (#285) 應用 Sulphur 2 LoRA,以在兩個採樣階段中傳遞電影質感和角色忠實度。這是您可以更換檢查點或 LoRAs 以更改整體外觀和運動先驗的地方。模型輸出被路由到初始和精煉指導器中,以便樣式和身份在各個通道中保持一致。將 LTX‑2.3 與 Sulphur 2 配對,產生強烈的對比和細緻的面孔,在運動中表現良好。
數字轉換 實用表達式將您的 fps 和秒數轉換為下游使用的整數幀數。這樣可以使音頻和視頻時間線保持一致,無需手動計算。如果您稍後修改 fps 或持續時間,圖形會自動更新依賴節點。
空潛在 “空潛在”創建對齊的生成容器:EmptyLTXVLatentVideo (#295) 定義視頻潛在的空間大小和長度,LTXVEmptyLatentAudio (#305) 以相同的幀率分配音頻潛在,LTXVConcatAVLatent (#321) 將它們合併為單個 AV 潛在。從空潛在開始可確保擴散通道完全反映您的提示和條件,而不是任何現有內容。
生成低分辨率 第一個採樣階段在較低成本下建立運動和構圖。CFGGuider (#313)、KSamplerSelect (#291) 和 ManualSigmas (#306) 控制提示對生成的引導強度及整體噪聲時間表。SamplerCustomAdvanced (#283) 然後將 AV 潛在去噪為連貫的剪輯。結果由 LTXVSeparateAVLatent (#307) 分割,LTXVCropGuides (#284) 提煉空間注意力,以便在後續升級過程中保留您想要的主題框架。
潛在升級 LTXVLatentUpsampler (#287) 使用 LTX‑2.3 x2 升級器提升空間細節,同時保持在潛在空間中以提高速度和穩定性。將升級的視頻潛在向前推進,在高分辨率精煉之前改善紋理和可讀性。這保留了您喜歡的第一通過運動,同時為更清晰的邊緣和更豐富的材料開闢了空間。
生成高分辨率 升級的視頻潛在與音頻潛在在 LTXVConcatAVLatent (#278) 中重新結合,並再次引導以達到最終品質。CFGGuider (#282)、KSamplerSelect (#280) 和 ManualSigmas (#281) 給出提示強度、細節和時間一致性的最後話語,SamplerCustomAdvanced (#308) 生成精煉的 AV 潛在。LTXVSeparateAVLatent (#309) 將視頻交給 VAEDecodeTiled (#314) 進行內存友好的幀解碼,並將音頻交給 LTXVAudioVAEDecode (#297) 進行波形重建。CreateVideo (#310) 將幀和音頻按目標 fps 混合,SaveVideo (#75) 寫入 MP4/H.264 文件。
圖像預處理 此區域路由基礎 VAE 和升級器模型,因此平鋪和潛在升級在您的 VRAM 預算內運行。如果您遇到內存壓力,請偏向 FP8 LTX‑2.3 權重並保持平鋪解碼啟用,以維持吞吐量和質量。
Comfyui LTX 2.3 Sulphur 2 文字轉影片工作流程中的關鍵節點#
LTXVConditioning (#304) 合併正面和負面文本條件,並附加工作幀率,以便時間指導與您的渲染匹配。強烈、具體的場景語言改善拍攝結構;簡潔的負面減少人工製品。請參閱 LTX‑2.3 模型卡上的條件說明。 Hugging Face: Lightricks/LTX-2.3
LTXVCropGuides (#284) 輕柔地引導構圖,以保持主要主題如預期般框住。在升級和精煉之前使用它來保護面部大小、地平線位置或居中的主題。對於對話風格的鏡頭和中近景特別有幫助。
CFGGuider (#313, #282) 控制提示在兩次通過中影響擴散軌跡的力度。使用第一個指導器鎖定運動和佈局,然後使用第二個添加清晰度而不偏離已建立的鏡頭。
ManualSigmas (#306, #281) 定義噪聲時間表。前置更多噪聲鼓勵更大的運動探索;更溫和的時間表強調時間一致性。保持低分辨率和高分辨率時間表互補而非相同。
LTXVLatentUpsampler (#287) 使用官方 LTX 升級器進行 x2 潛在升級,以便在精煉採樣器之前獲得細節。切換到另一個 LTX‑2.3 升級器變體可以略微改變清晰度和顆粒度。 Hugging Face: Lightricks/LTX-2.3
VAEDecodeTiled (#314) 以可管理的平鋪解碼長或大剪輯,以避免 VRAM 峰值。如果您更改空間大小或剪輯長度,調整平鋪以平衡內存空間和解碼速度。
LoraLoaderModelOnly (#285) 將 Sulphur 2 LoRA 應用於基礎模型路徑,以便角色忠實度和風格線索傳輸到兩個採樣階段。使用此功能快速切換外觀,同時保持相同的 LTX‑2.3 骨幹。 Hugging Face: SulphurAI/Sulphur-2-base
可選額外#
- 種子控制:在兩個
RandomNoise節點中設置固定值,以便拍攝可重複;更改一個種子以探索替代方案。 - 提示:將提示寫作拍攝方向(主題、攝影機、照明、情感)。保持負面列表精簡且簡短。
- 性能:如果 VRAM 有限,請偏向 FP8 LTX‑2.3 權重並保持平鋪解碼啟用。
- 輸出:圖形寫入 MP4/H.264;如果需要 ProRes 代理工作流程,請更改
SaveVideo中的容器或編解碼器。
這個 LTX 2.3 Sulphur 2 文字轉影片工作流程提供了一條從提示到精緻影片的清晰端到端路徑,具有同步音頻,專為快速迭代電影角色動畫而構建。
致謝#
此工作流程實施並基於以下工作和資源。我們感謝 RunningHub 提供的 Sulphur2 基本工作流程,用於視頻製作,SulphurAI 提供的 Sulphur-2-base 模型,Lightricks 提供的 LTX-2.3 和 LTX-2.3-fp8 模型,以及 Comfy-Org 提供的 LTX-2 文本編碼器的貢獻和維護。欲了解詳細信息,請參閱以下鏈接的原始文檔和存儲庫。
資源#
- RunningHub/Sulphur2 Basic Workflow for Video Production
- 文檔 / 發布說明: Sulphur2 Basic Workflow for Video Production
- SulphurAI/Sulphur-2-base
- Hugging Face: SulphurAI/Sulphur-2-base
- Lightricks/LTX-2.3
- GitHub: Lightricks/LTX-2
- Hugging Face: Lightricks/LTX-2.3
- arXiv: LTX-2: Efficient Joint Audio-Visual Foundation Model (2601.03233)
- Lightricks/LTX-2.3-fp8
- GitHub: Lightricks/LTX-2
- Hugging Face: Lightricks/LTX-2.3-fp8
- arXiv: LTX-2: Efficient Joint Audio-Visual Foundation Model (2601.03233)
- Comfy-Org/ltx-2
- Hugging Face: Comfy-Org/ltx-2
注意:使用上述模型、數據集和代碼需遵循其作者和維護者提供的各自許可和條款。


