LTX 2.3 電影構建工作流程:在 ComfyUI 中實現連貫的多場景、音頻感知的電影製作#
LTX 2.3 電影構建工作流程是一個電影級 AI 影片製作系統,結合了 Qwen/Gemma 提示智能和 LTX-2.3 視頻模型,生成連貫的多場景電影、故事驅動片段和音樂視頻。它自動化場景規劃、提示排序和鏡頭組裝,同時保持角色身份、運動連續性和電影節奏。您可以僅用文本、圖像到視頻的開頭或音頻參考來驅動結果,並保持對風格、鏡頭運動、長度和編輯順序的創意控制。
由 Mickmumpitz.ai 為生產工作流程構建,這個 ComfyUI 圖表集成了 FLUX.2 的起始圖像創建、結構化語音提示、音頻感知調節、可選的潛在放大和最終鏡頭組裝器。如果您需要準備拍攝的管道,LTX 2.3 電影構建工作流程可以從參考和劇本行到完成的剪輯,幾乎不需要手動設置。
Comfyui LTX 2.3 電影構建工作流程中的關鍵模型#
- Lightricks LTX-2.3 22B(僅變壓器,FP8):主要的文本到視頻骨幹,用於圖像到視頻和文本到視頻生成。 Model
- LTX-2.3 Distilled LoRA 384 1.1:蒸餾權重,加速並穩定 LTX-2.3 取樣。 LoRA
- LTX-2.3 Spatial Upscaler x2 1.1:可選的潛在放大器,用於更清晰、更大的視頻。 Model
- LTX-2.3 Video VAE (BF16) 和 Audio VAE (BF16):LTX 視頻和音頻潛在空間的 VAE。 Video VAE · Audio VAE
- LTX-2.3 ID LoRA TalkVid 3k:身份感知 LoRA,提高說話身份和嘴部運動。 LoRA
- Gemma 3 12B IT + LTX-2.3 Text Projection:用於 LTX 提示的文本編碼堆棧。 Encoder · Projection
- FLUX.2-klein-9B FP8:快速圖像生成器,用於起始幀、道具和外觀開發。 Model
- FLUX.2-klein-9B Consistency LoRA V2 和 360 ERP Outpaint LoRA:改善資產中的時間穩定性和寬廣的上下文。 Consistency · 360 ERP
- Flux2 VAE 和 Qwen 3 8B 文本編碼器,用於 FLUX:用於資產創建路徑的編碼器。 Flux2 VAE · Qwen 3 8B
- 可選的低 VRAM 路徑:LTX-2.3 GGUF 量化 UNet。 GGUF
如何使用 Comfyui LTX 2.3 電影構建工作流程#
一目了然:選擇您的電影分辨率和 fps,載入主角圖像(面部/身體),添加可選的語音參考,使用 FLUX 生成起始幀或提供您自己的靜止圖像,撰寫結構化提示,然後渲染鏡頭。複製鏡頭以創建新場景,並在組裝器中重新排序以導出最終影片。
設置#
在 LtxResolutionPicker (#13492) 和 Frame Rate (#13480) 中設置您的視頻畫布和節奏。全局取樣控制位於 Set_steps (#845) 和 Set_cfg (#851),影響資產創建和 LTX 視頻生成。如果您僅在靜態圖像上進行迭代,請切換 ENABLE / DISABLE VIDEO GENERATION (#13715) 旁路以節省時間。這些設置定義了每個剪輯運行的時間長度以及它如何組成最終時間線。
載入 LTX 模型#
LTX 堆棧通過 UNETLoader (#13450)、兩個 Load Distilled LoRA 節點 (#10370, #10159) 和 ID LoRA LoraLoaderModelOnly (#10324) 載入以保持角色一致性。提示通過 DualCLIPLoader (#13451) 使用 Gemma + LTX 投影進行編碼。視頻和音頻 VAE 通過 VAELoader (#13449) 和 VAELoader (#13832) 載入,可選的潛在放大器由 LatentUpscaleModelLoader (#10349) 提供。圖表將這些存儲為可重用的“Get/Set”值,因此每個鏡頭都讀取相同的模型包。
載入 FLUX 模型#
對於起始圖像創建和外觀開發,FLUX 路徑載入 UNETLoader (#1992),並帶有 Consistency 和 360 ERP LoRA(LoraLoaderModelOnly #6228, #13261)。文本通過 CLIPLoader (#362) 使用 Qwen 進行編碼,圖像則通過 VAELoader (#360) 進行解碼。這一階段是獨立的,因此您可以快速迭代道具、環境或建立鏡頭,然後將它們交給 LTX。
載入主角圖像#
使用 LoadImage (#4867, #1284) 和配套集 (#13472, #13473) 添加您的面部和身體參考(如有需要)。嵌入的“REMOVE BG”工具鏈自動裁剪面部並去除背景,以生成 FACE、BODY 和 FACEBODY 集(Set_FACE #3093, Set_BODY #3291, Set_FACEBODY #1334)。乾淨的參考對於跨鏡頭的身份保留至關重要。
資產創建器(可選)#
如果您希望工作流程創建精確的起始靜止圖像,請在 Text Prompt (#13442) 中撰寫描述,然後運行 FLUX 取樣器 KSampler (#13361)。結果框架被緩存為 OUT_01,並通過 SaveImage (#13439) 保存,然後可選地使用 ColorMatch (#13478) 與您的參考進行調和。這成為隨後圖像到視頻傳遞的視覺錨點。
音頻參考(可選)#
使用 LoadAudio (#10343) 載入語音或表演提示,並在 TrimAudioDuration (#10344) 中進行修剪;使用 PreviewAudio (#10346) 預覽。音頻傳遞給 LTXVReferenceAudio (#13329) 當 Enable Voice Reference (#13320) 開啟時,引導嘴形、措辭和手勢節拍。第二個參考槽(AUDIO REFERENCE 02)可用於在迭代過程中比較或切換拍攝。
鏡頭 01#
每個鏡頭從共享池中讀取模型和設置,然後將您的資產、提示和可選音頻混合成視頻。在 Text Prompt (#13384) 中輸入電影描述或基於語音的提示;使用包含的格式 [VISUAL] / [SPEECH] / [SOUNDS] 以獲得最佳效果。起始靜止圖像在 LTXVPreprocess (#13308) 中預處理,並在 LTXVImgToVideoInplace (#13289) 中進行動畫化,當啟用時,音頻調節由 LTXVReferenceAudio (#13329) 提供。管道運行兩階段取樣器(SamplerCustomAdvanced #13316, #13331),如果 Enable Upscale (#13322) 開啟,則使用 LTXVLatentUpsampler (#13306) 提升細節。CreateVideo (#13310) 將幀和音頻混合;您可以通過 ShotVideoOutput (#13379) 和 Video Output (#13393) 保存每個鏡頭的輸出。
最終影片輸出#
使用輔助節點 MickmumpitzShotOrder (#8230) 和 MickmumpitzShotDuplicator (#6357) 安排鏡頭順序,然後在 Video Output - Shot Assembler (#5598) 中組裝您的剪輯。組裝器裁剪並拼接剪輯,準備單一時間線以供導出。使用 Video Output (#5521) 渲染最終影片。要製作更長的影片,請複製鏡頭 01,調整提示和進出位置,然後重新導出。
Comfyui LTX 2.3 電影構建工作流程中的關鍵節點#
LTXVImgToVideoInplace (#13289)#
將高質量靜止圖像轉換為時間上連續的視頻潛在空間,同時保持身份和構圖。使用它將 FLUX 生成的起始圖像或您自己的參考轉換為運動。配合在 Text Prompt 中的明確場景指導,並在需要可比較的替代方案時保持相同的種子。
LTXVReferenceAudio (#13329)#
從語音或音樂床中注入時間和音素提示,使語音和手勢自然對齊。最適合與區分 [VISUAL]、[SPEECH] 和 [SOUNDS] 的提示一起使用。切換 Enable Voice Reference 以在音頻引導和純提示驅動的運動之間切換。
LTXVLatentUpsampler (#13306)#
使用 LTX-2.3 空間放大器在潛在空間中提升細節,獲得更清晰的紋理和邊緣。當鏡頭將與特寫或文本覆蓋一起剪輯時啟用它;在外觀開發過程中禁用它以加快迭代速度。
ColorMatch (#13478)#
匹配您的起始靜止圖像和參考輸出的顏色,以保持場景之間的一致性。當合成多個 FLUX 生成的資產或混合燈光設置時很有幫助。
KSampler (#13361)#
FLUX 資產生成器,為視頻階段創建道具、位置和主角靜止圖像。鎖定種子以保持序列中的一致視覺語言,然後輕推文本以在不破壞連續性的情況下探索小樣式變化。
Video Output - Shot Assembler (#5598)#
收集單個鏡頭渲染並輸出單個剪輯。使用它來重新排序場景、一致地裁剪並一次性導出電影。
可選擴展#
- 使用圖表提示中顯示的提示結構:[VISUAL] 場景描述、[SPEECH] 精確詞語、[SOUNDS] 聲音風格和氛圍。這有助於 LTX 文本和音頻編碼器協作。
- 通過提供面部和身體參考並啟用 LTX-2.3 ID LoRA 來保持角色身份穩定。
- 為快速迭代,禁用放大器和語音參考,縮短鏡頭長度,並使用視頻旁路僅生成起始幀。
- 在較低 VRAM 系統上,嘗試使用 LTX-2.3 的 GGUF 構建,並避免在最終通過之前堆疊額外的 LoRA。 GGUF
- 複製鏡頭 01 以創建新場景,跨鏡頭最小化提示變化,並重用種子以保持整個 LTX 2.3 電影構建工作流程中的剪輯至剪輯色調和燈光穩定。
致謝#
此工作流程實施並建立在以下作品和資源之上。我們感謝 Mickmumpitz 為 LTX 2.3 電影構建工作流程源提供的貢獻和維護。欲了解權威詳情,請參閱下列鏈接的原始文檔和存儲庫。
資源#
- Mickmumpitz/LTX 2.3 電影構建工作流程源
注意:使用參考的模型、數據集和代碼需遵循其作者和維護者提供的各自許可和條款。

