LTX-2 First Last Frame: start-to-end controlled, audio‑synced video generation in ComfyUI
LTX-2 First Last Frame 是為希望在定義的起始幀和結束幀之間實現精確、電影般運動的創作者設計的 ComfyUI 工作流程,並在一次處理中生成同步的音頻和視覺效果。通過對圖像進行條件處理(可選擇性地引導中間幀),管道在整個鏡頭中保留身份、構圖和照明,然後引導運動精確落在最後一幀。它專為敘述節拍、標題或場景過渡、攝影機移動以及任何需要時間連續性和音頻對齊的時刻設計。
由 LTX-2 實時模型提供動力,工作流程保持快速迭代,同時提供對提示、通過 LoRAs 控制攝影機行為以及第一/最後幀強度的精細控制。結果是流暢、一致的序列,其時間、外觀和聲音從第一幀到最後一幀都遵循您的指示。
注意:對於低於 2x Large 的機器類型,請使用 "ltx-2-19b-dev-fp8.safetensors" 模型!
Comfyui LTX-2 First Last Frame 工作流程中的關鍵模型
- LTX-2 19B (dev)。核心視頻生成模型,從文本和幀控制中產生音頻‑視頻潛在表現;支持實時迭代和攝影機感知的 LoRAs。查看官方倉庫和權重:Lightricks/LTX-2 on GitHub 和 Lightricks/LTX-2 on Hugging Face。
- Gemma 3 12B 指令文本編碼器為 LTX‑2 提供強大的、指令調優的語言理解,用於此管道中的視覺和音頻提示;作為 LTX‑兼容文本編碼器打包在 ComfyUI 中。權重參考:Comfy‑Org/ltx‑2 split text encoders。
- LTXV 音頻 VAE (24 kHz 語音編碼器)。編碼和解碼音頻潛在表現,使配樂與視頻同步生成並與屏幕上的動作保持同步。參見模型系列上下文 Lightricks/LTX-2。
- LTX‑2 空間升頻器 x2。在基礎處理後的升頻採樣階段,用於更清晰的高分辨率結果的潛在升頻器。權重可在 Lightricks/LTX-2 下獲得。
- LTX‑2 LoRA 包,用於攝影機控制和細節。可選的 LoRAs,例如 Dolly In/Out/Left/Right、Jib Up/Down、Static 和一個圖像條件細節器,塑造攝影機運動和細節。瀏覽官方收藏:Lightricks LTX‑2 LoRAs。
如何使用 Comfyui LTX-2 First Last Frame 工作流程
此工作流程從輸入和提示開始,生成基本的音頻‑視頻樣本,然後在解碼和合併到 MP4 並加入音頻之前執行引導的 2x 升頻處理。它依賴於在基礎和升頻階段的第一/最後幀控制,並可選擇中間幀以穩定軌跡。
模型
模型組加載 LTX‑2 檢查點、Gemma 3 12B 指令文本編碼器和 LTXV 音頻 VAE。使用 ckpt_name 面板在標準和 FP8 變體之間選擇,根據您的 GPU 選擇。文本編碼器由 LTXAVTextEncoderLoader 提供,並為正面和負面提示提供支持。音頻 VAE 使聯合音頻‑視頻生成成為可能,因此提示中描述的對話、效果或氛圍與視覺效果一起出現。
提示
在正面提示中寫下場景,並在負面提示中列出不希望的特徵。按發生順序描述動作、關鍵視覺細節和聲音事件。LTXVConditioning 區塊將您的提示與選擇的幀速率一起應用,以便時間和運動得到一致解釋。當您需要語音、效果或氛圍時,將音頻視為提示的一部分。
視頻設置
設置 Width、Height 和總 Video Frames,然後選擇 Length 以便在需要時控制第一/最後幀間距。工作流程確保尺寸符合模型要求並適當縮放輸入。如果輸入圖像較大,圖形將讀取其尺寸以初始化潛在畫布並調整提供的幀以適應。選擇與預期交付相匹配的幀速率。
潛在
此組建構一個空的視頻潛在和匹配的音頻潛在,然後將它們連接起來,使模型可以一起採樣音頻和視頻。這是第一次注入第一/最後幀引導的基礎處理。在基礎處理中提供中間幀是可選的,但對於穩定身份或關鍵姿勢中間鏡頭很有用。結果是一個單一的 AV 潛在,準備好進行基礎採樣。
基本採樣器
基礎處理使用隨機噪聲、調度程序和配置的引導器將您的提示解析為一致的 AV 潛在。引導器接收正面和負面條件,加上任何 LoRA 修改的模型。在採樣後,潛在被分成視頻和音頻,以便視頻可以升級,而音頻保持對齊。此階段設置整體運動、節奏和音頻節奏,升頻階段將進一步優化。
升頻
升頻器將潛在提升到更高的空間分辨率,然後進行第二次採樣。第一/最後幀控制在更高分辨率下重新應用,以精確鎖定開頭和結尾幀。您也可以在此處提供中間幀,以保持特徵在升級過程中的穩定。結果是一個更清晰的 AV 潛在,保留了計劃的運動。
模型
此模型組加載升頻組使用的 LTX‑2 潛在升頻器。它準備特定的 x2 空間模型並將其暴露給潛在升頻器節點。如果您維護多個升頻器,請在此處切換模型。如果您對默認 x2 行為滿意,請保持此組不變。
升頻採樣(2x)
第二次採樣通過單獨的採樣器和西格瑪日程在升級的潛在上進行引導採樣。裁剪感知的引導將條件對齊到新分辨率,以便細節保持一致。輸出再次分裂為視頻和音頻以進行解碼。此階段主要是銳化邊緣,改善小文本或紋理,並保持第一/最後幀匹配。
LTX-2-19b-IC-LoRA-Detailer
此組應用一個為 LTX‑2 的圖像條件路徑調整的細節導向 LoRA。當您希望在對真實圖像進行條件處理後獲得更多微小細節或更緊密的紋理時,啟用它。保持強度適中,以免壓倒提示或幀限制。如果您的輸入已經清晰且光線充足,您可以跳過此 LoRA。
攝影機控制-Dolly-In
當攝影機應該隨著時間推進到主題時,使用此 LoRA。它使模型偏向向前運動,同時尊重第一/最後目標。與描述運動的文本提示配對以獲得最強效果。如果運動超出預期構圖,請減少強度。
攝影機控制-Dolly-Out
當鏡頭應該從主題拉回時選擇此項。它有助於隨著序列的推進創造負視差和擴大的上下文。保持最後一幀與您的退出構圖對齊,以便乾淨地完成運動。與大氣音頻提示結合使用以獲得電影揭示效果。
攝影機控制-Dolly-Left
應用向左的橫向移動,讀作 dolly 或 truck。適合對話節拍或跨場景的揭示。如果物體模糊或漂移,請稍微增加第一/最後強度或添加中間幀。與小的文本提示如 "緩慢左移" 平衡以補充 LoRA。
攝影機控制-Dolly-Right
Dolly-Left 的鏡像,此項偏向於右側的運動。它適合跟隨角色或平移到新主題。保持 LoRA 強度適中,如果您還請求推進以避免衝突的信號。確保最後一幀的構圖符合您的期望。
攝影機控制-Jib-Up
創造垂直上升,適用於提升揭示或建立鏡頭。與關於透視變化和地平線移動的淺提示結合使用以獲得清晰度。當運動強烈時,注意天花板或天空曝光;調整負面提示以避免高光爆炸。如果需要,添加顯示中間上升構圖的中間幀。
攝影機控制-Jib-Down
產生受控下降,通常用於聚焦於細節或角色。可以與較安靜的音頻背景配對以強調。確保最後一幀包含目標物體或面孔,以便運動果斷解決。如果下降感覺太快,調整 LoRA 強度。
攝影機控制-Static
當您希望動作不涉及攝影機運動時,鎖定虛擬攝影機。這對於對話或產品鏡頭很有用,只有主題在移動。與第一/最後幀控制結合使用以保持構圖完美穩定。通過文本提示添加微妙的運動,而不是攝影機 LoRA。
Comfyui LTX-2 First Last Frame 工作流程中的關鍵節點
LTXVFirstLastFrameControl_TTP (#227)
在基礎 AV 潛在中注入第一和最後圖像限制。調整 first_strength 以控制第一幀的匹配嚴格程度,last_strength 來確定序列如何精確落在最後一幀。如果片段中間漂移,通過 LTXVMiddleFrame_TTP 提供中間幀,並保持強度適中以避免過度限制運動。
LTXVMiddleFrame_TTP (#181)
可選地在起始和結束之間的選定 position 插入引導幀,以穩定身份或姿勢。當主題在中間鏡頭中改變太多時增加 strength。謹慎使用;最佳結果來自於單一、精選的中間參考,而不是許多競爭限制。
LTXVLatentUpsampler (#217)
使用 LTX‑2 空間升頻器在潛在空間中執行 x2 空間升頻。使用此功能在 2x 採樣通過之前,以便高分辨率細節由模型精細化而不是被拉伸。如果內存緊張,請在此階段保持 LoRA 使用最小化。
LTXVFirstLastFrameControl_TTP (#223)
在 x2 升頻後重新應用開始/結束(和可選中間)引導。這確保最終解碼幀在交付分辨率上精確匹配您的第一和最後參考。如果升頻引入微小漂移,請在此處稍微提高 last_strength,而不是在基礎階段。
LTXVSpatioTemporalTiledVAEDecode (#230)
使用時空平鋪解碼高分辨率視頻潛在為幀。僅在看到接縫或時間閃爍時調整平鋪和重疊設置;較大的重疊消耗更多 VRAM 但提高一致性。保持 last_frame_fix 用於最終幀顯示輕微漂移的邊緣情況。
VHS_VideoCombine (#254)
將解碼幀和生成的音頻合併為單個 MP4。設置輸出 format、pix_fmt 和 crf 以符合您的交付目標,並選擇與條件一致的 frame_rate。啟用元數據保存以隨每次渲染保留可重複性記錄。
可選附加功能
- 如果您的 GPU 受限,請使用 LTX‑2 的 FP8 權重;當 VRAM 允許時,切換回全精度以獲得最高保真度。權重位於 Lightricks/LTX‑2。
- 當寬度和高度為 32n + 1 形式時,尺寸效果最佳;總幀數為 8n + 1 時效果最佳。工作流程在需要時自動校正到最近的有效值。
- 在正面提示中直接描述音頻提示(對話、效果、氛圍)。模型的聯合 AV 潛在保持嘴唇、動作和聲音對齊。
- 從適中的第一/最後強度開始;提高最後強度以確定最終姿勢,或添加中間幀以穩定身份。
- 每次僅應用一個攝影機 LoRA 以達到明確意圖。在 Lightricks LTX-2 LoRA collection 中瀏覽官方選項。
致謝
本工作流程實現並建立在以下作品和資源之上。我們感謝 @AIKSK 的 LTX-2 First Last Frame Workflow Reference 的貢獻和維護。有關權威細節,請參考以下鏈接的原始文檔和倉庫。
資源
- RunningHub/LTX-2 First Last Frame Workflow Reference
注意:所引用模型、數據集和代碼的使用受其作者和維護者提供的相應許可和條款的約束。

