logo
RunComfy
  • ComfyUI
  • TrainerNew
  • Models
  • API
  • Pricing
discord logo
ComfyUI>工作流程>LTX 2.3 ID-LoRA | 說話化身生成器

LTX 2.3 ID-LoRA | 說話化身生成器

Workflow Name: RunComfy/LTX-2.3-ID-LoRA
Workflow ID: 0000...1385
使用這個身份感知的工作流程,您可以輕鬆從單張圖像、短音頻片段和文本輸入創建逼真的說話化身。它結合了面部一致性、精確的唇形同步和富有表情的聲音轉換。此模型在保持主體獨特特徵的同時,將現實運動和音調融合在一起。非常適合虛擬角色、數位影響者和角色驅動的敘事。此工具將複雜的生成步驟簡化為一個統一的過程,以實現無縫的視聽輸出。

LTX 2.3 ID-LoRA 說話影片工作流程 for ComfyUI

此工作流程將單張人臉圖像、一段短音頻剪輯和提示轉換為完全同步的說話影片。基於 LTX‑2.3,它將音頻和視覺融合在一個擴散過程中,並添加了一個 In‑Context LoRA 身份適配器,以便您的參考圖像中的人物在所有幀中保持一致。LTX 2.3 ID-LoRA 非常適合化身、虛擬主持人和任何需要唇形同步、相似性和提示控制在一次通過中對齊的場景。

您提供三樣東西:一張參考圖像、一兩句音頻和描述外觀和性能的文本提示。LTX 2.3 ID-LoRA 路徑處理身份,而輕量級音頻預處理器則增強了聲音清晰度以提供更強的口型提示。結果是一個連貫的、保持身份的影片,具有同步的語音,而不需要每個主體的訓練。

Comfyui LTX 2.3 ID-LoRA 工作流程中的關鍵模型

  • Lightricks LTX‑2.3 22B 基礎檢查點。聯合音視頻基礎模型,從文本、圖像和音頻條件生成同步的幀和聲音。這是此 ComfyUI 流程中使用的核心生成器。Model card
  • LTX‑2.3 distilled LoRA 384。官方 LoRA 適配器,將蒸餾指導應用於基礎模型,以穩定和加速採樣而不犧牲質量。它作為此工作流程中的第二階段模型插入。查看 LTX‑2.3 頁面上的檢查點表。Model card
  • LTX‑2.3 空間放大器 x2。潛在空間放大器,用於采樣器子圖內,在解碼前提升空間細節,改善最終影片中的面部和邊緣保真度。Model card
  • Gemma 3 12B Instruct 文本編碼器 for LTX‑2.3。提供驅動風格、場景和性能的文本條件。此工作流程使用為 LTX‑2 打包的 Gemma 3 編碼器在 ComfyUI 中。 Comfy‑Org text encoders
  • LTX‑2.3 視頻和音頻的 VAEs。專門構建的 VAEs 將模型生成的視覺和聲音潛在變量解碼為圖像和波形。兼容的 bf16 構建在圖中引用。範例來源:Video VAE · Audio VAE
  • Mel‑Band RoFormer 用於聲音分離。可選的預處理器,從參考音頻中提取乾淨的聲音,以便模型可以更可靠地跟踪音節和口型。Paper · ComfyUI node
  • LTX 2.3 ID‑LoRA (IC‑LoRA)。一個為說話影片使用訓練的上下文內身份 LoRA,使生成器偏向於您的參考圖像中的人臉,同時尊重提示和聲音提示。Lightricks 在模型頁面上記錄了 LoRA 和 IC‑LoRA 的用法。Model card

如何使用 Comfyui LTX 2.3 ID-LoRA 工作流程

整體流程。管道加載 LTX‑2.3 基礎,帶有文本編碼器和 VAEs,準備您的圖像和音頻,然後運行一個兩階段的 LTX 采樣器,將文本、人臉參考和聲音軌道結合起來生成同步的幀和語音。包含一個並行的采樣器,不帶 ID‑LoRA,用於快速比較。最終幀和音頻被混合到 MP4 中。

  • 模型
    • 圖加載基礎檢查點,使用 CheckpointLoaderSimple (#5493)、基於 Gemma 的文本編碼器通過 LTXAVTextEncoderLoader (#5494),以及專用的視頻 VAELoader (#5651) 和音頻 VAELoaderKJ (#5649) 的 VAEs。然後應用兩個適配器:官方蒸餾 LoRA 形成階段 2 模型,和 LTX 2.3 ID-LoRA 通過 LoraLoaderModelOnly (#5573) 用於身份調節。
    • 此階段確保生成器理解您的提示,擁有正確的解碼堆棧,並以效率指導和身份偏向為準備。
    • 您通常不會在此處修改任何內容,除非您有替代方案來替換檢查點或 LoRAs。
  • 視頻設置
    • 控制輸出尺寸、幀率、步驟和長度。Width (#5284)、Height (#5286) 和 Frame Rate (#5289) 提供一個小工具,從秒鐘計算總幀數,保持音頻和視頻的一致性。
    • 設置一次存儲,並由所有下游節點讀取,以便兩個采樣器和合併器保持一致。
    • 當您想要不同的比例、平滑度或持續時間時,首先調整這些值。
  • 加載圖像參考
    • 通過 Load Image (Input) (#5525) 提供一張清晰的人臉圖像。圖像使用 ImageResizeKJv2 (#5280) 調整大小,以匹配您選擇的輸出。
    • 此預處理的圖像成為 LTX 2.3 ID-LoRA 階段的身份錨點,指導相似性和鏡頭構圖。
    • 使用一張光線充足、正面的照片,並且運動模糊最小,以獲得最佳效果。
  • 音頻預處理
    • 使用 Reference Audio (Input) (#5652) 投入一段短的 WAV 或 MP3。若有需要,剪輯會被修剪,然後傳遞給 MelBandRoFormerSampler (#5473) 以隔離聲音。
    • 清晰的聲音有助於模型推斷音素和時間,從而實現準確的唇形移動和說話節奏。
    • 如果您的音頻已經是僅聲音,您可以跳過分離,直接輸入。
  • LTX 采樣與 ID Lora
    • 這是主要路徑。采樣器子圖(Samplers (#5278))將來自 Enhanced Prompt (Positive) (#5174) 的積極提示、負面列表、人臉參考和聲音軌道通過 LTX‑2.3 的 AV 潛在管道混合。
    • LTXVReferenceAudio 將運動與語音對齊,而 LTXVImgToVideoInplace 將人臉圖像注入潛在的作為空間先驗。LTX 2.3 ID-LoRA 適配器引導生成器朝向您的主體身份。
    • 此階段包括一個內部潛在放大器,以便在解碼前提升細節。它輸出幀和同步的音頻流。
  • LTX 采樣不帶 ID Lora
    • 一個鏡像的采樣器(Samplers (#5643))運行相同的條件,但不帶 ID‑LoRA 適配器。用於 A/B 檢查或當您想要更多自由,遠離參考身份時。
    • 其他一切保持不變,因此您注意到的差異僅由身份調節引起。
    • 此路徑可用於快速草稿或創意偏離。
  • 視頻合併和輸出
    • 幀和生成的音頻通過 Video Combine (Output) (#5218) 合併為 MP4。幀率來自您的全局設置,因此運動和唇形同步與采樣器的時間匹配。
    • 如果您啟用了它,次要的 Video Combine (#5645) 預覽無 ID-LoRA 分支,這對於比較很有用。
    • 工作流程在運行之間清理緩存,以保持長時間會話的 VRAM 穩定。

Comfyui LTX 2.3 ID-LoRA 工作流程中的關鍵節點

  • LoraLoaderModelOnly (#5573)
    • 加載 LTX 2.3 ID-LoRA,保持面部身份。如果您想要更多創意變化,請減少其權重,或者增加它以更緊密地鎖定相似性。謹慎配對提示強度,以便身份和風格不會競爭。參考:LTX‑2.3 LoRA 在模型頁面上的用法。Model card
  • LTXVReferenceAudio (#5589)
    • 將您的參考音頻轉換為音節時間、語調和口型的條件。提供清晰的語音以獲得最佳對齊。如果您聽到抽動或偏離節奏的發音,請縮短或簡化剪輯,而不是增強強度。
  • LTXVImgToVideoInplace (#5245, also used later)
    • 將人臉圖像注入潛在視頻流作為空間先驗。圖像強度控制平衡對照片的依從性與運動自由。為了強大的身份與自然運動,保持圖像強度適中,讓 ID-LoRA 承擔相似性。
  • LTXVConditioning (#5621)
    • 包裝文本條件和時間提示,用於 LTX 采樣器。確保其幀率輸入與您的輸出幀率匹配,以便運動場和音素時間保持一致。
  • VHS_VideoCombine (#5218)
    • 將幀和音頻混合到最終文件中。如果您的音頻稍微長於幀,請在此處啟用修剪,以防止尾部出現黑尾。為了平台兼容性,請保持默認的 H.264 設置,除非您有理由更改它們。節點參考:ComfyUI‑VideoHelperSuite
  • MelBandRoFormerSampler (#5473)
    • 使用 Mel‑band 變壓器分離聲音與音樂,以便生成器鎖定到語音。如果齒音模糊或爆破音爆裂,請嘗試同一系列的不同模型文件或減少輸入音量。背景閱讀:arXiv

可選擴展功能

  • 對於 LTX‑2.3 最穩定的生成,使用寬度和高度可被 32 整除,並選擇 8n + 1 的幀數,如 Lightricks 所記錄的。Model card
  • 保持參考圖像與您的提示一致。如果您描述戶外照明但提供室內照片,身份可能會保持,而顏色和陰影會與提示對抗。
  • 給音頻 2 到 8 秒的自然節奏。即使在聲音分離後,過於壓縮或混響的剪輯會降低唇形同步的保真度。
  • 當面部漂移時,稍微降低圖像強度,更多依賴 LTX 2.3 ID-LoRA。當面部漂動過多時,做相反的操作。
  • 對於較長的拍攝,生成具有相同種子和全局設置的段,然後在需要時在視頻編輯中加入剪輯。

參考和有用的儲存庫

  • LTX‑2.3 開放權重和筆記:Hugging Face model page
  • LTX Video 的官方 ComfyUI 節點:Lightricks/ComfyUI‑LTXVideo
  • LTX‑2 代碼庫和論文:Lightricks/LTX‑Video · arXiv
  • Gemma 3 12B IT 編碼器 for LTX in ComfyUI:Comfy‑Org/ltx‑2 text_encoders
  • Mel‑Band RoFormer 背景:arXiv

感謝

此工作流程實施並建立在以下作品和資源之上。我們感謝 LTX 2.3 ID-LoRA Source 的創建者對 LTX 2.3 ID-LoRA Source 工作流程的貢獻和維護。欲獲取權威詳情,請參閱下方鏈接的原始文檔和儲存庫。

資源

  • LTX 2.3 ID-LoRA Source
    • 文檔 / 發布說明:YouTube @Benji’s AI Playground

注意:參考模型、數據集和代碼的使用受其作者和維護者提供的相應許可和條款約束。

Want More ComfyUI Workflows?

InfiniteTalk | 口型同步化身生成器

照片 + 聲音 = 幾分鐘內完美同步的講話化身

DreamID-Omni | 照片轉對話影片製作器

將照片瞬間轉化為超真實的對話影片。

EchoMimic | 音頻驅動的肖像動畫

生成與提供音頻同步的真實說話頭像和身體動作。

Hallo2 | 唇同步肖像動畫

音頻驅動的4K肖像動畫唇同步。

LatentSync| 唇同步模型

先進的音頻驅動唇同步技術。

LBM 重新照明 | I2I

使用基於圖像的照明輸入來重新照明主題,使用 LBM。

Qwen-Image | HD 多文字海報生成器

Qwen-Image | HD 多文字海報生成器

影像文字生成的新紀元!

Era3D | ComfyUI 3D Pack

Era3D | ComfyUI 3D Pack

生成3D內容,從多視角圖像到詳細的網格。

關注我們
  • 領英
  • Facebook
  • Instagram
  • Twitter
支持
  • Discord
  • 電子郵件
  • 系統狀態
  • 附屬
資源
  • 免費 ComfyUI 在線版
  • ComfyUI 指南
  • RunComfy API
  • ComfyUI 教程
  • ComfyUI 節點
  • 了解更多
法律
  • 服務條款
  • 隱私政策
  • Cookie 政策
RunComfy
版權 2026 RunComfy. 保留所有權利。

RunComfy 是首選的 ComfyUI 平台,提供 ComfyUI 在線 環境和服務,以及 ComfyUI 工作流程 具有驚豔的視覺效果。 RunComfy還提供 AI Models, 幫助藝術家利用最新的AI工具創作出令人驚艷的藝術作品。