ComfyUI>工作流程>LongCat Video Avatar 1.5 ComfyUI | 對口型生成器

LongCat Video Avatar 1.5 ComfyUI | 對口型生成器

Workflow Name: RunComfy/LongCat-Video-Avatar-1.5
Workflow ID: 0000...1437
這個工作流程幫助您將一張角色圖像和一段音頻片段轉換成完美對齊的說話化身影片。它利用 LongCat-Avatar-15 和 WanVideoWrapper 節點來實現精確的口型同步。使用 Whisper 音頻分析和 Wan 2.1 VAE 解碼,它生成垂直的 MP4 輸出,準備好發佈。您可以輕鬆地將其集成並運行在您的創作流程中。非常適合需要可靠影片化身生成器的內容創作者、視覺設計師和開發人員。

LongCat Video Avatar 1.5 Single Character ComfyUI Workflow

LongCat Video Avatar 1.5 Single Character ComfyUI | Audio2Video Sync
Want to run this workflow?
  • Fully operational workflows
  • No missing nodes or models
  • No manual setups required
  • Features stunning visuals

LongCat Video Avatar 1.5 Single Character ComfyUI Examples

LongCat Video Avatar 1.5 單角色 ComfyUI#

這個工作流程將單一參考圖像和語音軌道轉換成對口型的垂直說話化身。基於 LongCat-Avatar-15 和 WanVideoWrapper 自定義節點構建,使用 Whisper 提取語音提示,Wan 2.1 VAE 進行潛在編碼/解碼,並使用蒸餾的 LongCat LoRA 來保持身份。結果是一個 MP4 肖像影片,保持角色外觀和嘴部運動同步。

設計為單角色路徑,LongCat Video Avatar 1.5 單角色 ComfyUI 工作流程是為那些需要 RunComfy 準備模板的創作者而設計的,具有清晰的輸入和可重複的輸出。您提供一張面部圖像和一段音頻片段,調整幾個風格提示,並渲染一致的化身影片,無需額外的接線。

Comfyui LongCat Video Avatar 1.5 單角色 ComfyUI 工作流程中的關鍵模型#

  • LongCat-Avatar-15 (蒸餾) 和 LongCat Avatar LoRA:適應於 ComfyUI 的身份保持影片生成權重。提供於社群包中,以便化身在說話時保持外觀。模型檔案
  • Wan 2.1 VAE:用於將參考幀編碼為潛在向量並將最終幀解碼回圖像的影片導向變分自編碼器。包含在相同的社群包中。模型檔案
  • OpenAI Whisper large v3:驅動嘴形和時間的語音表示,實現精確的口型同步。模型卡
  • Google UMT5‑XXL 文本編碼器:將正面/負面提示轉換為運動和姿勢細微差別的調節。模型卡

如何使用 Comfyui LongCat Video Avatar 1.5 單角色 ComfyUI 工作流程#

圖形從輸入到影片遵循明確的路徑:加載資產、計算音頻嵌入、準備文本指導、編碼外觀、採樣幀,然後合併音頻並保存。

參考圖像#

將單張正面肖像載入 LoadImage (#26)。圖像由 ImageResizeKJv2 (#25) 正常化為垂直 9:16 畫布,以便角色填滿畫面而不失真。使用乾淨、均勻照明的面部,遮擋最少,以獲得最佳身份保留。如果您的來源比高度寬,請居中裁剪頭部和肩膀。

聲音音頻#

將音頻文件拖入 LoadAudio (#5)。如果需要,使用 TrimAudioDuration (#29) 剪輯它,以便最終影片長度與您的目標匹配。小型數學工具 (Evaluate Floats (#39)) 將您選擇的秒數乘以每秒幀數,自動設置總幀數。調整秒數或 FPS 是控制持續時間的快速方法。

語音嵌入(口型同步)#

LongCatAvatarWhisperEmbeds (#3) 運行 Whisper 生成 MultiTalk 嵌入,編碼音素、停頓和重音。這些嵌入是嘴形和微妙頭部運動的時間骨幹。請確保此處的總幀數和 FPS 與您的導出設置匹配,以防止漂移。當您的錄音音量變化時,可選擇啟用音量正規化。

文本指導#

LoadWanVideoT5TextEncoder (#16) 和 WanVideoTextEncode (#15) 將您的正面和負面提示轉換為調節。使用正面提示描述您想要的自然行為(如平靜的頭部轉動、微妙的點頭),並將負面提示用於避免的工件(如僵硬的動作、變形的手)。文本指導在不改變角色身份的情況下微調運動風格。

編碼外觀#

WanVideoVAELoader (#19) 和 WanVideoEncode (#24) 將您的肖像轉換為潛在向量。WanVideoLongCatAvatarExtendEmbeds (#6) 然後將參考潛在向量與音頻嵌入融合,以便身份在幀間保持穩定,而嘴部則隨著語音運動。如果音頻比剪輯短,節點可以智能地填充或循環,以便時間保持流暢。

載入化身模型#

WanVideoLoraSelect (#27) 將蒸餾的 LongCat Avatar LoRA 附加到基礎 LongCat‑Avatar‑15 模型,所有這些都由 WanVideoModelLoader (#8) 加載。這種配對保留面部特徵,同時啟用富有表情的說話運動。內部塊交換助手在共享或普通 GPU 上保持 VRAM 使用可預測。

採樣幀#

WanVideoSchedulerv2 (#52) 選擇一個為 LongCat 蒸餾調校的解決方案時間表,WanVideoSamplerv2 (#51) 生成潛在影片。設置種子以獲得可重複的結果,並調整指導強度以獲得更多或更少的提示遵從性。採樣器將圖像、文本和音頻驅動的圖像嵌入一起採樣,以便嘴部、頭部和身份相符。

解碼和保存 MP4#

WanVideoDecode (#20) 將最終潛在向量轉回圖像。VHS_VideoCombine (#14) 將幀和音頻合併為 H.264 MP4,具有指定的幀速率和文件名前綴。輸出是一個準備分享的垂直說話化身剪輯,保持口型同步和風格完整。

Comfyui LongCat Video Avatar 1.5 單角色 ComfyUI 工作流程中的關鍵節點#

LongCatAvatarWhisperEmbeds (#3)#

從 Whisper 創建驅動口型同步和微時間的 MultiTalk 音頻嵌入。保持 fpsnum_frames 與您的導出對齊,以避免不同步。當錄音音量變化時,啟用音量正規化。此節點來自 WanVideoWrapper LongCat 集成。Repo

WanVideoLongCatAvatarExtendEmbeds (#6)#

將參考潛在向量和音頻嵌入融合為幀感知的圖像嵌入。如果您的語音比目標長度短,選擇如何填充或循環,以便運動保持自然。重疊和參考幀設置有助於在較長的剪輯中保持身份穩定。Repo

WanVideoModelLoader (#8)#

載入具有選定 LongCat Avatar LoRA 的 LongCat‑Avatar‑15 基礎,以保持身份忠誠度。在受限硬體上運行時,使用附帶的 VRAM 管理和塊交換選項。切換到不同的 LongCat 變體或 LoRA 以改變風格而不需重新連接。Repo

WanVideoSamplerv2 (#51)#

主要生成器,從模型、調度器、文本和圖像嵌入合成幀。調整分類器自由指導,如果您需要更緊的提示遵從性或更鬆散的運動。固定種子以鎖定多次渲染的一致性。Repo

ImageResizeKJv2 (#25)#

準備一個肖像取向的畫布,以便化身填滿 9:16 畫面。保持面部和肩部的正確裁剪,以便可靠的身份編碼。匹配編碼器/解碼器的可分性可避免邊緣工件。

VHS_VideoCombine (#14)#

將幀和音頻合併為單個 MP4,具有您選擇的幀速率和文件名前綴。啟用元數據保存以便於迭代跟踪。此節點是 VideoHelperSuite 的一部分。Repo

可選附加功能#

  • 使用中性、正面照片,眼睛和嘴巴清晰;避免重遮擋和極端角度。
  • 清理音頻(去除長時間靜音,降低背景噪音),以便嘴部運動更穩定。
  • 在 Whisper 嵌入階段和最終導出之間保持 FPS 一致,以保持緊密的口型同步。
  • 為了更強的身份保留,請堅持使用提供的 LongCat Avatar LoRA;僅在您想要改變風格時更換 LoRA。模型檔案
  • 當您需要相同的重渲染或僅 A/B 測試單一提示更改時,設置固定種子。
  • 在較低 VRAM 上,啟用模型加載器中的塊交換,以用穩定性換取一些速度。

致謝#

此工作流程實現並建立在以下作品和資源之上。我們感謝 RunningHub 提供的工作流程來源、Meigen AI 提供的 LongCat Video Avatar 1.5,以及 Kijai 提供的 LongCat-Video_comfy 模型檔案和 ComfyUI-WanVideoWrapper 的貢獻和維護。欲了解詳細資訊,請參閱下面鏈接的原始文檔和儲存庫。

資源#

注意:使用參考的模型、數據集和代碼需遵循其作者和維護者提供的相應許可和條款。

RunComfy
版權 2026 RunComfy. 保留所有權利。

RunComfy 是首選的 ComfyUI 平台,提供 ComfyUI 在線 環境和服務,以及 ComfyUI 工作流程 具有驚豔的視覺效果。 RunComfy還提供 AI Models, 幫助藝術家利用最新的AI工具創作出令人驚艷的藝術作品。