LongCat Avatar in ComfyUI: 單張圖片到會說話的頭像視頻
LongCat Avatar in ComfyUI 將單一參考圖像轉換為身份穩定、音頻驅動的頭像視頻。基於 kijai 的 WanVideo 包裝器,它專注於面部一致性、平滑的運動連續性和自然的唇同步,而不需要每個角色的微調。您只需提供一個角色圖像和一段音頻;工作流程會渲染一個時間一致的表演,適合說話頭剪輯、風格化角色表演和快速的頭像運動測試。
希望快速迭代的創作者會發現 LongCat Avatar in ComfyUI 實用且可靠。工作流程使用 LongCat 的身份保留模型和窗口生成方案來擴展序列,同時保持表情穩定。輸出與源音頻組合為視頻,便於直接審查或發布。
注意:在 2XL 或更高配置的機器上,請在 WanVideo 模型加載節點中將注意力後端設置為 "sdpa"。默認的 segeattn 後端可能會在高端 GPU 上引起兼容性問題。
Comfyui LongCat Avatar in ComfyUI 工作流程中的關鍵模型
- LongCat-Avatar 模型適用於 WanVideo。為 ComfyUI 調整的身份專注圖像到視頻生成,提供強大的角色保留跨幀。參見 kijai 在 Hugging Face 上的 WanVideo Comfy 發行,獲取檢查點和說明。Hugging Face: Kijai/WanVideo_comfy
- LongCat distill LoRA。蒸餾的 LoRA 在採樣期間加強面部結構和身份特徵,在運動中提高穩定性。可在 WanVideo Comfy 資產中獲得。Hugging Face: Kijai/WanVideo_comfy
- Wan 2.1 VAE。視頻 VAE 用於將參考幀編碼為潛在變量,並將生成的樣本解碼回圖像。Hugging Face: Kijai/WanVideo_comfy
- UM-T5 文本編碼器。由 WanVideo 使用以解釋文本提示,指導場景描述和風格,同時保持身份完整。Hugging Face: google/umt5-xxl
- Wav2Vec 2.0 語音表示。提供驅動嘴唇和下巴運動的強大語音特徵,通過 MultiTalk 嵌入進行。arXiv 和兼容的模型變體:Hugging Face: TencentGameMate/chinese-wav2vec2-base
- MelBandRoFormer 人聲分離器。可選的人聲-音樂分離,以便唇同步模塊接收更清晰的語音信號。Hugging Face: Kijai/MelBandRoFormer_comfy
如何使用 Comfyui LongCat Avatar in ComfyUI 工作流程
該工作流程有三個主要階段:模型和設置、音頻到運動提示、參考圖像到視頻的窗口擴展。它以固定速率渲染,設計為音頻驅動運動,然後將窗口縫合為無縫剪輯。
- 模型
WanVideoModelLoader(#122) 加載 LongCat-Avatar 檢查點和 LongCat distill LoRA,而WanVideoVAELoader(#129) 提供視頻 VAE。WanVideoSchedulerv2(#325) 準備在擴散過程中使用的採樣器計劃。這些組件定義了保真度、身份保留和一般外觀。設置後,它們作為所有後續採樣步驟的骨幹。
- 音頻
- 使用
LoadAudio(#125) 加載語音軌道,選擇性地使用TrimAudioDuration(#317) 修剪,並使用MelBandRoFormerSampler(#302) 分離人聲以減少背景滲透。MultiTalkWav2VecEmbeds(#194) 將清理後的語音轉換為驅動嘴巴運動和微妙頭部動態的嵌入。有效幀數是從音頻持續時間得出的,因此音頻越長,序列越長。音頻流稍後在視頻合併階段與圖像複用。
- 使用
- 輸入圖像
- 使用
LoadImage(#284) 添加您的角色圖像。ImageResizeKJv2(#281) 將其調整為模型的大小,WanVideoEncode(#312) 將其轉換為ref_latent,在所有幀中錨定身份。這個潛在變量是 LongCat Avatar in ComfyUI 管道重複使用的固定參考,同時從音頻和提示中注入時間變動的運動。
- 使用
- 擴展窗口 1
WanVideoLongCatAvatarExtendEmbeds(#345) 將ref_latent與音頻嵌入融合,創建第一個窗口的圖像嵌入。WanVideoSamplerv2(#324) 然後對潛在變量去噪,形成一個短片。WanVideoDecode(#313) 將這些轉換為預覽圖像和第一個視頻導出,用VHS_VideoCombine(#320) 完成。窗口大小和重疊內部跟蹤,因此下一個窗口可以無縫對齊。
- 擴展窗口 2
- 第二個擴展組重複相同的想法以繼續序列。
WanVideoLongCatAvatarExtendEmbeds(#346, #461) 根據先前的潛在變量計算嵌入,並由當前重疊框定。WanVideoSamplerv2(#327, #456) 生成下一塊,並與ImageBatchExtendWithOverlap(#341, #460) 解碼並合併以保持連續性。可以重複其他窗口步驟以獲得更長的結果,每個階段可以用VHS_VideoCombine(#386, #453) 導出。
- 第二個擴展組重複相同的想法以繼續序列。
Comfyui LongCat Avatar in ComfyUI 工作流程中的關鍵節點
WanVideoModelLoader(#122)- 加載 LongCat-Avatar 檢查點並附加 LongCat distill LoRA,定義身份保真度和運動行為。如果您運行更大的實例,請根據 WanVideo 包裝器中的建議切換注意力實現以提高吞吐量。參考資料庫:github.com/kijai/ComfyUI-WanVideoWrapper。
MultiTalkWav2VecEmbeds(#194)- 從語音中生成音頻驅動的嵌入,指導嘴唇、下巴和微妙頭部運動。為了更強的表達,可以增加語音影響,並考慮在音頻非常清晰時進行額外的通過以獲得更緊密的同步。背景模型信息:arXiv: wav2vec 2.0。
WanVideoLongCatAvatarExtendEmbeds(#346)- LongCat Avatar in ComfyUI 的核心,這個節點在時間上擴展圖像嵌入,同時保持錨定於參考潛在變量。調整窗口長度和重疊以平衡平滑性、運行時間和更長剪輯的穩定性。
WanVideoSamplerv2(#327)- 使用模型、計劃器、文本指導和圖像嵌入運行擴散過程。調整指導力度以在提示依從性與變化之間權衡;小的改變可以對身份僵硬性和運動產生明顯影響。
VHS_VideoCombine(#320)- 將渲染幀與原始音頻複用為 mp4,便於查看。使用內置的修剪選項,當您希望視覺效果與音頻完全結束時或僅導出最新窗口時。
可選附加
- 確保音頻持續時間涵蓋所有計劃的擴展窗口,以避免在序列中途語音用盡。
- 對於長片,適度增加窗口大小並保持一些重疊,以便過渡保持平滑;重疊太少可能會引入彈出,過多可能會減慢渲染速度。
- 該管道在與語音驅動步幅相關的固定幀率下運行,這在導出時保持唇同步對齊。
- 如果您使用大型機器類型,請在模型加載器中將注意力實現設置為節省內存的選項以提高速度。
- 不要混合不兼容的模型格式;保持主模型和任何語音組件在 WanVideo Comfy 發行中提供的匹配系列中。有用的模型中心:Kijai/WanVideo_comfy 和 GGUF 變體如 city96/Wan2.1-I2V-14B-480P-gguf。
致謝
這個工作流程實施並建立在以下工作和資源之上。我們對 ComfyUI-WanVideoWrapper (LongCatAvatar 工作流程) 的 Kijai 以及參考 YouTube 視頻的創作者 @Benji’s AI Playground 的貢獻和維護表示感謝。如需權威詳情,請參閱以下鏈接的原始文檔和存儲庫。
資源
- YouTube/視頻教程
- 文檔 / 發行說明:Benji’s AI Playground YouTube 視頻
- Kijai/ComfyUI-WanVideoWrapper (LongCatAvatar_testing_wip.json)
注意:使用參考的模型、數據集和代碼需遵循其作者和維護者提供的相應許可和條款。
