LongCat Avatar in ComfyUI | WanVideo 身份保留動畫

LongCat Avatar in ComfyUI Workflow

想要運行這個工作流程嗎？

完全可操作的工作流程
沒有缺失的節點或模型
無需手動設置
具有驚豔的視覺效果

LongCat Avatar in ComfyUI Examples

LongCat Avatar in ComfyUI: 單張圖片到會說話的頭像視頻#

LongCat Avatar in ComfyUI 將單一參考圖像轉換為身份穩定、音頻驅動的頭像視頻。基於 kijai 的 WanVideo 包裝器，它專注於面部一致性、平滑的運動連續性和自然的唇同步，而不需要每個角色的微調。您只需提供一個角色圖像和一段音頻；工作流程會渲染一個時間一致的表演，適合說話頭剪輯、風格化角色表演和快速的頭像運動測試。

希望快速迭代的創作者會發現 LongCat Avatar in ComfyUI 實用且可靠。工作流程使用 LongCat 的身份保留模型和窗口生成方案來擴展序列，同時保持表情穩定。輸出與源音頻組合為視頻，便於直接審查或發布。

注意：在 2XL 或更高配置的機器上，請在 WanVideo 模型加載節點中將注意力後端設置為 "sdpa"。默認的 segeattn 後端可能會在高端 GPU 上引起兼容性問題。

Comfyui LongCat Avatar in ComfyUI 工作流程中的關鍵模型#

LongCat-Avatar 模型適用於 WanVideo。為 ComfyUI 調整的身份專注圖像到視頻生成，提供強大的角色保留跨幀。參見 kijai 在 Hugging Face 上的 WanVideo Comfy 發行，獲取檢查點和說明。Hugging Face: Kijai/WanVideo_comfy
LongCat distill LoRA。蒸餾的 LoRA 在採樣期間加強面部結構和身份特徵，在運動中提高穩定性。可在 WanVideo Comfy 資產中獲得。Hugging Face: Kijai/WanVideo_comfy
Wan 2.1 VAE。視頻 VAE 用於將參考幀編碼為潛在變量，並將生成的樣本解碼回圖像。Hugging Face: Kijai/WanVideo_comfy
UM-T5 文本編碼器。由 WanVideo 使用以解釋文本提示，指導場景描述和風格，同時保持身份完整。Hugging Face: google/umt5-xxl
Wav2Vec 2.0 語音表示。提供驅動嘴唇和下巴運動的強大語音特徵，通過 MultiTalk 嵌入進行。arXiv 和兼容的模型變體：Hugging Face: TencentGameMate/chinese-wav2vec2-base
MelBandRoFormer 人聲分離器。可選的人聲-音樂分離，以便唇同步模塊接收更清晰的語音信號。Hugging Face: Kijai/MelBandRoFormer_comfy

如何使用 Comfyui LongCat Avatar in ComfyUI 工作流程#

該工作流程有三個主要階段：模型和設置、音頻到運動提示、參考圖像到視頻的窗口擴展。它以固定速率渲染，設計為音頻驅動運動，然後將窗口縫合為無縫剪輯。

模型
- WanVideoModelLoader (#122) 加載 LongCat-Avatar 檢查點和 LongCat distill LoRA，而 WanVideoVAELoader (#129) 提供視頻 VAE。WanVideoSchedulerv2 (#325) 準備在擴散過程中使用的採樣器計劃。這些組件定義了保真度、身份保留和一般外觀。設置後，它們作為所有後續採樣步驟的骨幹。
音頻
- 使用 LoadAudio (#125) 加載語音軌道，選擇性地使用 TrimAudioDuration (#317) 修剪，並使用 MelBandRoFormerSampler (#302) 分離人聲以減少背景滲透。MultiTalkWav2VecEmbeds (#194) 將清理後的語音轉換為驅動嘴巴運動和微妙頭部動態的嵌入。有效幀數是從音頻持續時間得出的，因此音頻越長，序列越長。音頻流稍後在視頻合併階段與圖像複用。
輸入圖像
- 使用 LoadImage (#284) 添加您的角色圖像。ImageResizeKJv2 (#281) 將其調整為模型的大小，WanVideoEncode (#312) 將其轉換為 ref_latent，在所有幀中錨定身份。這個潛在變量是 LongCat Avatar in ComfyUI 管道重複使用的固定參考，同時從音頻和提示中注入時間變動的運動。
擴展窗口 1
- WanVideoLongCatAvatarExtendEmbeds (#345) 將 ref_latent 與音頻嵌入融合，創建第一個窗口的圖像嵌入。WanVideoSamplerv2 (#324) 然後對潛在變量去噪，形成一個短片。WanVideoDecode (#313) 將這些轉換為預覽圖像和第一個視頻導出，用 VHS_VideoCombine (#320) 完成。窗口大小和重疊內部跟蹤，因此下一個窗口可以無縫對齊。
擴展窗口 2
- 第二個擴展組重複相同的想法以繼續序列。WanVideoLongCatAvatarExtendEmbeds (#346, #461) 根據先前的潛在變量計算嵌入，並由當前重疊框定。WanVideoSamplerv2 (#327, #456) 生成下一塊，並與 ImageBatchExtendWithOverlap (#341, #460) 解碼並合併以保持連續性。可以重複其他窗口步驟以獲得更長的結果，每個階段可以用 VHS_VideoCombine (#386, #453) 導出。

Comfyui LongCat Avatar in ComfyUI 工作流程中的關鍵節點#

WanVideoModelLoader (#122)
- 加載 LongCat-Avatar 檢查點並附加 LongCat distill LoRA，定義身份保真度和運動行為。如果您運行更大的實例，請根據 WanVideo 包裝器中的建議切換注意力實現以提高吞吐量。參考資料庫：github.com/kijai/ComfyUI-WanVideoWrapper。
MultiTalkWav2VecEmbeds (#194)
- 從語音中生成音頻驅動的嵌入，指導嘴唇、下巴和微妙頭部運動。為了更強的表達，可以增加語音影響，並考慮在音頻非常清晰時進行額外的通過以獲得更緊密的同步。背景模型信息：arXiv: wav2vec 2.0。
WanVideoLongCatAvatarExtendEmbeds (#346)
- LongCat Avatar in ComfyUI 的核心，這個節點在時間上擴展圖像嵌入，同時保持錨定於參考潛在變量。調整窗口長度和重疊以平衡平滑性、運行時間和更長剪輯的穩定性。
WanVideoSamplerv2 (#327)
- 使用模型、計劃器、文本指導和圖像嵌入運行擴散過程。調整指導力度以在提示依從性與變化之間權衡；小的改變可以對身份僵硬性和運動產生明顯影響。
VHS_VideoCombine (#320)
- 將渲染幀與原始音頻複用為 mp4，便於查看。使用內置的修剪選項，當您希望視覺效果與音頻完全結束時或僅導出最新窗口時。

可選附加#

確保音頻持續時間涵蓋所有計劃的擴展窗口，以避免在序列中途語音用盡。
對於長片，適度增加窗口大小並保持一些重疊，以便過渡保持平滑；重疊太少可能會引入彈出，過多可能會減慢渲染速度。
該管道在與語音驅動步幅相關的固定幀率下運行，這在導出時保持唇同步對齊。
如果您使用大型機器類型，請在模型加載器中將注意力實現設置為節省內存的選項以提高速度。
不要混合不兼容的模型格式；保持主模型和任何語音組件在 WanVideo Comfy 發行中提供的匹配系列中。有用的模型中心：Kijai/WanVideo_comfy 和 GGUF 變體如 city96/Wan2.1-I2V-14B-480P-gguf。

致謝#

這個工作流程實施並建立在以下工作和資源之上。我們對 ComfyUI-WanVideoWrapper (LongCatAvatar 工作流程) 的 Kijai 以及參考 YouTube 視頻的創作者 @Benji’s AI Playground 的貢獻和維護表示感謝。如需權威詳情，請參閱以下鏈接的原始文檔和存儲庫。

資源#

YouTube/視頻教程
- 文檔 / 發行說明：Benji’s AI Playground YouTube 視頻
Kijai/ComfyUI-WanVideoWrapper (LongCatAvatar_testing_wip.json)
- GitHub: kijai/ComfyUI-WanVideoWrapper
- 文檔 / 發行說明：LongCatAvatar_testing_wip.json (branch longcat_avatar)

注意：使用參考的模型、數據集和代碼需遵循其作者和維護者提供的相應許可和條款。

Want More ComfyUI Workflows?

Wan 2.1 | 革命性影片生成

使用突破性 AI 從文字或圖像創建令人驚嘆的影片，並可在日常 CPU 上運行。

Wan 2.1 LoRA

使用 LoRA 模型增強 Wan 2.1 視頻生成，提升風格和可自訂性。

Wan 2.1 控制 LoRA | 深度和瓦片

利用輕量級深度和瓦片 LoRAs 提升 Wan 2.1 視頻生成的結構和細節。

Janus-Pro | T2I + I2T 模型

Janus-Pro：先進的文本到圖像和圖像到文本生成。

Wan FusionX | T2V+I2V+VACE 完整套件

迄今為止最強大的視頻生成解決方案！影院級別細節，您的個人電影工作室。

LTX 2.3 ID-LoRA | 說話化身生成器

創建與聲音和視覺同步的逼真說話化身。

音頻互動舞者進化

使用由複雜幾何組成的音頻互動背景轉換您的主題。

BRIA AI RMBG 1.4 對比 Segment Anything | 背景移除

通過比較 BRIA AI 的 RMBG 1.4 與 Segment Anything 高效移除背景。

關注我們

支持

資源

法律

RunComfy

RunComfy 是首選的 ComfyUI 平台，提供 ComfyUI 在線環境和服務，以及 ComfyUI 工作流程具有驚豔的視覺效果。 RunComfy還提供 AI Models, 幫助藝術家利用最新的AI工具創作出令人驚艷的藝術作品。

LongCat Avatar in ComfyUI | 身份一致的頭像動畫