logo
RunComfy
  • Models
  • ComfyUI
  • TrainerNew
  • API
  • Pricing
discord logo
ComfyUI>工作流程>LongCat Avatar in ComfyUI | 身份一致的頭像動畫

LongCat Avatar in ComfyUI | 身份一致的頭像動畫

Workflow Name: RunComfy/LongCat-Avatar-in-ComfyUI
Workflow ID: 0000...1327
使用 WanVideo 框架,這個強大的工作流程將一個靜態圖像轉換為流暢且富於表情的動畫頭像。您可以在每一幀中保持角色身份和面部完整性。它能夠快速、穩定地進行動畫原型設計,設置極少。非常適合測試頭像風格或運動想法,這個系統保持每個動畫的連貫性和情感吸引力。非常適合創作者探索角色運動,而不需要繁重的訓練或複雜的設置。

LongCat Avatar in ComfyUI: 單張圖片到會說話的頭像視頻

LongCat Avatar in ComfyUI 將單一參考圖像轉換為身份穩定、音頻驅動的頭像視頻。基於 kijai 的 WanVideo 包裝器,它專注於面部一致性、平滑的運動連續性和自然的唇同步,而不需要每個角色的微調。您只需提供一個角色圖像和一段音頻;工作流程會渲染一個時間一致的表演,適合說話頭剪輯、風格化角色表演和快速的頭像運動測試。

希望快速迭代的創作者會發現 LongCat Avatar in ComfyUI 實用且可靠。工作流程使用 LongCat 的身份保留模型和窗口生成方案來擴展序列,同時保持表情穩定。輸出與源音頻組合為視頻,便於直接審查或發布。

注意:在 2XL 或更高配置的機器上,請在 WanVideo 模型加載節點中將注意力後端設置為 "sdpa"。默認的 segeattn 後端可能會在高端 GPU 上引起兼容性問題。

Comfyui LongCat Avatar in ComfyUI 工作流程中的關鍵模型

  • LongCat-Avatar 模型適用於 WanVideo。為 ComfyUI 調整的身份專注圖像到視頻生成,提供強大的角色保留跨幀。參見 kijai 在 Hugging Face 上的 WanVideo Comfy 發行,獲取檢查點和說明。Hugging Face: Kijai/WanVideo_comfy
  • LongCat distill LoRA。蒸餾的 LoRA 在採樣期間加強面部結構和身份特徵,在運動中提高穩定性。可在 WanVideo Comfy 資產中獲得。Hugging Face: Kijai/WanVideo_comfy
  • Wan 2.1 VAE。視頻 VAE 用於將參考幀編碼為潛在變量,並將生成的樣本解碼回圖像。Hugging Face: Kijai/WanVideo_comfy
  • UM-T5 文本編碼器。由 WanVideo 使用以解釋文本提示,指導場景描述和風格,同時保持身份完整。Hugging Face: google/umt5-xxl
  • Wav2Vec 2.0 語音表示。提供驅動嘴唇和下巴運動的強大語音特徵,通過 MultiTalk 嵌入進行。arXiv 和兼容的模型變體:Hugging Face: TencentGameMate/chinese-wav2vec2-base
  • MelBandRoFormer 人聲分離器。可選的人聲-音樂分離,以便唇同步模塊接收更清晰的語音信號。Hugging Face: Kijai/MelBandRoFormer_comfy

如何使用 Comfyui LongCat Avatar in ComfyUI 工作流程

該工作流程有三個主要階段:模型和設置、音頻到運動提示、參考圖像到視頻的窗口擴展。它以固定速率渲染,設計為音頻驅動運動,然後將窗口縫合為無縫剪輯。

  • 模型
    • WanVideoModelLoader (#122) 加載 LongCat-Avatar 檢查點和 LongCat distill LoRA,而 WanVideoVAELoader (#129) 提供視頻 VAE。WanVideoSchedulerv2 (#325) 準備在擴散過程中使用的採樣器計劃。這些組件定義了保真度、身份保留和一般外觀。設置後,它們作為所有後續採樣步驟的骨幹。
  • 音頻
    • 使用 LoadAudio (#125) 加載語音軌道,選擇性地使用 TrimAudioDuration (#317) 修剪,並使用 MelBandRoFormerSampler (#302) 分離人聲以減少背景滲透。MultiTalkWav2VecEmbeds (#194) 將清理後的語音轉換為驅動嘴巴運動和微妙頭部動態的嵌入。有效幀數是從音頻持續時間得出的,因此音頻越長,序列越長。音頻流稍後在視頻合併階段與圖像複用。
  • 輸入圖像
    • 使用 LoadImage (#284) 添加您的角色圖像。ImageResizeKJv2 (#281) 將其調整為模型的大小,WanVideoEncode (#312) 將其轉換為 ref_latent,在所有幀中錨定身份。這個潛在變量是 LongCat Avatar in ComfyUI 管道重複使用的固定參考,同時從音頻和提示中注入時間變動的運動。
  • 擴展窗口 1
    • WanVideoLongCatAvatarExtendEmbeds (#345) 將 ref_latent 與音頻嵌入融合,創建第一個窗口的圖像嵌入。WanVideoSamplerv2 (#324) 然後對潛在變量去噪,形成一個短片。WanVideoDecode (#313) 將這些轉換為預覽圖像和第一個視頻導出,用 VHS_VideoCombine (#320) 完成。窗口大小和重疊內部跟蹤,因此下一個窗口可以無縫對齊。
  • 擴展窗口 2
    • 第二個擴展組重複相同的想法以繼續序列。WanVideoLongCatAvatarExtendEmbeds (#346, #461) 根據先前的潛在變量計算嵌入,並由當前重疊框定。WanVideoSamplerv2 (#327, #456) 生成下一塊,並與 ImageBatchExtendWithOverlap (#341, #460) 解碼並合併以保持連續性。可以重複其他窗口步驟以獲得更長的結果,每個階段可以用 VHS_VideoCombine (#386, #453) 導出。

Comfyui LongCat Avatar in ComfyUI 工作流程中的關鍵節點

  • WanVideoModelLoader (#122)
    • 加載 LongCat-Avatar 檢查點並附加 LongCat distill LoRA,定義身份保真度和運動行為。如果您運行更大的實例,請根據 WanVideo 包裝器中的建議切換注意力實現以提高吞吐量。參考資料庫:github.com/kijai/ComfyUI-WanVideoWrapper。
  • MultiTalkWav2VecEmbeds (#194)
    • 從語音中生成音頻驅動的嵌入,指導嘴唇、下巴和微妙頭部運動。為了更強的表達,可以增加語音影響,並考慮在音頻非常清晰時進行額外的通過以獲得更緊密的同步。背景模型信息:arXiv: wav2vec 2.0。
  • WanVideoLongCatAvatarExtendEmbeds (#346)
    • LongCat Avatar in ComfyUI 的核心,這個節點在時間上擴展圖像嵌入,同時保持錨定於參考潛在變量。調整窗口長度和重疊以平衡平滑性、運行時間和更長剪輯的穩定性。
  • WanVideoSamplerv2 (#327)
    • 使用模型、計劃器、文本指導和圖像嵌入運行擴散過程。調整指導力度以在提示依從性與變化之間權衡;小的改變可以對身份僵硬性和運動產生明顯影響。
  • VHS_VideoCombine (#320)
    • 將渲染幀與原始音頻複用為 mp4,便於查看。使用內置的修剪選項,當您希望視覺效果與音頻完全結束時或僅導出最新窗口時。

可選附加

  • 確保音頻持續時間涵蓋所有計劃的擴展窗口,以避免在序列中途語音用盡。
  • 對於長片,適度增加窗口大小並保持一些重疊,以便過渡保持平滑;重疊太少可能會引入彈出,過多可能會減慢渲染速度。
  • 該管道在與語音驅動步幅相關的固定幀率下運行,這在導出時保持唇同步對齊。
  • 如果您使用大型機器類型,請在模型加載器中將注意力實現設置為節省內存的選項以提高速度。
  • 不要混合不兼容的模型格式;保持主模型和任何語音組件在 WanVideo Comfy 發行中提供的匹配系列中。有用的模型中心:Kijai/WanVideo_comfy 和 GGUF 變體如 city96/Wan2.1-I2V-14B-480P-gguf。

致謝

這個工作流程實施並建立在以下工作和資源之上。我們對 ComfyUI-WanVideoWrapper (LongCatAvatar 工作流程) 的 Kijai 以及參考 YouTube 視頻的創作者 @Benji’s AI Playground 的貢獻和維護表示感謝。如需權威詳情,請參閱以下鏈接的原始文檔和存儲庫。

資源

  • YouTube/視頻教程
    • 文檔 / 發行說明:Benji’s AI Playground YouTube 視頻
  • Kijai/ComfyUI-WanVideoWrapper (LongCatAvatar_testing_wip.json)
    • GitHub: kijai/ComfyUI-WanVideoWrapper
    • 文檔 / 發行說明:LongCatAvatar_testing_wip.json (branch longcat_avatar)

注意:使用參考的模型、數據集和代碼需遵循其作者和維護者提供的相應許可和條款。

Want More ComfyUI Workflows?

Wan 2.1 | 革命性影片生成

使用突破性 AI 從文字或圖像創建令人驚嘆的影片,並可在日常 CPU 上運行。

Wan 2.1 LoRA

使用 LoRA 模型增強 Wan 2.1 視頻生成,提升風格和可自訂性。

Wan 2.1 控制 LoRA | 深度和瓦片

利用輕量級深度和瓦片 LoRAs 提升 Wan 2.1 視頻生成的結構和細節。

Janus-Pro | T2I + I2T 模型

Janus-Pro:先進的文本到圖像和圖像到文本生成。

Wan FusionX | T2V+I2V+VACE 完整套件

迄今為止最強大的視頻生成解決方案!影院級別細節,您的個人電影工作室。

ComfyUI Grounding | 物件追蹤工作流程

以像素級精準度追蹤任何主體,實現驚人的視覺效果。

Wan 2.2 低 VRAM | Kijai 包裝器

低 VRAM。不再等待。Kijai 包裝器已包括。

產品重光 | Magnific.AI Relight 替代方案

輕鬆提升您的產品攝影,是 Magnific.AI Relight 的最佳替代方案。

關注我們
  • 領英
  • Facebook
  • Instagram
  • Twitter
支持
  • Discord
  • 電子郵件
  • 系統狀態
  • 附屬
資源
  • 免費 ComfyUI 在線版
  • ComfyUI 指南
  • RunComfy API
  • ComfyUI 教程
  • ComfyUI 節點
  • 了解更多
法律
  • 服務條款
  • 隱私政策
  • Cookie 政策
RunComfy
版權 2025 RunComfy. 保留所有權利。

RunComfy 是首選的 ComfyUI 平台,提供 ComfyUI 在線 環境和服務,以及 ComfyUI 工作流程 具有驚豔的視覺效果。 RunComfy還提供 AI Models, 幫助藝術家利用最新的AI工具創作出令人驚艷的藝術作品。