Wan 2.2 Animate V2 在 ComfyUI 中的應用 | 姿勢驅動的動畫工作流程

ComfyUI Wan 2.2 Animate V2 Workflow

Wan 2.2 Animate V2 in ComfyUI | Pose-Driven Animation Workflow

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

ComfyUI Wan 2.2 Animate V2 Examples

Wan 2.2 Animate V2 姿勢驅動的視頻生成工作流程適用於 ComfyUI#

Wan 2.2 Animate V2 是一個姿勢驅動的視頻生成工作流程，將單一參考圖像和驅動姿勢視頻轉換成逼真且保持身份的動畫。它在第一版的基礎上，提供更高的保真度、更平滑的運動和更好的時間一致性，同時緊密跟隨源視頻中的全身運動和表情。

這個 ComfyUI 工作流程專為希望快速、可靠結果的創作者設計，用於角色動畫、舞蹈剪輯和表演驅動的故事講述。它結合了強大的預處理（姿勢、面部和主題遮罩）與 Wan 2.2 模型家族和可選的 LoRAs，使您能夠自信地調整風格、照明和背景處理。

ComfyUI Wan 2.2 Animate V2 工作流程中的關鍵模型#

Wan 2.2 Animate 14B。核心視頻擴散模型，從多模態嵌入合成時間一致的幀。權重：Kijai/WanVideo_comfy_fp8_scaled (Wan22Animate)。
Wan 2.1 VAE。Wan 家族使用的潛在視頻解碼器/編碼器，以最小損失重建 RGB 幀。權重：Wan2_1_VAE_bf16.safetensors。
UMT5‑XXL 文本編碼器。編碼指導外觀、場景和電影效果的提示。權重：umt5‑xxl‑enc‑bf16.safetensors。
CLIP Vision (ViT‑H/14)。從參考圖像中提取保持身份的特徵。論文：CLIP。
ViTPose Whole‑Body (ONNX)。估算驅動運動轉移的密集身體關鍵點。模型：ViTPose‑L WholeBody 和 ViTPose‑H WholeBody。論文：ViTPose。
YOLOv10 檢測器。提供人框以穩定姿勢檢測和分割。示例：yolov10m.onnx。
Segment Anything 2。高質量主題遮罩，用於背景保護、合成或重新照明預覽。倉庫：facebookresearch/segment-anything-2。
用於風格和光傳輸的可選 LoRAs。有助於在 Wan 2.2 Animate V2 輸出中重新照明和紋理細節。示例：Lightx2v 和 Wan22_relight。

如何使用 ComfyUI Wan 2.2 Animate V2 工作流程#

從高層次來看，管道從驅動視頻中提取姿勢和面部線索，從單一參考圖像編碼身份，選擇性地使用 SAM 2 遮罩隔離主題，然後合成與運動相匹配且保持身份的視頻。工作流程組織成四個組，以協作生成最終結果，並有兩個便捷輸出進行快速 QA（姿勢和遮罩預覽）。

參考圖像#

此組加載您的肖像或全身圖像，將其調整到目標分辨率，並在整個圖形中可用。調整大小的圖像由 Get_reference_image 存儲和重用，並預覽以便您快速評估構圖。身份特徵由 WanVideoClipVisionEncode (CLIP Vision)（#70）編碼，並且相同的圖像作為 ref_images 餵給 WanVideoAnimateEmbeds（#62），以更強的身份保留。提供一個清晰、光線充足的參考，與驅動視頻中的主題類型匹配，以獲得最佳結果。頭部空間和最小遮擋有助於 Wan 2.2 Animate V2 鎖定面部結構和衣物。

預處理#

驅動視頻由 VHS_LoadVideo（#191）加載，暴露幀、音頻、幀數和源 fps 以供後續使用。姿勢和面部線索由 OnnxDetectionModelLoader（#178）和 PoseAndFaceDetection（#172）提取，然後由 DrawViTPose（#173）可視化，以便您確認跟蹤質量。主題隔離由 Sam2Segmentation（#104）處理，接著是 GrowMaskWithBlur（#182）和 BlockifyMask（#108），以生成乾淨、穩定的遮罩；幫助程序 DrawMaskOnImage（#99）預覽遮罩。該組還標準化驅動視頻的寬度、高度和幀數，因此 Wan 2.2 Animate V2 可以在沒有猜測的情況下匹配空間和時間設置。快速檢查以短視頻導出：姿勢疊加和遮罩預覽進行零次驗證。

模型#

WanVideoVAELoader（#38）加載 Wan VAE，WanVideoModelLoader（#22）加載 Wan 2.2 Animate 主幹。可選的 LoRAs 在 WanVideoLoraSelectMulti（#171）中選擇，並通過 WanVideoSetLoRAs（#48）應用；WanVideoBlockSwap（#51）可以通過 WanVideoSetBlockSwap（#50）啟用，用於影響風格和保真度的架構調整。提示由 WanVideoTextEncodeCached（#65）編碼，而 WanVideoClipVisionEncode（#70）將參考圖像轉換成強大的身份嵌入。WanVideoAnimateEmbeds（#62）融合了 CLIP 特徵、參考圖像、姿勢圖像、面部裁剪、可選背景幀、SAM 2 遮罩以及所選分辨率和幀數成單一動畫嵌入。該飼料驅動 WanVideoSampler（#27），合成出符合您的提示、身份和運動線索的潛在視頻，WanVideoDecode（#28）將潛在的轉回 RGB 幀。

結果拼貼#

為了幫助比較輸出，工作流程組裝了一個簡單的並排：生成的視頻旁邊是一條垂直條帶，顯示參考圖像、面部裁剪、姿勢疊加和驅動視頻中的一幀。ImageConcatMulti（#77、#66）構建視覺拼貼，然後 VHS_VideoCombine（#30）渲染“比較”mp4。最終的乾淨輸出由 VHS_VideoCombine（#189）渲染，還將驅動程序中的音頻轉移進行快速審查剪輯。這些導出使您可以輕鬆判斷 Wan 2.2 Animate V2 如何遵循運動、保持身份並維持預期背景。

ComfyUI Wan 2.2 Animate V2 工作流程中的關鍵節點#

VHS_LoadVideo（#191）加載驅動視頻，並暴露幀、音頻和圖形中使用的元數據。保持主題完全可見，運動模糊最小，以增強關鍵點跟蹤。如果要進行更短的測試，限制加載的幀數；保持源 fps 在下游一致，以避免最終合成中的音頻不同步。

PoseAndFaceDetection（#172）運行 YOLO 和 ViTPose 以生成直接指導運動轉移的全身關鍵點和面部裁剪。從加載器中提供圖像和標準化的寬度和高度；可選的 retarget_image 輸入允許在需要時將姿勢調整到不同的構圖。如果姿勢疊加看起來嘈雜，請考慮質量更高的 ViTPose 模型，並確保主題未被嚴重遮擋。參考：ComfyUI‑WanAnimatePreprocess。

Sam2Segmentation（#104）生成可以在 Wan 2.2 Animate V2 中保留背景或定位重新照明的主題遮罩。可以使用 PoseAndFaceDetection 檢測到的邊界框，或在需要時快速繪製正點以細化遮罩。與 GrowMaskWithBlur 配對，以獲得快速運動的更乾淨邊緣，並使用遮罩預覽導出檢查結果。參考：Segment Anything 2。

WanVideoClipVisionEncode（#70）使用 CLIP Vision 編碼參考圖像，以捕捉面部結構、頭髮和衣物等身份線索。可以平均多個參考圖像以穩定身份，或使用負面圖像抑制不需要的特徵。居中的裁剪和一致的照明有助於產生更強的嵌入。

WanVideoAnimateEmbeds（#62）融合身份特徵、姿勢圖像、面部裁剪、可選背景幀和 SAM 2 遮罩成單一動畫嵌入。將 width、height 和 num_frames 與驅動視頻對齊，以減少工件。如果看到背景漂移，請提供乾淨的背景幀和堅固的遮罩；如果面部漂移，請確保面部裁剪存在且光線充足。

WanVideoSampler（#27）根據您的提示、LoRAs 和動畫嵌入生成實際視頻潛在變量。對於長剪輯，在滑動窗口策略或模型的上下文選項之間進行選擇；將窗口與剪輯長度匹配，以平衡運動銳利度和長程一致性。調整調度器和引導強度，以在保真度、風格遵從性和運動平滑度之間進行權衡，如果您的 LoRA 堆棧受益於此，請考慮啟用塊交換。

可選附加功能#

從乾淨的驅動剪輯開始：穩定的相機、簡單的照明和最小的遮擋給 Wan 2.2 Animate V2 提供了清晰跟蹤運動的最佳機會。
使用與目標衣服和構圖匹配的參考；避免與您的提示或 LoRAs 衝突的極端角度或重濾鏡。
使用 SAM 2 遮罩保留或更換背景；在合成時，保持邊緣足夠柔和，以避免快速運動時出現光暈。
從加載到導出保持 fps 一致，以在轉移音頻時保持唇同步和節拍對齊。
為快速迭代，先測試短片段，然後一旦姿勢、身份和照明看起來正確，擴展幀範圍。

此工作流程中使用的有用資源：

預處理節點：kijai/ComfyUI‑WanAnimatePreprocess
ViTPose ONNX 模型：ViTPose‑L、ViTPose‑H model 和 data
YOLOv10 檢測器：yolov10m.onnx
Wan 2.2 Animate 14B 權重：Wan22Animate
LoRAs：Lightx2v、Wan22_relight

致謝#

此工作流程實施並基於以下作品和資源。我們衷心感謝 Benji’s AI Playground 的工作流程和 Wan 團隊對 Wan 2.2 Animate V2 模型的貢獻和維護。有關權威詳細信息，請參考下面鏈接的原始文檔和倉庫。

資源#

Wan 團隊/Wan 2.2 Animate V2
- 文檔 / 發布說明：YouTube @Benji’s AI Playground

注意：所引用模型、數據集和代碼的使用受其作者和維護者提供的相應許可和條款的約束。

Want More ComfyUI Workflows?

Wan 2.2 | 開源影片生成領導者

現在可用！更好的精度 + 更平滑的運動。

Wan 2.2 FLF2V | 首末幀視頻生成

使用 Wan 2.2 FLF2V 從開始和結束幀生成流暢視頻。

Wan 2.2 + Lightx2v V2 | 超高速 I2V & T2V

雙重 Light LoRA 組合，速度提升 4 倍。

Wan 2.2 Lightning T2V I2V | 4 步驟超高速

Wan 2.2 現在速度提升 20 倍！T2V + I2V 僅需 4 步。

Wan2.2 動畫 | 照片到現實動態視頻

將圖像轉換為栩栩如生的動態角色，具有自然的身體和面部運動。

LTX 2.3 VBVR | 上下文感知視頻生成器

為每個生成的視頻序列添加邏輯和流程。

CogVideoX-5B | 先進的文本到視頻模型

CogVideoX-5B：高質量視頻生成的先進文本到視頻模型。

OmniGen | 圖像到圖像

OmniGen：根據參考圖像和提示修改圖像

關注我們

支持

資源

法律

RunComfy

RunComfy 是首選的 ComfyUI 平台，提供 ComfyUI 在線環境和服務，以及 ComfyUI 工作流程具有驚豔的視覺效果。 RunComfy還提供 AI Models, 幫助藝術家利用最新的AI工具創作出令人驚艷的藝術作品。

Wan 2.2 Animate V2 | 實現逼真姿勢視頻生成器