Wan 2.2 Animate V2 是一個姿勢驅動的視頻生成工作流程,將單一參考圖像和驅動姿勢視頻轉換成逼真且保持身份的動畫。它在第一版的基礎上,提供更高的保真度、更平滑的運動和更好的時間一致性,同時緊密跟隨源視頻中的全身運動和表情。
這個 ComfyUI 工作流程專為希望快速、可靠結果的創作者設計,用於角色動畫、舞蹈剪輯和表演驅動的故事講述。它結合了強大的預處理(姿勢、面部和主題遮罩)與 Wan 2.2 模型家族和可選的 LoRAs,使您能夠自信地調整風格、照明和背景處理。
從高層次來看,管道從驅動視頻中提取姿勢和面部線索,從單一參考圖像編碼身份,選擇性地使用 SAM 2 遮罩隔離主題,然後合成與運動相匹配且保持身份的視頻。工作流程組織成四個組,以協作生成最終結果,並有兩個便捷輸出進行快速 QA(姿勢和遮罩預覽)。
此組加載您的肖像或全身圖像,將其調整到目標分辨率,並在整個圖形中可用。調整大小的圖像由 Get_reference_image 存儲和重用,並預覽以便您快速評估構圖。身份特徵由 WanVideoClipVisionEncode (CLIP Vision)(#70)編碼,並且相同的圖像作為 ref_images 餵給 WanVideoAnimateEmbeds(#62),以更強的身份保留。提供一個清晰、光線充足的參考,與驅動視頻中的主題類型匹配,以獲得最佳結果。頭部空間和最小遮擋有助於 Wan 2.2 Animate V2 鎖定面部結構和衣物。
驅動視頻由 VHS_LoadVideo(#191)加載,暴露幀、音頻、幀數和源 fps 以供後續使用。姿勢和面部線索由 OnnxDetectionModelLoader(#178)和 PoseAndFaceDetection(#172)提取,然後由 DrawViTPose(#173)可視化,以便您確認跟蹤質量。主題隔離由 Sam2Segmentation(#104)處理,接著是 GrowMaskWithBlur(#182)和 BlockifyMask(#108),以生成乾淨、穩定的遮罩;幫助程序 DrawMaskOnImage(#99)預覽遮罩。該組還標準化驅動視頻的寬度、高度和幀數,因此 Wan 2.2 Animate V2 可以在沒有猜測的情況下匹配空間和時間設置。快速檢查以短視頻導出:姿勢疊加和遮罩預覽進行零次驗證。
WanVideoVAELoader(#38)加載 Wan VAE,WanVideoModelLoader(#22)加載 Wan 2.2 Animate 主幹。可選的 LoRAs 在 WanVideoLoraSelectMulti(#171)中選擇,並通過 WanVideoSetLoRAs(#48)應用;WanVideoBlockSwap(#51)可以通過 WanVideoSetBlockSwap(#50)啟用,用於影響風格和保真度的架構調整。提示由 WanVideoTextEncodeCached(#65)編碼,而 WanVideoClipVisionEncode(#70)將參考圖像轉換成強大的身份嵌入。WanVideoAnimateEmbeds(#62)融合了 CLIP 特徵、參考圖像、姿勢圖像、面部裁剪、可選背景幀、SAM 2 遮罩以及所選分辨率和幀數成單一動畫嵌入。該飼料驅動 WanVideoSampler(#27),合成出符合您的提示、身份和運動線索的潛在視頻,WanVideoDecode(#28)將潛在的轉回 RGB 幀。
為了幫助比較輸出,工作流程組裝了一個簡單的並排:生成的視頻旁邊是一條垂直條帶,顯示參考圖像、面部裁剪、姿勢疊加和驅動視頻中的一幀。ImageConcatMulti(#77、#66)構建視覺拼貼,然後 VHS_VideoCombine(#30)渲染“比較”mp4。最終的乾淨輸出由 VHS_VideoCombine(#189)渲染,還將驅動程序中的音頻轉移進行快速審查剪輯。這些導出使您可以輕鬆判斷 Wan 2.2 Animate V2 如何遵循運動、保持身份並維持預期背景。
VHS_LoadVideo(#191)
加載驅動視頻,並暴露幀、音頻和圖形中使用的元數據。保持主題完全可見,運動模糊最小,以增強關鍵點跟蹤。如果要進行更短的測試,限制加載的幀數;保持源 fps 在下游一致,以避免最終合成中的音頻不同步。
PoseAndFaceDetection(#172)
運行 YOLO 和 ViTPose 以生成直接指導運動轉移的全身關鍵點和面部裁剪。從加載器中提供圖像和標準化的寬度和高度;可選的 retarget_image 輸入允許在需要時將姿勢調整到不同的構圖。如果姿勢疊加看起來嘈雜,請考慮質量更高的 ViTPose 模型,並確保主題未被嚴重遮擋。參考:ComfyUI‑WanAnimatePreprocess。
Sam2Segmentation(#104)
生成可以在 Wan 2.2 Animate V2 中保留背景或定位重新照明的主題遮罩。可以使用 PoseAndFaceDetection 檢測到的邊界框,或在需要時快速繪製正點以細化遮罩。與 GrowMaskWithBlur 配對,以獲得快速運動的更乾淨邊緣,並使用遮罩預覽導出檢查結果。參考:Segment Anything 2。
WanVideoClipVisionEncode(#70)
使用 CLIP Vision 編碼參考圖像,以捕捉面部結構、頭髮和衣物等身份線索。可以平均多個參考圖像以穩定身份,或使用負面圖像抑制不需要的特徵。居中的裁剪和一致的照明有助於產生更強的嵌入。
WanVideoAnimateEmbeds(#62)
融合身份特徵、姿勢圖像、面部裁剪、可選背景幀和 SAM 2 遮罩成單一動畫嵌入。將 width、height 和 num_frames 與驅動視頻對齊,以減少工件。如果看到背景漂移,請提供乾淨的背景幀和堅固的遮罩;如果面部漂移,請確保面部裁剪存在且光線充足。
WanVideoSampler(#27)
根據您的提示、LoRAs 和動畫嵌入生成實際視頻潛在變量。對於長剪輯,在滑動窗口策略或模型的上下文選項之間進行選擇;將窗口與剪輯長度匹配,以平衡運動銳利度和長程一致性。調整調度器和引導強度,以在保真度、風格遵從性和運動平滑度之間進行權衡,如果您的 LoRA 堆棧受益於此,請考慮啟用塊交換。
此工作流程中使用的有用資源:
此工作流程實施並基於以下作品和資源。我們衷心感謝 Benji’s AI Playground 的工作流程和 Wan 團隊對 Wan 2.2 Animate V2 模型的貢獻和維護。有關權威詳細信息,請參考下面鏈接的原始文檔和倉庫。
注意:所引用模型、數據集和代碼的使用受其作者和維護者提供的相應許可和條款的約束。
RunComfy 是首選的 ComfyUI 平台,提供 ComfyUI 在線 環境和服務,以及 ComfyUI 工作流程 具有驚豔的視覺效果。 RunComfy還提供 AI Playground, 幫助藝術家利用最新的AI工具創作出令人驚艷的藝術作品。