SCAIL 在 ComfyUI 中的姿勢引導角色動畫
這個工作流程將 SCAIL 帶到 ComfyUI,用於姿勢引導、基於參考的角色動畫。通過將單個參考圖像與提取的人類姿勢結合,SCAIL 在您使用提示控制風格時,保持主體身份、身體結構和幀間的連貫運動。它支持輸入視頻進行運動轉移或圖像加渲染姿勢進行編舞,然後輸出多幀視頻,並可選擇音頻通過。
使用此 SCAIL 工作流程進行舞蹈和動作運動轉移、風格化角色動畫以及需要時間穩定性和精確姿勢的一致多鏡頭序列。在內部,它在 WanVideo 上運行以進行擴散變換視頻生成,通過 CLIP 視覺增強身份,並使用 NLF 和 ViTPose/DWPose 姿勢信號驅動結構,所有這些都為高效的長序列採樣而設置。
注意:由於兼容性限制,2XL 機器無法與當前的 ComfyUI 工作流程一起使用。
ComfyUI SCAIL 工作流程中的關鍵模型
- SCAIL:通過全上下文姿勢注入和3D一致的姿勢表示實現工作室級角色動畫;這是該工作流程的身份保護和姿勢準確性的核心。GitHub, arXiv
- Wan 2.x 圖像到視頻骨幹:在此用作 SCAIL 條件化生成的採樣器骨幹的大型視頻擴散模型;支持高質量的 I2V 和動畫任務。示例:Wan‑AI/Wan2.1‑I2V‑14B‑480P, Wan‑AI/Wan2.2‑Animate‑14B
- UMT5‑XXL 文本編碼器:Wan 管道使用的多語種 T5 變體,用於將提示轉換為條件嵌入。Hugging Face
- CLIP ViT‑H/14 視覺編碼器:提取穩健的參考圖像特徵以在視頻合成期間錨定身份。GitHub
- ViTPose (Whole‑Body): 高質量的2D人體姿勢估計器,提供密集的身體、手和臉的關鍵點,供 SCAIL 的對齊和繪圖工具使用。GitHub
- DWPose: 整體身體關鍵點格式和模型,用於可選的面部/手部細節和姿勢對齊。GitHub
- NLF (Neural Localizer Fields): 預測連續的人體姿勢/形狀線索,這些線索渲染為 SCAIL 的3D感知姿勢圖像,用於強結構控制。GitHub
- YOLOv10: 用於姿勢預處理鏈中進行人物定位的快速檢測器。GitHub
如何使用 ComfyUI SCAIL 工作流程
整體流程:加載參考圖像和可選的驅動視頻;提取和渲染姿勢;使用 CLIP 視覺編碼參考;添加 SCAIL 參考和 SCAIL 姿勢嵌入;組裝文本條件;使用 WanVideo 採樣幀;解碼並導出視頻。圖表包括公共“Set_”變量,以便寬度、高度、CFG 和幀數自動傳播。
-
輸入和尺寸
- 加載參考角色圖像或用於運動轉移的視頻。工作流程將參考圖像調整為生成尺寸,並確保目標尺寸可被32整除。如果您加載視頻,其音頻可用於最終導出的通過。
- 設置寬度、高度和幀數一次;這些值通過共享的 getter 和 setter 饋送給採樣器、解碼器和導出器。保持參考和輸出的縱橫比一致,以最小化拉伸失真。
-
姿勢提取(組:姿勢提取)
- 將輸入視頻幀或圖像調整大小以進行分析,並提供給 NLF 姿勢預測器和 ViTPose 檢測器。ViTPose 輸出被轉換為 DWPose 格式,用於可選的面部/手部細節以及將全局姿勢對齊到參考主體。
- 渲染的 SCAIL 姿勢圖像在生成解析度的一半內部生成以提高效率,然後合成為目標尺寸,保持深度提示和遮擋。面部/手部繪圖可以在使用對齊的情況下切換;如果要禁用姿勢對齊,請斷開 DWPose。
-
參考身份編碼
- 參考圖像使用 CLIP ViT‑H/14 編碼並轉換為 WanVideo 圖像嵌入。這些嵌入捕捉顏色、紋理和局部結構,以便 SCAIL 能夠在具有挑戰性的運動中保持角色一致性。
- 如果身份在長時間或風格化鏡頭中漂移,請保持乾淨的正面參考,避免過度裁剪;這增強了下游使用的 CLIP 信號。
-
SCAIL 姿勢條件
- SCAIL 姿勢渲染被注入為額外的圖像嵌入。它們作為強結構指導,強化肢體放置、深度排序和幀之間的輪廓穩定性。
- 您可以在此階段更換驅動源:使用視頻中提取的姿勢進行運動轉移,或輸入預渲染的 SCAIL 姿勢圖像來編排序列而不使用驅動源。
-
文本提示條件
- 提示被編碼為文本嵌入,影響風格、服裝、照明和環境。使用與參考圖像相輔相成的簡潔描述;負面文本可以減少過度飽和、人工製品或雜亂。
- 當您希望輸出在 SCAIL 控制下緊密遵循參考外觀時,提示是可選的。
-
採樣和排程
- WanVideo 採樣器運行擴散變換器,使用模型、調度器、圖像嵌入(參考 + SCAIL 姿勢)、文本嵌入和 CFG 指導。上下文選項節點可以為記憶效率窗口長序列生成,同時保持重疊以平滑過渡。
- 如果您注意到閃爍或柔和邊緣,請考慮使用較慢的調度器或稍強的 CFG;如果運動感覺受到過度約束,請減少整體指導,以便 SCAIL 的結構和外觀提示自然平衡。
-
解碼和導出
- 潛在變量使用 Wan VAE 解碼為幀,並使用您選擇的幀速率和文件名前綴寫入視頻。工作流程可以將視覺進行拼接以進行 A/B 切片,並在連接時通過音頻。
- 檢查輸出;如果在快速轉彎時手臂或腿部出現剪輯,請重新查看姿勢提取質量或對齊輸入,然後使用相同的種子重新排隊以進行受控迭代。
ComfyUI SCAIL 工作流程中的關鍵節點
-
WanVideoAddSCAILReferenceEmbeds (#350)
- 從參考圖像中添加身份和外觀條件到圖像嵌入流中。當角色的臉或衣服漂移時增加其影響力;如果模型拒絕適應大身體旋轉或戲劇性照明,則減少。
-
WanVideoAddSCAILPoseEmbeds (#324)
- 注入渲染的 SCAIL 姿勢圖像作為結構指導。提高其影響力以實現更嚴格的肢體放置和輪廓穩定性;如果運動看起來太僵硬或想要更多風格提示自由地稍微彎曲姿勢,則降低。
-
RenderNLFPoses (#362)
- 將連續的 NLF 預測渲染為 SCAIL 風格的姿勢圖像,並可選擇疊加 DWPose 面部/手部並執行姿勢到參考的對齊。保持內部姿勢渲染在目標解析度的一半,以匹配 SCAIL 的設計並避免鋸齒;斷開 DWPose 以移除對齊。
-
WanVideoSamplerv2 (#348)
- 使用模型、圖像/文本嵌入、調度器、額外參數和
cfg 驅動主要擴散採樣。如果您看到時間搖晃,請使用更穩定的調度器或更多步驟;如果細節超出參考,請降低 cfg,以便 SCAIL 的身份提示領導。
-
WanVideoSchedulerv2 (#349)
- 控制去噪調度行為。選擇平衡細節和穩定性的調度;較慢的調度通常改善掃動動作和長序列的時間一致性。
-
WanVideoClipVisionEncode (#327)
- 使用 ViT‑H/14 編碼參考圖像,並輸出 CLIP 圖像嵌入以確保身份。使用高質量、光線良好的參考;正面或3/4視圖往往能更好地錨定面部和頭髮。
可選附加功能
致謝
此工作流程實施並基於以下作品和資源。我們由衷感謝 Ai Verse Z.ai (zai-org) 提供的 SCAIL(官方實施)和 teal024 提供的 SCAIL 項目頁面,感謝他們的貢獻和維護。欲了解權威詳情,請參閱下列原始文檔和庫。
資源
- zai-org/SCAIL
- teal024/SCAIL 項目頁面
注意:引用的模型、數據集和代碼的使用受其作者和維護者提供的各自許可和條款的約束。