SCAIL 姿态引导角色动画在 ComfyUI 中
这个工作流将 SCAIL 引入 ComfyUI,用于姿态引导、参考为基础的角色动画。通过结合单个参考图像与提取的人体姿态,SCAIL 在您通过提示控制风格时,保持主体身份、身体结构和跨帧的连贯运动。它支持用于动作转移的输入视频或加上渲染姿态的图像,然后输出可选音频直通的多帧视频。
使用此 SCAIL 工作流进行舞蹈和动作转移、风格化角色动画以及在时间稳定性和准确姿态重要的情况下的一致多镜头序列。在其底层,它运行在 WanVideo 上用于扩散变压器视频生成,通过 CLIP 视觉增强身份,并通过 NLF 和 ViTPose/DWPose 姿态信号驱动结构,所有这些都为高效的长序列采样而设计。
注意:由于兼容性限制,2XL 机器无法与当前的 ComfyUI 工作流一起使用。
Comfyui SCAIL 工作流中的关键模型
如何使用 Comfyui SCAIL 工作流
总体流程:加载参考图像和可选的驱动视频;提取和渲染姿态;用 CLIP 视觉编码参考;添加 SCAIL 参考和 SCAIL 姿态嵌入;组装文本条件;使用 WanVideo 采样帧;解码并导出视频。图中包括公共“Set_”变量,因此宽度、高度、CFG 和帧数自动传播。
-
输入和尺寸
- 加载参考角色图像或用于动作转移的视频。工作流将参考调整为生成尺寸,并确保目标尺寸可被 32 整除。如果加载视频,其音频可以直通到最终导出。
- 设置宽度、高度和帧数一次;这些值通过共享的获取器和设置器馈送给采样器、解码器和导出器。保持参考和输出之间的纵横比一致,以最小化拉伸伪影。
-
姿态提取(组:姿态提取)
- 输入视频帧或图像被调整大小以供分析,并馈送给 NLF 姿态预测器和 ViTPose 检测器。ViTPose 输出被转换为 DWPose 格式,用于可选的面部/手部细节和将全局姿态对齐到参考主体。
- 渲染的 SCAIL 姿态图像在内部以生成分辨率的一半生成,以提高效率,然后合成到目标尺寸,保留深度提示和遮挡。面部/手部绘图可以在使用对齐时切换;如果要禁用姿态对齐,请断开 DWPose。
-
参考身份编码
- 参考图像用 CLIP ViT‑H/14 编码并转换为 WanVideo 图像嵌入。这些嵌入捕捉颜色、纹理和局部结构,以便 SCAIL 在具有挑战性的运动中保持角色一致。
- 如果在长镜头或风格化镜头中出现身份漂移,请保持干净、正面朝向的参考,并避免过度裁剪;这增强了下游使用的 CLIP 信号。
-
SCAIL 姿态条件
- SCAIL 姿态渲染被注入为额外的图像嵌入。它们作为强大的结构指导,强制肢体放置、深度排序和跨帧的轮廓稳定性。
- 您可以在此阶段交换驱动源:使用视频中提取的姿态进行动作转移,或提供预渲染的 SCAIL 姿态图像以在没有驱动程序的情况下编排序列。
-
文本提示条件
- 提示被编码为文本嵌入,影响风格、服装、照明和环境。使用简洁的描述词来补充参考图像;负面文本可以减少过度饱和、伪影或杂乱。
- 当您希望输出在 SCAIL 控制下紧密遵循参考外观时,提示是可选的。
-
采样和调度
- WanVideo 采样器运行扩散变压器,带有模型、调度器、图像嵌入(参考 + SCAIL 姿态)、文本嵌入和 CFG 指导。上下文选项节点可以为内存友好的生成窗口长序列,同时保持时间连续性。
- 如果您注意到闪烁或边缘柔化,请考虑使用较慢的调度器或稍强的 CFG;如果运动感觉过于受限,请减少整体指导,以便 SCAIL 结构和外观提示自然平衡。
-
解码和导出
- 使用 Wan VAE 将潜变量解码为帧,并以您选择的帧速率和文件名前缀写入视频。工作流可以连接视觉效果进行 A/B 切片,并在连接时通过音频。
- 检查输出;如果在快速转弯时手臂或腿部夹住,请重新查看姿态提取质量或对齐输入,然后使用相同的种子重新排队以进行受控迭代。
Comfyui SCAIL 工作流中的关键节点
-
WanVideoAddSCAILReferenceEmbeds (#350)
- 将来自参考图像的身份和外观条件添加到图像嵌入流中。当角色的面部或衣物漂移时增加其影响;如果模型拒绝适应大幅度的身体旋转或戏剧性的照明,请减少。
-
WanVideoAddSCAILPoseEmbeds (#324)
- 注入渲染的 SCAIL 姿态图像作为结构指导。提高其影响力以更严格地放置肢体和轮廓稳定性;如果运动看起来过于僵硬或您希望风格提示稍微弯曲姿态,请降低。
-
RenderNLFPoses (#362)
- 将连续的 NLF 预测渲染为 SCAIL 风格的姿态图像,可选地叠加 DWPose 面部/手部并执行姿态到参考的对齐。保持内部姿态渲染为目标分辨率的一半,以匹配 SCAIL 的设计并避免锯齿;断开 DWPose 以移除对齐。
-
WanVideoSamplerv2 (#348)
- 驱动主要扩散采样,带有模型、图像/文本嵌入、调度器、额外参数和
cfg。如果看到时间抖动,请使用更稳定的调度器或更多步骤;如果细节超过参考,请降低 cfg 以便 SCAIL 的身份提示引导。
-
WanVideoSchedulerv2 (#349)
- 控制去噪调度行为。选择平衡细节和稳定性的调度;较慢的调度通常改善长时间序列和长序列的时间一致性。
-
WanVideoClipVisionEncode (#327)
- 使用 ViT‑H/14 编码参考图像并输出 CLIP 图像嵌入用于身份。使用高质量、光线充足的参考;正面或 3/4 视图倾向于更好地锚定面部和头发。
可选附加功能
致谢
此工作流实现并构建在以下作品和资源之上。我们感谢 Ai Verse Z.ai (zai-org) 提供 SCAIL(官方实现)和 teal024 提供 SCAIL 项目页面的贡献和维护。有关权威详情,请参阅下方链接的原始文档和存储库。
资源
- zai-org/SCAIL
- teal024/SCAIL 项目页面
注意:所引用的模型、数据集和代码的使用受其作者和维护者提供的相应许可和条款的约束。