logo
RunComfy
  • Playground
  • ComfyUI
  • TrainerNew
  • API
  • Pricing
discord logo
ComfyUI>工作流>SCAIL 模型 | 姿态引导动画制作器

SCAIL 模型 | 姿态引导动画制作器

Workflow Name: RunComfy/SCAIL
Workflow ID: 0000...1323
这个基于姿态的模型使创作者能够使用参考图像和提取的人体姿态来动画静态角色。您可以在视频帧之间转移动作、保持主体一致性并控制结构。专为动画师和动作设计师设计,它支持图像到视频和视频到视频的工作流。即使在复杂的变换过程中,也能确保连贯的动作和视觉稳定性。非常适合制作风格化的角色动画或具有结构精度的动态研究。

SCAIL 姿态引导角色动画在 ComfyUI 中

这个工作流将 SCAIL 引入 ComfyUI,用于姿态引导、参考为基础的角色动画。通过结合单个参考图像与提取的人体姿态,SCAIL 在您通过提示控制风格时,保持主体身份、身体结构和跨帧的连贯运动。它支持用于动作转移的输入视频或加上渲染姿态的图像,然后输出可选音频直通的多帧视频。

使用此 SCAIL 工作流进行舞蹈和动作转移、风格化角色动画以及在时间稳定性和准确姿态重要的情况下的一致多镜头序列。在其底层,它运行在 WanVideo 上用于扩散变压器视频生成,通过 CLIP 视觉增强身份,并通过 NLF 和 ViTPose/DWPose 姿态信号驱动结构,所有这些都为高效的长序列采样而设计。

注意:由于兼容性限制,2XL 机器无法与当前的 ComfyUI 工作流一起使用。

Comfyui SCAIL 工作流中的关键模型

  • SCAIL:通过全上下文姿态注入和 3D 一致的姿态表示实现工作室级角色动画;这是此工作流身份保留和姿态保真度的核心。GitHub, arXiv
  • Wan 2.x 图像到视频骨干:在此用作 SCAIL 条件生成的采样器骨干的大型视频扩散模型;支持高质量的 I2V 和动画任务。示例:Wan‑AI/Wan2.1‑I2V‑14B‑480P, Wan‑AI/Wan2.2‑Animate‑14B
  • UMT5‑XXL 文本编码器:Wan 管道使用的多语言 T5 变体,用于将提示转换为条件嵌入。Hugging Face
  • CLIP ViT‑H/14 视觉编码器:提取稳健的参考图像特征以在视频合成过程中锚定身份。GitHub
  • ViTPose(全身):提供用于 SCAIL 对齐和绘图实用程序的身体、手和面部的密集关键点的高质量 2D 人体姿态估计器。GitHub
  • DWPose:用于可选面部/手部细节和姿态对齐的全身关键点格式和模型。GitHub
  • NLF(神经定位场):预测将渲染为 SCAIL 3D 感知姿态图像的连续人体姿态/形状提示,用于强大的结构控制。GitHub
  • YOLOv10:用于姿态预处理链中快速定位人的检测器。GitHub

如何使用 Comfyui SCAIL 工作流

总体流程:加载参考图像和可选的驱动视频;提取和渲染姿态;用 CLIP 视觉编码参考;添加 SCAIL 参考和 SCAIL 姿态嵌入;组装文本条件;使用 WanVideo 采样帧;解码并导出视频。图中包括公共“Set_”变量,因此宽度、高度、CFG 和帧数自动传播。

  • 输入和尺寸

    • 加载参考角色图像或用于动作转移的视频。工作流将参考调整为生成尺寸,并确保目标尺寸可被 32 整除。如果加载视频,其音频可以直通到最终导出。
    • 设置宽度、高度和帧数一次;这些值通过共享的获取器和设置器馈送给采样器、解码器和导出器。保持参考和输出之间的纵横比一致,以最小化拉伸伪影。
  • 姿态提取(组:姿态提取)

    • 输入视频帧或图像被调整大小以供分析,并馈送给 NLF 姿态预测器和 ViTPose 检测器。ViTPose 输出被转换为 DWPose 格式,用于可选的面部/手部细节和将全局姿态对齐到参考主体。
    • 渲染的 SCAIL 姿态图像在内部以生成分辨率的一半生成,以提高效率,然后合成到目标尺寸,保留深度提示和遮挡。面部/手部绘图可以在使用对齐时切换;如果要禁用姿态对齐,请断开 DWPose。
  • 参考身份编码

    • 参考图像用 CLIP ViT‑H/14 编码并转换为 WanVideo 图像嵌入。这些嵌入捕捉颜色、纹理和局部结构,以便 SCAIL 在具有挑战性的运动中保持角色一致。
    • 如果在长镜头或风格化镜头中出现身份漂移,请保持干净、正面朝向的参考,并避免过度裁剪;这增强了下游使用的 CLIP 信号。
  • SCAIL 姿态条件

    • SCAIL 姿态渲染被注入为额外的图像嵌入。它们作为强大的结构指导,强制肢体放置、深度排序和跨帧的轮廓稳定性。
    • 您可以在此阶段交换驱动源:使用视频中提取的姿态进行动作转移,或提供预渲染的 SCAIL 姿态图像以在没有驱动程序的情况下编排序列。
  • 文本提示条件

    • 提示被编码为文本嵌入,影响风格、服装、照明和环境。使用简洁的描述词来补充参考图像;负面文本可以减少过度饱和、伪影或杂乱。
    • 当您希望输出在 SCAIL 控制下紧密遵循参考外观时,提示是可选的。
  • 采样和调度

    • WanVideo 采样器运行扩散变压器,带有模型、调度器、图像嵌入(参考 + SCAIL 姿态)、文本嵌入和 CFG 指导。上下文选项节点可以为内存友好的生成窗口长序列,同时保持时间连续性。
    • 如果您注意到闪烁或边缘柔化,请考虑使用较慢的调度器或稍强的 CFG;如果运动感觉过于受限,请减少整体指导,以便 SCAIL 结构和外观提示自然平衡。
  • 解码和导出

    • 使用 Wan VAE 将潜变量解码为帧,并以您选择的帧速率和文件名前缀写入视频。工作流可以连接视觉效果进行 A/B 切片,并在连接时通过音频。
    • 检查输出;如果在快速转弯时手臂或腿部夹住,请重新查看姿态提取质量或对齐输入,然后使用相同的种子重新排队以进行受控迭代。

Comfyui SCAIL 工作流中的关键节点

  • WanVideoAddSCAILReferenceEmbeds (#350)

    • 将来自参考图像的身份和外观条件添加到图像嵌入流中。当角色的面部或衣物漂移时增加其影响;如果模型拒绝适应大幅度的身体旋转或戏剧性的照明,请减少。
  • WanVideoAddSCAILPoseEmbeds (#324)

    • 注入渲染的 SCAIL 姿态图像作为结构指导。提高其影响力以更严格地放置肢体和轮廓稳定性;如果运动看起来过于僵硬或您希望风格提示稍微弯曲姿态,请降低。
  • RenderNLFPoses (#362)

    • 将连续的 NLF 预测渲染为 SCAIL 风格的姿态图像,可选地叠加 DWPose 面部/手部并执行姿态到参考的对齐。保持内部姿态渲染为目标分辨率的一半,以匹配 SCAIL 的设计并避免锯齿;断开 DWPose 以移除对齐。
  • WanVideoSamplerv2 (#348)

    • 驱动主要扩散采样,带有模型、图像/文本嵌入、调度器、额外参数和 cfg。如果看到时间抖动,请使用更稳定的调度器或更多步骤;如果细节超过参考,请降低 cfg 以便 SCAIL 的身份提示引导。
  • WanVideoSchedulerv2 (#349)

    • 控制去噪调度行为。选择平衡细节和稳定性的调度;较慢的调度通常改善长时间序列和长序列的时间一致性。
  • WanVideoClipVisionEncode (#327)

    • 使用 ViT‑H/14 编码参考图像并输出 CLIP 图像嵌入用于身份。使用高质量、光线充足的参考;正面或 3/4 视图倾向于更好地锚定面部和头发。

可选附加功能

  • 尺寸必须可被 32 整除。保持参考和输出的纵横比一致以避免变形。
  • SCAIL 期望以生成分辨率的一半进行姿态渲染;此工作流会自动计算,因此您无需手动管理。
  • 为了精确的手部和表情,请保持 DWPose 连接以启用面部/手部提示;要仅禁用对齐,请断开 DWPose 链接,但保留渲染的姿态图像。
  • 长序列:使用上下文选项节点为内存效率生成窗口,同时保持重叠以实现平滑过渡。
  • 如果使用为 ComfyUI 打包的 SCAIL 预览权重,请在需要时从社区分发中获取。示例预览包:Kijai/WanVideo_comfy SCAIL 和 Kijai/WanVideo_comfy_fp8_scaled SCAIL。

致谢

此工作流实现并构建在以下作品和资源之上。我们感谢 Ai Verse Z.ai (zai-org) 提供 SCAIL(官方实现)和 teal024 提供 SCAIL 项目页面的贡献和维护。有关权威详情,请参阅下方链接的原始文档和存储库。

资源

  • zai-org/SCAIL
    • GitHub: zai-org/SCAIL
    • Hugging Face: zai-org/SCAIL-Preview
    • arXiv: arXiv:2512.05905
  • teal024/SCAIL 项目页面
    • 文档 / 发布说明: 项目页面
    • GitHub: zai-org/SCAIL
    • Hugging Face: zai-org/SCAIL-Preview
    • arXiv: arXiv:2512.05905

注意:所引用的模型、数据集和代码的使用受其作者和维护者提供的相应许可和条款的约束。

Want More ComfyUI Workflows?

Wan 2.2 | 开源视频生成领导者

现已推出!更高精度 + 更流畅的运动。

Wan 2.2 + Lightx2v V2 | 超快速 I2V & T2V

双 Light LoRA 设置,速度提高 4 倍。

Wan 2.2 Lightning T2V I2V | 4步超高速

Wan 2.2 现在快20倍!T2V + I2V 仅需4步。

Wan 2.2 FLF2V | 首尾帧视频生成

使用 Wan 2.2 FLF2V 从起始和结束帧生成流畅视频。

Wan 2.2 低 Vram | Kijai 包装器

低 VRAM。不再等待。包含 Kijai 包装器。

AnimateDiff + ControlNet | 陶瓷艺术风格

通过将视频转换为独特的陶瓷艺术风格,为其注入创意,提升视频品质。

Wan 2.2 图像生成 | 2合1工作流程包

MoE Mix + 仅低噪声模式,带放大。选择一个。

Cosmos-Predict2 | 文本到图像 & 视频到世界

快速且真实!NVIDIA Cosmos 拥有真实物理效果。

关注我们
  • 领英
  • Facebook
  • Instagram
  • Twitter
支持
  • Discord
  • 电子邮件
  • 系统状态
  • 附属
资源
  • 免费 ComfyUI 在线版
  • ComfyUI 指南
  • RunComfy API
  • ComfyUI 教程
  • ComfyUI 节点
  • 了解更多
法律
  • 服务条款
  • 隐私政策
  • Cookie 政策
RunComfy
版权 2025 RunComfy. 保留所有权利。

RunComfy 是首选的 ComfyUI 平台,提供 ComfyUI 在线 环境和服务,以及 ComfyUI 工作流 具有惊艳的视觉效果。 RunComfy还提供 AI Playground, 帮助艺术家利用最新的AI工具创作出令人惊叹的艺术作品。