SCAIL-2 动作转移在 ComfyUI | 参考图像到视频

ComfyUI SCAIL-2 character motion transfer, reference image to long video workflow, Western editorial market example Workflow

SCAIL-2 Motion Transfer in ComfyUI | Reference Image to Video

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

ComfyUI SCAIL-2 character motion transfer, reference image to long video workflow, Western editorial market example Examples

SCAIL-2 角色动作转移：参考图像到长视频工作流#

此 ComfyUI 管道通过从驱动视频中借用动作，将单个参考图像转化为长时间、身份忠实的角色表现。基于 SCAIL-2 Wan 2.1 14B 路径，结合 CLIP Vision 调控、SAM 基于的人物遮罩和 LightX2V 加速，优化长序列的稳定性和便于并排检查。它是一个实用的 SCAIL-2 角色动作转移参考图像到长视频工作流，适用于需要在数百帧中保持一致身份、服装和风格的创作者。

使用它生成目录风格的动作测试、参考图像到视频演示和西方编辑市场示例视频。工作流支持可选的再照明指导，因此主体可以与驱动场景协调，同时保持面部和服装细节与您的参考图像对齐。

ComfyUI SCAIL-2 角色动作转移参考图像到长视频工作流中的关键模型#

SCAIL-2 在 Wan 2.1 14B 上。用于动作转移的核心身份感知视频扩散。工作流加载为 ComfyUI 打包的 14B SCAIL-2 权重，并与 Wan VAE 配对进行重建。参见 Comfy-Org/SCAIL-2 中的模型集合和 zai-org/SCAIL 中的方法概述。
OpenCLIP ViT-H/14 用于 CLIP Vision。从参考图像中提取强大的身份和外观嵌入，以调控生成，提高跨帧的角色保真度。参考模型家族：laion/CLIP-ViT-H-14-laion2B-s32B-b79K。
Segment Anything (SAM) 系列。提供人物遮罩和逐帧轨迹，将主体在驱动视频和参考图像中本地化，实现有针对性的调控。项目参考：facebookresearch/segment-anything。
LightX2V LoRA 和 WanAnimate Relight LoRA。可选适配器，工作流加载以加速帧到帧推理，并提供再照明指导，使转移角色与驱动片段的照明相匹配。

如何使用 ComfyUI SCAIL-2 角色动作转移参考图像到长视频工作流#

在高层次上，您提供一个参考图像和一个驱动视频。分割组在两个来源中找到并遮罩人物，CLIP Vision 编码参考身份，首次通过生成初始片段，多次通过循环在完整时间线上滚动该分割逻辑，以提供一个长而连贯的视频。并排预览面板使检查身份和姿势对齐变得容易。

模型#

此组初始化骨干模型和可选适配器。UNet 加载 SCAIL-2 Wan 2.1 14B 检查点，VAE 处理视频帧的潜在解码。工作流还加载 CLIP Vision 进行身份嵌入和两个 LoRA 适配器：LightX2V 用于速度，WanAnimate Relight 用于照明指导。文本提示由 Wan 文本堆栈编码，以推动场景和音调，这在制作西方编辑市场示例时很方便。

参数#

使用参数组设置项目范围的控制。分辨率已公开，因此您可以选择一个快速基线或符合您 GPU 预算的更清晰设置。帧率决定了驱动视频的采样方式以及输出的编码方式。片段长度定义了每个推理块包含多少帧，这在长时间线上保持内存可预测。还有一个最终帧上限可用于在运行完整片段之前限制处理以进行外观开发。

分割#

分割组准备干净的、有针对性的指导进行动作转移。VHS_LoadVideo (#33) 导入驱动视频，并将帧调整为您选择的分辨率，以便它们与 SCAIL-2 路径匹配。两个跟踪器，SAM3_VideoTrack (#85) 用于姿势视频和 SAM3_VideoTrack (#91) 用于参考，运行由简单的“人物”文本调控引导的人物检测以提高召回率。SCAIL2ColoredMask (#104) 将轨迹合并为两个一致的遮罩，一个用于姿势视频，一个用于参考图像，生成节点消耗这些遮罩以保持编辑集中在主体上。

首次通过#

首次通过引导序列并建立身份锁定。CLIPVisionEncode (#76) 从参考图像中提取嵌入，然后 WanSCAILToVideo (#114) 将这些嵌入与姿势视频和两个遮罩结合，以生成第一个片段的潜在序列。简单的采样器堆栈 SamplerCustom (#19) 与 BasicScheduler (#18) 将该潜在体渲染为图像，由 VAEDecode (#6) 解码。此过程还公开了一个帧偏移量，多次通过阶段使用该偏移量来对齐后续块。

多次通过#

多次通过组扩展运行到长视频而不会失去一致性。一个 for 循环对，easy forLoopStart (#233) 和 easy forLoopEnd (#234)，在固定大小的片段中遍历整个时间线，同时将解码帧作为时间上下文向前传递。WanSCAILToVideo (#115) 通过其 previous_frames 输入消耗该上下文，改善跨片段边界的面部、头发和服装的连续性。采样堆栈 SamplerCustom (#63) 由您选择的采样器和 sigma 计划驱动，因此您可以在速度和遵从性之间取得平衡，VAEDecode (#66) 将每个块返回为图像。然后，工作流将范围拼接在一起并准备好进行导出。

遮罩#

遮罩组引导在分割中计算的人物遮罩，以便首次通过和多次通过节点都接收正确的主体区域。Get_pose_video_mask (#122) 和 Get_reference_image_mask (#120) 确保样式转移和身份保留精确应用于所需位置，减少背景漂移并保护主体外的场景细节。

启用角色替换#

此组允许您在尊重原始背景的身份转移和完整前景替换之间进行切换。easy imageRemBg (#204) 从参考图像中移除背景，ImpactConditionalBranch (#270) 切换是否在下游使用清洁的前景。当您想要严格的角色交换时启用它，这对于目录样式的测试或西方编辑市场示例非常有用，其中主体必须符合标准化外观。

预览和导出#

工作流提供并排可视化和最终渲染。ImageConcatMulti (#153) 组合一个快速面板，显示驱动的姿势帧和参考图像以进行合理性检查。另一个 ImageConcatMulti (#72) 可以将模型输出与输入并排显示以进行逐镜 QA。最终视频通过 VHS_VideoCombine (#71) 和 VHS_VideoCombine (#236) 写入，如果需要，可以包括源的音频，以便评审保持对时间的忠实。

ComfyUI SCAIL-2 角色动作转移参考图像到长视频工作流中的关键节点#

`WanSCAILToVideo` (#114)#

通过融合姿势帧、主体遮罩和来自参考图像的 CLIP Vision 身份嵌入生成初始潜在片段。调整 pose_strength 以在复制精确动作和允许微妙风格适应之间进行权衡。使用 length 匹配您的片段大小，以便采样器在每次通过时处理一个可预测的块。如果您严格替换屏幕上的人物，请设置 replacement_mode 以优先考虑身份而非背景样式。支持 SCAIL-2 在 Wan 2.1 14B 上，如 Comfy-Org/SCAIL-2 中打包，并在 zai-org/SCAIL 中提供方法上下文。

`WanSCAILToVideo` (#115)#

在循环期间运行，以覆盖时间线的其余部分，提高时间稳定性。提供来自前一片段的 previous_frames 以帮助模型在跨边界时保持服装细节和面部身份。video_frame_offset 和 previous_frame_count 保持片段与驱动剪辑同步。当通过 LoRA 启用再照明指导时，在此通过中稍微增强风格匹配以协调全局照明。

`SAM3_VideoTrack` (#85, #91)#

检测并跟踪姿势视频和参考图像中的人物。“人物”文本调控在存在多个对象时提高了鲁棒性。如果跟踪器漂移，提高检测信心或限制 max_objects，以便在整个过程中选择相同的主体。跟踪概念遵循 Segment Anything 家族，背景请参见 facebookresearch/segment-anything。

`CLIPVisionEncode` (#76)#

生成调控每一帧的参考身份嵌入。对于头肩参考，保持 crop 为中性选择，使编码器看到整个轮廓和服装。如果主体在框中较小，请准备一个更紧的参考图像，而不是在节点中过度裁剪。此节点依赖于 OpenCLIP ViT-H/14 风格视觉特征，如 laion/CLIP-ViT-H-14-laion2B-s32B-b79K 中。

`VHS_LoadVideo` (#33)#

导入并可选地重新采样驱动视频以保持时间一致。匹配 force_rate 到所需的输出节奏，然后在外观开发期间保持固定，以便在各次迭代中获得可比结果。在测试时使用可选的帧上限以加快周转，然后在最终渲染时解除它。

可选额外功能#

为快速迭代选择适合肖像的分辨率，然后在批准最终版本时逐步提高。工作流针对典型的9:16设置进行了调谐，当 GPU 内存允许时，可以选择更高的选项。
编写描述服装、年龄和场景的提示，以符合西方编辑市场示例的规范，例如“一个穿蓝色毛衣的中年人在明亮的厨房里”。
如果主体的服装必须精确，请降低艺术提示并提高遮罩依赖性，以便系统优先考虑服装和颜色而非背景氛围。
当您想要严格替换屏幕上的人物时，使用角色替换。当您希望模型轻柔地将角色与场景协调时，请关闭它。
避免在驱动视频中出现重度遮挡或快速剪切。适度的摄像机运动和干净的正面运动产生最稳定的身份转移。
添加再照明指导时，从保守开始，以便在仍然匹配场景光线方向的同时保持肤色和材质的自然。

致谢#

此工作流实现并建立在以下作品和资源之上。我们对 zai-org 和 teal024 的 SCAIL/SCAIL-2、Comfy-Org 的 SCAIL-2 模型文件和 Wan 2.1 14B FP8 检查点以及 RunningHub 和 RunComfy 团队的工作流参考和云保存工作流的贡献和维护表示感谢。有关权威详细信息，请参阅下文链接的原始文档和存储库。

资源#

RunningHub/工作流参考
- 文档 / 发布说明：RunningHub 工作流参考
zai-org/SCAIL-2 项目
- GitHub: zai-org/SCAIL
teal024/SCAIL 项目页面
- 文档 / 发布说明：SCAIL 项目页面
zai-org/SCAIL-2
- Hugging Face: zai-org/SCAIL-2
Comfy-Org/SCAIL-2
- Hugging Face: Comfy-Org/SCAIL-2
Comfy-Org/SCAIL-2 Wan 2.1 14B FP8 检查点
- Hugging Face: wan2.1_14B_SCAIL_2_fp8_scaled.safetensors
RunComfy/云保存工作流
- 文档 / 发布说明：RunComfy 云保存工作流

注意：对引用模型、数据集和代码的使用受其作者和维护者提供的相应许可证和条款的约束。

Want More ComfyUI Workflows?

SteadyDancer | 逼真的图像到视频生成器

立即将肖像转变为流畅、逼真的运动视频。

Wan 2.1 Fun | 轨迹运动控制

设计运动路径，将静态照片动画化为视频。

Wan 2.1 视频重塑 | 一致的视频风格转换

通过应用 Wan 2.1 视频重塑工作流程的重塑首帧来改变您的视频风格。

Wan 2.1 控制 LoRA | 深度和瓦片

使用轻量级深度和瓦片 LoRAs 改进结构和细节，推进 Wan 2.1 视频生成。

Wan 2.1 LoRA

使用LoRA模型增强Wan 2.1视频生成，以改善风格和定制化。

Vid2Vid 第 1 部分 | 组合与遮罩

ComfyUI Vid2Vid 提供了两种不同的工作流程来创建高质量、专业的动画：Vid2Vid 第 1 部分，通过专注于原始视频的组合和遮罩来增强您的创意；Vid2Vid 第 2 部分，利用 SDXL Style Transfer 将视频的风格转变为您想要的美学风格。本页面专门介绍 Vid2Vid 第 1 部分。

Flux 2 Dev | 照片级文本到图像生成器

下一代图像真实感与高级生成控制能力

FLUX Kontext Dev | 智能图像编辑

Kontext Dev = 可控 + 所有图形设计需求于一体的工具

关注我们

支持

资源

法律

RunComfy

RunComfy 是首选的 ComfyUI 平台，提供 ComfyUI 在线环境和服务，以及 ComfyUI 工作流具有惊艳的视觉效果。 RunComfy还提供 AI Models, 帮助艺术家利用最新的AI工具创作出令人惊叹的艺术作品。

SCAIL-2 动作转移 | 长视频创作者