SkyReels V3 ComfyUI: 忠实于身份的图像、视频和音频到视频创建
SkyReels V3 ComfyUI 是一个生产就绪的工作流程,将 SkyReels V3 多模态视频模型引入 ComfyUI,使您可以为静止图像动画、扩展现有镜头,并构建具有精确唇同步的音频驱动的说话化身。它专为想要电影般运动、强烈主题身份和时间一致性的创作者而设计,同时保持在灵活的节点图内。
该工作流程附带四个专注的管道,可以独立运行或串联运行:图像到视频角色动画、视频到视频延续、音频到视频说话化身和故事流的下一镜头生成。每个路径都包含清晰的输入点和合理的默认设置,因此您可以快速投入您的素材并渲染高质量的 SkyReels V3 输出。
注意:对于 2X 大型及更大机器(R2V 工作流程): 在运行之前,将
Patch Sage Attention KJ(#240)sage_attention设置为disabled。保持启用可能会触发SM90 kernel is not available错误。
Comfyui SkyReels V3 ComfyUI 工作流程中的关键模型
- 来自 WanVideo FP8 包的 SkyReels V3 视频骨干(R2V、V2V Shot、A2V)。这些是处理身份感知运动、视频延续和音频调制唇同步的核心生成器。请参阅 WanVideo 包中的 SkyReels V3 权重在 Hugging Face 上的 here。
- 用于图像指导和参考嵌入的 OpenCLIP Vision ViT 模型。它们提供强大的视觉特征,有助于在帧之间保持外观和风格。项目页面:open_clip。
- 用于提示理解的 UMT5 文本编码器。它提供丰富的语言调节以引导风格、场景和动作。代码库:umt5。
- 用于唇同步和音频分析的 Wav2Vec2 语音特征。支持开箱即用的中文基础变体,类似的英文变体也能正常工作。模型卡:TencentGameMate/chinese-wav2vec2-base。
- 用于语音转文本的 Qwen3‑ASR‑1.7B。用于转录参考音频并启动语音克隆 TTS 提示。模型卡:Qwen/Qwen3-ASR-1.7B。
- 用于声乐分离的 MelBandRoFormer。当您在唇同步嵌入之前需要干净的语音轨道时很有帮助。模型卡:Kijai/MelBandRoFormer_comfy。
- 用于镜头感知提示生成的 MiniCPM‑V。它分析先前的镜头并提出下一镜头以保持故事连续性。模型中心:OpenBMB/MiniCPM-V。
如何使用 Comfyui SkyReels V3 ComfyUI 工作流程
该图分为四个管道。您可以独立运行其中任何一个或按顺序运行以构建更长的编辑。
图像到视频角色动画
- 模型。在 Models 组中使用
UNETLoader(#241)、CLIPLoader(#242) 和VAELoader(#194) 加载 UNet、CLIP 和 VAE。模型修补节点PathchSageAttentionKJ(#240) 和ModelPatchTorchSettings(#239) 优化注意力和数学设置,而LoraLoaderModelOnly(#250) 允许您可选地将风格或运动 LoRA 混合到 SkyReels 模型中。 - 加载参考图像。使用三个“加载参考图像”组导入 1–3 张肖像或姿势。调整大小助手
ImageResizeKJv2(#291, #298, #299, #304) 对齐纵横比并批量处理它们;更干净的身份照片产生更稳定的结果。 - 提示。在 Prompt 组中输入场景和动作文本,使用
CLIPTextEncode(#6) 和可选的负面文本编码器CLIPTextEncode(#7) 来排除不需要的特征。保持语言简洁且具体于运动和构图。 - 采样和解码。
WanPhantomSubjectToVideo(#249) 将您的参考和提示融合成一个身份感知潜在空间,该空间通过ModelSamplingSD3(#48) 提供给KSampler(#149)。从VAEDecode(#264) 解码的帧被打包成一个电影,使用VHS_VideoCombine(#280);在那里设置您的目标帧率和文件格式。
视频到视频扩展循环
- 输入视频和设置。使用
VHS_LoadVideo(#329) 导入您的源剪辑。设置要生成的额外片段数量以及片段之间的重叠量,使用整数助手“扩展数量” (#342) 和“重叠帧” (#341)。ImageResizeKJv2(#327) 标准化采样器的分辨率。 - 循环采样扩展视频。循环对
easy forLoopStart(#331) 和easy forLoopEnd(#332) 在窗口中遍历剪辑以稳定过渡。每个窗口用WanVideoEncode(#326) 编码,通过WanVideoEmptyEmbeds(#328) 接收中性或控制嵌入,并由WanVideoSampler(#320) 从WanVideoModelLoader(#319) 去噪。帧通过WanVideoDecode(#321) 解码,并使用VHS_VideoCombine(#322, #335) 预览或保存。 - 性能助手。
WanVideoTorchCompileSettings(#323) 和WanVideoBlockSwap(#325) 启用编译和内存技巧,以进行更长或更高分辨率的运行。
音频到视频说话化身
- 1 – 创建音频。您可以使用
FB_Qwen3TTSVoiceClonePrompt(#416) 和FB_Qwen3TTSVoiceClone(#412) 生成语音克隆的语音轨道,或使用LoadAudio(#417) 加载任何预录音。Qwen3ASRLoader(#414) 加上Qwen3ASRTranscribe(#413) 帮助您从参考剪辑中提取文本以启动 TTS 提示(如需要)。 - 2 – 音频特征。
DownloadAndLoadWav2VecModel(#348) 提供MultiTalkWav2VecEmbeds(#350) 来根据您的语音创建唇部运动嵌入;长度与音频对齐,并可通过PreviewAudio(#422) 预览。使用Any Switch (rgthree)(#435) 选择 TTS 输出或您的导入文件作为驱动轨道。 - 3 – 输入图像。在“3 - 输入图像”组中加载说话面,并使用
ImageResizeKJv2(#370) 调整其大小。干净、正面的肖像在一致的照明下效果最好。 - 参考视频生成。首先,使用
WanVideoImageToVideoEncode(#392) 从静止图像创建一个短的视觉锚点。来自CLIPVisionLoader(#352) 和WanVideoClipVisionEncode(#351) 的 CLIP-Vision 特征在下一个阶段保持身份稳定;在采样设置组中准备一个调度器WanVideoSchedulerv2(#385)。 - 生成音频唇同步。
WanVideoImageToVideoSkyreelsv3_audio(#383) 将起始图像、可选的参考帧和 CLIP-Vision 嵌入组合到图像条件中。然后WanVideoSamplerv2(#384) 使用 SkyReels A2V 模型去噪,而WanVideoSamplerExtraArgs(#386) 则注入MultiTalk唇同步嵌入以获得准确的嘴形。WanVideoPassImagesFromSamples(#381) 将解码帧流式传输到VHS_VideoCombine(#346),在那里最终视频与您的音频合并。
视频到视频下一镜头生成
- 视频帧预处理。使用
VHS_LoadVideo(#443) 导入先前的镜头,并通过ImageResizeKJv2(#441) 调整其大小。GetImageRangeFromBatch(#445) 选择一个上下文切片,WanVideoEncode(#440) 将其转化为潜在空间;WanVideoEmptyEmbeds(#442) 准备条件窗口。 - 自动视频提示。
CreateVideo(#450) 从上下文帧组装一个紧凑的代理剪辑,AILab_MiniCPM_V_Advanced(#449) 分析其以起草下一镜头提示。在ShowText|pysssss(#447) 中检查或完善草稿,并在采样前通过WanVideoTextEncodeCached(#444) 嵌入它。 - 模型和采样。使用
WanVideoModelLoader(#436) 和WanVideoVAELoader(#438) 加载 V2V Shot 模型;可选的WanVideoBlockSwap(#439) 处理 VRAM。WanVideoSampler(#451) 生成延续,WanVideoDecode(#437) 渲染帧,VHS_VideoCombine(#446) 输出最终镜头。此 SkyReels V3 ComfyUI 路径非常适合故事板和预览,其中每个新剪切都应尊重上一个。
Comfyui SkyReels V3 ComfyUI 工作流程中的关键节点
WanPhantomSubjectToVideo(#249)。从您批处理的参考图像和文本提示中构建一个身份感知潜在空间,然后驱动采样器。调整参考的数量和多样性以平衡相似性锁定与创造性运动;保持馈送它的调整大小节点一致以避免漂移。参考:GitHub 上的 WanVideo Wrapper 包含实现说明和预期输入 ComfyUI‑WanVideoWrapper。WanVideoImageToVideoEncode(#392)。将静止图像编码为稳定的镜头种子,并可选地混合 CLIP-Vision 指导以进行姿势和构图。使用它在音频驱动阶段之前创建锚定帧,以便在整个管道中保持身份和相机设置一致。包装器文档:ComfyUI‑WanVideoWrapper。WanVideoImageToVideoSkyreelsv3_audio(#383)。准备专为 A2V 采样器设计的图像嵌入,并合并可选的参考视频帧。确保其宽度和高度与采样器路径匹配;将其与WanVideoSamplerv2和MultiTalkWav2VecEmbeds配对以获得精确的唇同步。WanVideoSamplerv2(#384, #387)。SkyReels V3 的主要去噪器,接受图像和文本嵌入以及调度器设置。WanVideoSamplerExtraArgs节点 (#386, #409) 是注入唇同步、循环或上下文特征的地方;在 A2V 和 I2V 模型之间切换时保持这些连接。实现细节:ComfyUI‑WanVideoWrapper。MultiTalkWav2VecEmbeds(#350)。将语音转换为时间对齐的嵌入,驱动口腔运动。匹配预期的帧预算并确保干净的声轨显著提高音素准确性。Wav2Vec 参考模型:TencentGameMate/chinese-wav2vec2-base。AILab_MiniCPM_V_Advanced(#449)。分析前一个镜头并起草一个结构化的提示,包括角色、背景、动作、情绪和照明。使用此功能在使用 V2V 下一镜头路径时保持叙事连续性;生成的文本流入WanVideoTextEncodeCached。模型家族:OpenBMB/MiniCPM-V。
可选附加功能
- 保持连接节点之间的图像、视频和采样器分辨率一致,以避免纵横比变形和身份闪烁。
- 对于更长的扩展,请在 V2V 扩展循环中增加窗口重叠,以平滑片段之间的过渡。
- 如果 GPU 内存紧张,请保持启用保留 VRAM 节点 (
ReservedVRAMSetter(#312, #448)) 并在采样之前使用编译设置块。 - 当说话化身偏离节拍时,优先使用干净的语音或在创建
MultiTalk嵌入之前使用 MelBandRoFormer 分离声乐。 - 最终交付设置如帧率、像素格式和 CRF 在
VHS_VideoCombine输出节点中控制;将帧率与您的源匹配以实现无缝编辑。
此 README 涵盖了完整的 SkyReels V3 ComfyUI 图,您可以选择适合您项目的路径,在需要时组合它们,并以最小的试错渲染一致的、故事就绪的视频。
致谢
此工作流程实现并建立在以下作品和资源之上。我们对 @Benji’s AI Playground 和 SkyReels 的 SkyReels V3 ComfyUI 工作流程的贡献和维护表示感谢。有关权威详细信息,请参阅下方链接的原始文档和存储库。
资源
- SkyReels/V3 ComfyUI Source
注意:所引用的模型、数据集和代码的使用受其作者和维护者提供的相应许可证和条款的约束。

