logo
RunComfy
  • ComfyUI
  • 训练器新
  • 模型
  • API
  • 定价
discord logo
ComfyUI>工作流>SkyReels V3 ComfyUI | AI 视频生成器

SkyReels V3 ComfyUI | AI 视频生成器

Workflow Name: RunComfy/SkyReels-V3-ComfyUI
Workflow ID: 0000...1369
借助 SkyReels V3 模型的强大功能,此工作流程帮助您将图像、音频或现有剪辑转化为具有故事驱动的电影视频,具有流畅的运动和准确的唇同步。您可以为肖像动画、扩展场景或将声音与面部同步。它专为寻求强烈主题一致性和流畅视觉叙事的创作者而设计。非常适合想要快速、可靠、高质量结果的动画师、设计师和电影制作者。一切都在 ComfyUI 环境中无缝运行,以实现最大控制和灵活性。

SkyReels V3 ComfyUI: 忠实于身份的图像、视频和音频到视频创建

SkyReels V3 ComfyUI 是一个生产就绪的工作流程,将 SkyReels V3 多模态视频模型引入 ComfyUI,使您可以为静止图像动画、扩展现有镜头,并构建具有精确唇同步的音频驱动的说话化身。它专为想要电影般运动、强烈主题身份和时间一致性的创作者而设计,同时保持在灵活的节点图内。

该工作流程附带四个专注的管道,可以独立运行或串联运行:图像到视频角色动画、视频到视频延续、音频到视频说话化身和故事流的下一镜头生成。每个路径都包含清晰的输入点和合理的默认设置,因此您可以快速投入您的素材并渲染高质量的 SkyReels V3 输出。

注意:对于 2X 大型及更大机器(R2V 工作流程): 在运行之前,将 Patch Sage Attention KJ (#240) sage_attention 设置为 disabled。保持启用可能会触发 SM90 kernel is not available 错误。

Comfyui SkyReels V3 ComfyUI 工作流程中的关键模型

  • 来自 WanVideo FP8 包的 SkyReels V3 视频骨干(R2V、V2V Shot、A2V)。这些是处理身份感知运动、视频延续和音频调制唇同步的核心生成器。请参阅 WanVideo 包中的 SkyReels V3 权重在 Hugging Face 上的 here。
  • 用于图像指导和参考嵌入的 OpenCLIP Vision ViT 模型。它们提供强大的视觉特征,有助于在帧之间保持外观和风格。项目页面:open_clip。
  • 用于提示理解的 UMT5 文本编码器。它提供丰富的语言调节以引导风格、场景和动作。代码库:umt5。
  • 用于唇同步和音频分析的 Wav2Vec2 语音特征。支持开箱即用的中文基础变体,类似的英文变体也能正常工作。模型卡:TencentGameMate/chinese-wav2vec2-base。
  • 用于语音转文本的 Qwen3‑ASR‑1.7B。用于转录参考音频并启动语音克隆 TTS 提示。模型卡:Qwen/Qwen3-ASR-1.7B。
  • 用于声乐分离的 MelBandRoFormer。当您在唇同步嵌入之前需要干净的语音轨道时很有帮助。模型卡:Kijai/MelBandRoFormer_comfy。
  • 用于镜头感知提示生成的 MiniCPM‑V。它分析先前的镜头并提出下一镜头以保持故事连续性。模型中心:OpenBMB/MiniCPM-V。

如何使用 Comfyui SkyReels V3 ComfyUI 工作流程

该图分为四个管道。您可以独立运行其中任何一个或按顺序运行以构建更长的编辑。

图像到视频角色动画

  • 模型。在 Models 组中使用 UNETLoader (#241)、CLIPLoader (#242) 和 VAELoader (#194) 加载 UNet、CLIP 和 VAE。模型修补节点 PathchSageAttentionKJ (#240) 和 ModelPatchTorchSettings (#239) 优化注意力和数学设置,而 LoraLoaderModelOnly (#250) 允许您可选地将风格或运动 LoRA 混合到 SkyReels 模型中。
  • 加载参考图像。使用三个“加载参考图像”组导入 1–3 张肖像或姿势。调整大小助手 ImageResizeKJv2 (#291, #298, #299, #304) 对齐纵横比并批量处理它们;更干净的身份照片产生更稳定的结果。
  • 提示。在 Prompt 组中输入场景和动作文本,使用 CLIPTextEncode (#6) 和可选的负面文本编码器 CLIPTextEncode (#7) 来排除不需要的特征。保持语言简洁且具体于运动和构图。
  • 采样和解码。WanPhantomSubjectToVideo (#249) 将您的参考和提示融合成一个身份感知潜在空间,该空间通过 ModelSamplingSD3 (#48) 提供给 KSampler (#149)。从 VAEDecode (#264) 解码的帧被打包成一个电影,使用 VHS_VideoCombine (#280);在那里设置您的目标帧率和文件格式。

视频到视频扩展循环

  • 输入视频和设置。使用 VHS_LoadVideo (#329) 导入您的源剪辑。设置要生成的额外片段数量以及片段之间的重叠量,使用整数助手“扩展数量” (#342) 和“重叠帧” (#341)。ImageResizeKJv2 (#327) 标准化采样器的分辨率。
  • 循环采样扩展视频。循环对 easy forLoopStart (#331) 和 easy forLoopEnd (#332) 在窗口中遍历剪辑以稳定过渡。每个窗口用 WanVideoEncode (#326) 编码,通过 WanVideoEmptyEmbeds (#328) 接收中性或控制嵌入,并由 WanVideoSampler (#320) 从 WanVideoModelLoader (#319) 去噪。帧通过 WanVideoDecode (#321) 解码,并使用 VHS_VideoCombine (#322, #335) 预览或保存。
  • 性能助手。WanVideoTorchCompileSettings (#323) 和 WanVideoBlockSwap (#325) 启用编译和内存技巧,以进行更长或更高分辨率的运行。

音频到视频说话化身

  • 1 – 创建音频。您可以使用 FB_Qwen3TTSVoiceClonePrompt (#416) 和 FB_Qwen3TTSVoiceClone (#412) 生成语音克隆的语音轨道,或使用 LoadAudio (#417) 加载任何预录音。Qwen3ASRLoader (#414) 加上 Qwen3ASRTranscribe (#413) 帮助您从参考剪辑中提取文本以启动 TTS 提示(如需要)。
  • 2 – 音频特征。DownloadAndLoadWav2VecModel (#348) 提供 MultiTalkWav2VecEmbeds (#350) 来根据您的语音创建唇部运动嵌入;长度与音频对齐,并可通过 PreviewAudio (#422) 预览。使用 Any Switch (rgthree) (#435) 选择 TTS 输出或您的导入文件作为驱动轨道。
  • 3 – 输入图像。在“3 - 输入图像”组中加载说话面,并使用 ImageResizeKJv2 (#370) 调整其大小。干净、正面的肖像在一致的照明下效果最好。
  • 参考视频生成。首先,使用 WanVideoImageToVideoEncode (#392) 从静止图像创建一个短的视觉锚点。来自 CLIPVisionLoader (#352) 和 WanVideoClipVisionEncode (#351) 的 CLIP-Vision 特征在下一个阶段保持身份稳定;在采样设置组中准备一个调度器 WanVideoSchedulerv2 (#385)。
  • 生成音频唇同步。WanVideoImageToVideoSkyreelsv3_audio (#383) 将起始图像、可选的参考帧和 CLIP-Vision 嵌入组合到图像条件中。然后 WanVideoSamplerv2 (#384) 使用 SkyReels A2V 模型去噪,而 WanVideoSamplerExtraArgs (#386) 则注入 MultiTalk 唇同步嵌入以获得准确的嘴形。WanVideoPassImagesFromSamples (#381) 将解码帧流式传输到 VHS_VideoCombine (#346),在那里最终视频与您的音频合并。

视频到视频下一镜头生成

  • 视频帧预处理。使用 VHS_LoadVideo (#443) 导入先前的镜头,并通过 ImageResizeKJv2 (#441) 调整其大小。GetImageRangeFromBatch (#445) 选择一个上下文切片,WanVideoEncode (#440) 将其转化为潜在空间;WanVideoEmptyEmbeds (#442) 准备条件窗口。
  • 自动视频提示。CreateVideo (#450) 从上下文帧组装一个紧凑的代理剪辑,AILab_MiniCPM_V_Advanced (#449) 分析其以起草下一镜头提示。在 ShowText|pysssss (#447) 中检查或完善草稿,并在采样前通过 WanVideoTextEncodeCached (#444) 嵌入它。
  • 模型和采样。使用 WanVideoModelLoader (#436) 和 WanVideoVAELoader (#438) 加载 V2V Shot 模型;可选的 WanVideoBlockSwap (#439) 处理 VRAM。WanVideoSampler (#451) 生成延续,WanVideoDecode (#437) 渲染帧,VHS_VideoCombine (#446) 输出最终镜头。此 SkyReels V3 ComfyUI 路径非常适合故事板和预览,其中每个新剪切都应尊重上一个。

Comfyui SkyReels V3 ComfyUI 工作流程中的关键节点

  • WanPhantomSubjectToVideo (#249)。从您批处理的参考图像和文本提示中构建一个身份感知潜在空间,然后驱动采样器。调整参考的数量和多样性以平衡相似性锁定与创造性运动;保持馈送它的调整大小节点一致以避免漂移。参考:GitHub 上的 WanVideo Wrapper 包含实现说明和预期输入 ComfyUI‑WanVideoWrapper。
  • WanVideoImageToVideoEncode (#392)。将静止图像编码为稳定的镜头种子,并可选地混合 CLIP-Vision 指导以进行姿势和构图。使用它在音频驱动阶段之前创建锚定帧,以便在整个管道中保持身份和相机设置一致。包装器文档:ComfyUI‑WanVideoWrapper。
  • WanVideoImageToVideoSkyreelsv3_audio (#383)。准备专为 A2V 采样器设计的图像嵌入,并合并可选的参考视频帧。确保其宽度和高度与采样器路径匹配;将其与 WanVideoSamplerv2 和 MultiTalkWav2VecEmbeds 配对以获得精确的唇同步。
  • WanVideoSamplerv2 (#384, #387)。SkyReels V3 的主要去噪器,接受图像和文本嵌入以及调度器设置。WanVideoSamplerExtraArgs 节点 (#386, #409) 是注入唇同步、循环或上下文特征的地方;在 A2V 和 I2V 模型之间切换时保持这些连接。实现细节:ComfyUI‑WanVideoWrapper。
  • MultiTalkWav2VecEmbeds (#350)。将语音转换为时间对齐的嵌入,驱动口腔运动。匹配预期的帧预算并确保干净的声轨显著提高音素准确性。Wav2Vec 参考模型:TencentGameMate/chinese-wav2vec2-base。
  • AILab_MiniCPM_V_Advanced (#449)。分析前一个镜头并起草一个结构化的提示,包括角色、背景、动作、情绪和照明。使用此功能在使用 V2V 下一镜头路径时保持叙事连续性;生成的文本流入 WanVideoTextEncodeCached。模型家族:OpenBMB/MiniCPM-V。

可选附加功能

  • 保持连接节点之间的图像、视频和采样器分辨率一致,以避免纵横比变形和身份闪烁。
  • 对于更长的扩展,请在 V2V 扩展循环中增加窗口重叠,以平滑片段之间的过渡。
  • 如果 GPU 内存紧张,请保持启用保留 VRAM 节点 (ReservedVRAMSetter (#312, #448)) 并在采样之前使用编译设置块。
  • 当说话化身偏离节拍时,优先使用干净的语音或在创建 MultiTalk 嵌入之前使用 MelBandRoFormer 分离声乐。
  • 最终交付设置如帧率、像素格式和 CRF 在 VHS_VideoCombine 输出节点中控制;将帧率与您的源匹配以实现无缝编辑。

此 README 涵盖了完整的 SkyReels V3 ComfyUI 图,您可以选择适合您项目的路径,在需要时组合它们,并以最小的试错渲染一致的、故事就绪的视频。

致谢

此工作流程实现并建立在以下作品和资源之上。我们对 @Benji’s AI Playground 和 SkyReels 的 SkyReels V3 ComfyUI 工作流程的贡献和维护表示感谢。有关权威详细信息,请参阅下方链接的原始文档和存储库。

资源

  • SkyReels/V3 ComfyUI Source
    • 文档 / 发布说明:SkyReels V3 ComfyUI Source from @Benji’s AI Playground

注意:所引用的模型、数据集和代码的使用受其作者和维护者提供的相应许可证和条款的约束。

Want More ComfyUI Workflows?

SkyReels V1 | 人物为中心的视频创作

从文本或图像生成具有真实面部表情和自然动作的电影级人物视频。

SkyReels-A2 | 多元素视频生成

精确地将多种元素组合成动态视频。

LatentSync| 口型同步模型

先进的音频驱动口型同步技术。

Sonic | 唇同步肖像动画

Sonic 为肖像提供高级音频驱动的唇同步,具备高质量的动画效果。

Hunyuan图像到视频 | 惊艳的运动创作者

通过电影级运动和可定制的效果,将静态图像制作成宏伟的电影。

Stable Diffusion 3 (SD3) | 文本到图像

Stable Diffusion 3 (SD3) | 文本到图像

将 Stable Diffusion 3 媒介集成到您的工作流程中,生成卓越的 AI 艺术作品。

PMRF 超快速放大器 | 低VRAM ComfyUI

超快速PMRF放大器!中等机器上耗时3.79秒。2倍放大。

SVD + FreeU | 图像转视频

将 FreeU 与 SVD 结合使用,以在不增加额外成本的情况下提高图像到视频转换的质量。

关注我们
  • 领英
  • Facebook
  • Instagram
  • Twitter
支持
  • Discord
  • 电子邮件
  • 系统状态
  • 附属
资源
  • 免费 ComfyUI 在线版
  • ComfyUI 指南
  • RunComfy API
  • ComfyUI 教程
  • ComfyUI 节点
  • 了解更多
法律
  • 服务条款
  • 隐私政策
  • Cookie 政策
RunComfy
版权 2026 RunComfy. 保留所有权利。

RunComfy 是首选的 ComfyUI 平台,提供 ComfyUI 在线 环境和服务,以及 ComfyUI 工作流 具有惊艳的视觉效果。 RunComfy还提供 AI Models, 帮助艺术家利用最新的AI工具创作出令人惊叹的艺术作品。