Capybara ComfyUI 工作流 v0.1:一个统一的图像和视频模板
Capybara ComfyUI 工作流是一个 4合1 的模板包,涵盖了文本到图像、基于指令的图像编辑、图像到视频和基于提示的视频编辑在 ComfyUI 中的应用。它围绕 Capybara v0.1 扩散模型和单一、统一的管道构建,因此您可以在图像和视频任务之间移动,保持一致的行为和可预测的结果。
这个 Capybara ComfyUI 工作流非常适合需要基于提示的编辑、快速迭代和可靠的纵横比预设的创作者。每个路径重用相同的模型栈和提示策略,这保持了任务之间的色彩科学、构图和风格的一致性。
Comfyui Capybara ComfyUI 工作流中的关键模型
- Capybara v0.1 (扩散 UNet)。统一图像和视频行为的核心生成器;它引导所有四个模板中的内容是如何被构图和风格化的。有关详细信息,请参阅项目 repo 和模型卡:xgen-universe/Capybara (GitHub) 和 xgen-universe/Capybara (Hugging Face)。
- Qwen2.5‑VL‑7B 文本编码器。为提示和编辑指令提供强大的、指令友好的语言理解,改善您所写内容和生成内容之间的对齐。参见 Qwen/Qwen2.5-VL-7B。
- ByT5‑small 文本编码器。一个字节级编码器,有助于增强提示中的健壮分词和文本处理,补充主要语言模型。参见 google/byt5-small。
- HunyuanVideo 1.5 VAE。处理图像和视频分支间的潜在解码/编码,使两者共享相同的重建特性。参见 Tencent/HunyuanVideo (GitHub) 和重新打包的资产在 Comfy-Org/HunyuanVideo_1.5_repackaged。
- SigCLIP Vision (patch14, 384)。提供图像特征,有助于在编辑期间和将图像转换为视频时保持结构和身份。参见 Comfy-Org/sigclip_vision_384。
如何使用 Comfyui Capybara ComfyUI 工作流
工作流分为四组,您可以独立运行。每组共享相同的 Capybara 模型栈和提示策略,因此风格和保真度在图像和视频之间保持一致。在生成之前,使用内置的大小和比例面板从合理的分辨率预设中进行选择。
- 图像编辑
- 使用
LoadImage(#80) 加载源静止图像,然后打开Image Edit (Capybara v0.1)(#103)。编写指令风格的提示,例如“保留主题和服装;将室内场景替换为阳光明媚的草地”。使用负面提示来抑制诸如“水印、文本、低质量”之类的伪影。 - 编辑器使用 CLIP 视觉锚定主题和布局,而 Capybara 将您的指令应用于场景的其余部分。这对于快速背景更换或全局外观调整而不失去身份非常有用。
- 输出由
SaveImage(#102) 保存。如果您需要特定的比例,请将节点上暴露的宽度/高度控件设置为包含的预设之一。
- 使用
- 文本到图像
- 打开
Text to Image (Capybara v0.1)子图 (#143) 并编写描述性提示。此分支使用与其他路径相同的语言编码器和调度器生成干净的静止图像,因此它与您的编辑和视频的外观相匹配。 - 添加简短的负面提示进行质量控制。如果您想要 1:1、16:9、9:16 或 4:3 的输出,请在运行之前在大小面板中选择匹配的预设。
- 图像被保存以供查看,并可以作为图像到视频或编辑路径的起点重复使用,以保持视觉连续性。
- 打开
- 图像到视频
- 使用
LoadImage(#131) 加载参考静止图像,然后运行生成器子图 (#130)。编写一个运动感知提示(例如,“缓慢向前移动,温暖的电影级”)来在尊重其构图和身份的同时为输入动画。 - 在幕后,
HunyuanVideo15ImageToVideo(#115) 将静止图像和您的提示转化为一系列短暂的潜在帧,Capybara 对其进行细化。使用包含的长度控制选择剪辑的长度。 - 帧通过
VHS_VideoCombine(#144) 编码为 MP4,默认的电影帧速率。使用此方法可以从艺术指导的关键帧快速获得社交媒体准备好的运动。
- 使用
- 视频编辑
- 使用
VHS_LoadVideo(#146) 导入剪辑,然后打开编辑子图 (#136)。编写一个指令,例如“将海洋背景改为草地;保留马和运动”。 - 编辑路径将 CLIP 视觉与您的提示融合,使主题保持稳定,而场景、光线或天气随着时间的推移而适应。负面提示有助于抑制闪烁或不需要的叠加。
- 结果通过
VHS_VideoCombine(#145) 编译为 MP4。选择一个与您的源匹配的分辨率预设以避免拉伸。
- 使用
Comfyui Capybara ComfyUI 工作流中的关键节点
Image Edit (Capybara v0.1)(#103)- 一个紧凑的、基于指令的编辑器,使用视觉特征保留结构,同时全局应用您的文本编辑。调整
text提示以描述应更改的内容和必须保留的内容,然后使用steps控制质量/平滑度和cfg平衡提示强度与源图像。增加steps以获得更多细节;中等cfg值通常保持编辑的忠实性。
- 一个紧凑的、基于指令的编辑器,使用视觉特征保留结构,同时全局应用您的文本编辑。调整
HunyuanVideo15ImageToVideo(#115)- 从静止图像到运动的桥梁和基于提示的视频编辑引擎。它根据您的提示创建一个短暂的潜在序列,并在提供时提供起始图像。调整
length以选择持续时间,并调整width/height以匹配预设;更大的尺寸增加了细节和渲染时间。这个节点是图像到视频和视频编辑组的骨干,利用 HunyuanVideo 设计实现稳定的时间生成,而 Capybara 负责去噪。
- 从静止图像到运动的桥梁和基于提示的视频编辑引擎。它根据您的提示创建一个短暂的潜在序列,并在提供时提供起始图像。调整
VHS_VideoCombine(#145)- 将生成的帧转换为 MP4 的终结器。使用
frame_rate控制运动节奏和crf在质量和文件大小之间进行权衡。较低的crf提供更高的质量,但文件更大;保持项目一致,以便 Capybara ComfyUI 工作流输出具有统一的外观。
- 将生成的帧转换为 MP4 的终结器。使用
Capybara ComfyUI 工作流的可选附加功能
- 使用大小和比例预设锁定为 16:9、9:16、1:1 或 4:3,分辨率为 480p、720p、1024 或 1080p。保持在预设上有助于采样器和 VAE 保持稳定并减少边缘伪影。
- 为了提高质量,在采样器面板中增加扩散
steps。渲染时间会增加,但细腻的纹理和干净的边缘会显著改善。 - 通过编写明确指出要保留哪些内容(例如,“保持角色和服装不变”)的提示,并将场景更改推入句子的其余部分,保持编辑中的主题稳定。
- 负面提示是您的清理团队。常见条目如“模糊、水印、文本”有助于去除图像和视频中的叠加和压缩类伪影。
- 对于视频,选择剪辑长度以匹配您的预期帧速率。默认设置针对短社交剪辑进行了调整;较长的序列受益于稍高的
steps以实现时间一致性。
这个 Capybara ComfyUI 工作流旨在最大限度地减少设置摩擦:一个模型栈,四个创意任务和一致的控制。以文本到图像开始开发外观,使用图像编辑进行完善,使用图像到视频动画关键帧,然后以基于提示的视频编辑完成,以匹配最终简报。
致谢
此工作流实现并基于以下作品和资源构建。我们感谢 XGen Universe 提供 Capybara 模型和项目,Comfy-Org 提供 Capybara v0.1 扩散模型资产,HunyuanVideo 1.5 VAE 和 Qwen2.5-VL-7B 文本编码器包装,以及 Comfy.org 提供的 Capybara 工作流模板(文本到图像、图像编辑、图像到视频和视频编辑)对其贡献和维护。有关权威详细信息,请参阅下文链接的原始文档和存储库。
资源
- XGen Universe/Capybara 项目
- GitHub: xgen-universe/Capybara
- Hugging Face: xgen-universe/Capybara
- Comfy.org/Capybara 模板 - 文本到图像
- 文档 / 发布说明: Capybara 模板 - 文本到图像
- Comfy.org/Capybara 模板 - 图像编辑
- 文档 / 发布说明: Capybara 模板 - 图像编辑
- Comfy.org/Capybara 模板 - 图像到视频
- 文档 / 发布说明: Capybara 模板 - 图像到视频
- Comfy.org/Capybara 模板 - 视频编辑
- 文档 / 发布说明: Capybara 模板 - 视频编辑
注意:使用所引用的模型、数据集和代码需遵循其作者和维护者提供的各自许可和条款。
