ComfyUI Grounding 工作流 | 精确的对象跟踪与分割

ComfyUI Grounding Workflow

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

ComfyUI Grounding Examples

ComfyUI Grounding: 提示检测，像素精确分割和视频叠加#

此工作流将 ComfyUI Grounding 打包为三个实用路径，适用于图像批处理、单个图像和视频。它将自然语言提示转换为对象边界框和高质量遮罩，然后预览 RGBA 合成或编写带注释的视频并保留音频。艺术家、编辑和 VFX 通才可以快速隔离主体、去除背景，并生成干净的叠加用于合成。

基于开放词汇检测和现代分割，ComfyUI Grounding 对各种主体和场景都可靠。您可以通过简短的提示进行选择，使用分割进行精细化，并在视频循环处理中保持帧时间完整。

Comfyui ComfyUI Grounding 工作流中的关键模型#

Microsoft Florence-2 Large。一个视觉-语言模型，支持从自然语言提示进行开放词汇检测，能够为任意对象提供灵活的框提议。Model card
Segment Anything 2 (SAM 2)。一个分割基础模型，将点或框转换为清晰的遮罩；在此处，它将 Florence-2 检测精细化为像素精确的选择。Repository

如何使用 Comfyui ComfyUI Grounding 工作流#

工作流包含四个独立的组。选择与您的任务匹配的路径；每个路径都可以独立运行。

批处理 - 普通#

此路径处理一个图像文件夹并输出 RGBA 合成。LoadImagesFromFolderKJ (#9) 读取您的批次，而 GroundingModelLoader (#3) 引入 Florence-2。在 GroundingDetector (#1) 中提供简短提示，以在目标周围提议框；如果看到遗漏或误报，请调整置信度。DownLoadSAM2Model (#12) 加载 SAM 2，Sam2Segment (#11) 将框转换为干净的遮罩。可选地使用 InvertMask (#15) 翻转选择，并使用 JoinImageWithAlpha (#14) 和 PreviewImage (#17) 预览带透明度的剪切图。

普通 - 图像#

用于快速提示检查单个帧。LoadImage (#24) 引入您的图像，GroundingDetector (#25) 根据文本提示绘制标记框。PreviewImage (#26) 显示带注释的结果，以便您在批处理或视频工作前迭代措辞。

分割 - 遮罩#

此路径创建一步的、文本驱动的分割叠加。GroundingMaskModelLoader (#21) 加载遮罩模型，LoadImage (#18) 提供帧。在 GroundingMaskDetector (#22) 中输入描述性指令即可直接获得遮罩和叠加预览；PreviewImage (#20) 显示合成，而 PreviewAny (#19) 显示解析的指令字符串。适合当您需要快速语义选择而无需单独检测和精细化时。

普通 - 视频#

此路径在视频帧上叠加检测结果并重新编码同步剪辑。VHS_LoadVideo (#32) 导入帧和音频，GroundingModelLoader (#30) 提供 Florence-2。在 GroundingDetector (#28) 中设置如“faces”之类的提示，以在每帧绘制框。VHS_VideoInfo (#40) 将加载的帧率转发到 VHS_VideoCombine (#39)，后者生成带原始音频和匹配时间的 MP4。结果是一个准备共享的注释视频，用于审核或镜头规划。

Comfyui ComfyUI Grounding 工作流中的关键节点#

`GroundingDetector` (#1)#

核心检测器，将您的文本提示转换为边界框。提高分数阈值以减少误报；如果目标较小或部分遮挡，则降低它。保持提示简短具体，例如“red umbrella”而不是长句子。使用此节点驱动后续的分割和可视化阶段。

`Sam2Segment` (#11)#

使用 SAM 2 将粗略的框精细化为清晰的遮罩。从 GroundingDetector 提供框；仅在需要额外指导边界时添加一些正负点。如果主体和背景翻转，请与 InvertMask 配对以获得预期的剪切图。将结果用于需要 alpha 通道的任何地方。

`GroundingMaskDetector` (#22)#

直接从自然语言指令生成语义遮罩。当您希望一键选择而无需组装检测到分割链时，这是最佳选择。收紧文本并增加信心以防拾取多个区域；当主体被遗漏时，扩大措辞以包括变体。

`JoinImageWithAlpha` (#14)#

将原始图像与遮罩合成为 RGBA 输出，供下游编辑器使用。当您需要透明背景、选择性效果或分层合成工作时使用。结合 InvertMask 在隔离主体与剪切主体之间切换。

`VHS_LoadVideo` (#32)#

将视频拆分为帧并提取音频以进行处理。如果您的源有可变帧率，依赖它报告的加载帧率以保持时间一致性。此节点是任何剪辑中的逐帧检测或分割的入口点。

`VHS_VideoCombine` (#39)#

在保留音频的同时将处理过的帧重新编码为 MP4。将帧率匹配到上游报告的值以避免时间漂移。使用文件名前缀在输出文件夹中保持不同运行的组织。

可选扩展#

保持 ComfyUI Grounding 提示简短且以名词为主；在必要时添加一两个属性，例如“yellow excavator”或“lead singer with glasses”。
对于繁忙场景，增加检测器置信度并减少最大框数以在将框发送到 SAM 2 之前稳定结果。
准备视频时，在导入时修剪或子采样以加快迭代，然后切换回全帧计数以进行最终渲染。
如果您主要需要语义遮罩而无需框控，请运行分割 - 遮罩路径；否则，偏好检测器加 SAM 2 路线以获得精确边缘。
节点来自 ComfyUI Grounding 扩展；请参阅项目以获取更新和支持的模型。Repository

致谢#

此工作流实现并基于以下作品和资源进行构建。我们诚挚感谢 PozzettiAndrea 为 ComfyUI-Grounding 的贡献和维护。有关权威详细信息，请参阅下文链接的原始文档和存储库。

资源#

PozzettiAndrea/ComfyUI-Grounding
- GitHub: ComfyUI-Grounding

注意：引用的模型、数据集和代码的使用受其作者和维护者提供的各自许可证和条款的约束。

Want More ComfyUI Workflows?

Unsampling 的羊皮纸风格

使用 Unsampling 方法将您的视频转换为羊皮纸风格的动画。

使用 Unsampling 的粘土风格

使用 Unsampling 方法将您的视频转换为粘土风格。

动态图形动画效果 | Vid2Vid

从预先存在的视频输入开始实现动态图形动画效果。

使用Unsampling实现一致的风格迁移

通过Unsampling控制潜在噪声有助于显著提高视频风格迁移的一致性。

DiffuEraser | 视频修复

使用自动遮罩和真实的重建从视频中去除物体。

IC-Light | 图像重光照

轻松编辑背景、增强光照并重新生成新场景。

ComfyUI Vid2Vid 舞蹈传输

将源视频中的动作和风格传输到目标图像或对象上。

ComfyUI中的LongCat头像 | 身份一致的头像动画

将一张图片转化为流畅、身份一致的头像动画。

关注我们

支持

资源

法律

RunComfy

RunComfy 是首选的 ComfyUI 平台，提供 ComfyUI 在线环境和服务，以及 ComfyUI 工作流具有惊艳的视觉效果。 RunComfy还提供 AI Models, 帮助艺术家利用最新的AI工具创作出令人惊叹的艺术作品。

ComfyUI Grounding | 对象跟踪工作流