logo
RunComfy
ComfyUIPlaygroundPricing
discord logo
ComfyUI>工作流>ComfyUI Grounding | 对象跟踪工作流

ComfyUI Grounding | 对象跟踪工作流

Workflow Name: RunComfy/ComfyUI-Grounding
Workflow ID: 0000...1310
此工作流帮助您在视频帧中以像素级精度隔离和跟踪对象。它允许您生成干净、一致的遮罩和运动数据,用于合成和高级 VFX 任务。无论您需要角色隔离、背景清理还是定向编辑,它都能每次提供可靠的跟踪。您可以通过文本提示或视觉参考来指导过程。非常适合寻求准确、帧一致分割的视觉效果和 AI 驱动编辑的创作者。

ComfyUI Grounding: 提示检测,像素精确分割和视频叠加

此工作流将 ComfyUI Grounding 打包为三个实用路径,适用于图像批处理、单个图像和视频。它将自然语言提示转换为对象边界框和高质量遮罩,然后预览 RGBA 合成或编写带注释的视频并保留音频。艺术家、编辑和 VFX 通才可以快速隔离主体、去除背景,并生成干净的叠加用于合成。

基于开放词汇检测和现代分割,ComfyUI Grounding 对各种主体和场景都可靠。您可以通过简短的提示进行选择,使用分割进行精细化,并在视频循环处理中保持帧时间完整。

Comfyui ComfyUI Grounding 工作流中的关键模型

  • Microsoft Florence-2 Large。一个视觉-语言模型,支持从自然语言提示进行开放词汇检测,能够为任意对象提供灵活的框提议。Model card
  • Segment Anything 2 (SAM 2)。一个分割基础模型,将点或框转换为清晰的遮罩;在此处,它将 Florence-2 检测精细化为像素精确的选择。Repository

如何使用 Comfyui ComfyUI Grounding 工作流

工作流包含四个独立的组。选择与您的任务匹配的路径;每个路径都可以独立运行。

批处理 - 普通

此路径处理一个图像文件夹并输出 RGBA 合成。LoadImagesFromFolderKJ (#9) 读取您的批次,而 GroundingModelLoader (#3) 引入 Florence-2。在 GroundingDetector (#1) 中提供简短提示,以在目标周围提议框;如果看到遗漏或误报,请调整置信度。DownLoadSAM2Model (#12) 加载 SAM 2,Sam2Segment (#11) 将框转换为干净的遮罩。可选地使用 InvertMask (#15) 翻转选择,并使用 JoinImageWithAlpha (#14) 和 PreviewImage (#17) 预览带透明度的剪切图。

普通 - 图像

用于快速提示检查单个帧。LoadImage (#24) 引入您的图像,GroundingDetector (#25) 根据文本提示绘制标记框。PreviewImage (#26) 显示带注释的结果,以便您在批处理或视频工作前迭代措辞。

分割 - 遮罩

此路径创建一步的、文本驱动的分割叠加。GroundingMaskModelLoader (#21) 加载遮罩模型,LoadImage (#18) 提供帧。在 GroundingMaskDetector (#22) 中输入描述性指令即可直接获得遮罩和叠加预览;PreviewImage (#20) 显示合成,而 PreviewAny (#19) 显示解析的指令字符串。适合当您需要快速语义选择而无需单独检测和精细化时。

普通 - 视频

此路径在视频帧上叠加检测结果并重新编码同步剪辑。VHS_LoadVideo (#32) 导入帧和音频,GroundingModelLoader (#30) 提供 Florence-2。在 GroundingDetector (#28) 中设置如“faces”之类的提示,以在每帧绘制框。VHS_VideoInfo (#40) 将加载的帧率转发到 VHS_VideoCombine (#39),后者生成带原始音频和匹配时间的 MP4。结果是一个准备共享的注释视频,用于审核或镜头规划。

Comfyui ComfyUI Grounding 工作流中的关键节点

GroundingDetector (#1)

核心检测器,将您的文本提示转换为边界框。提高分数阈值以减少误报;如果目标较小或部分遮挡,则降低它。保持提示简短具体,例如“red umbrella”而不是长句子。使用此节点驱动后续的分割和可视化阶段。

Sam2Segment (#11)

使用 SAM 2 将粗略的框精细化为清晰的遮罩。从 GroundingDetector 提供框;仅在需要额外指导边界时添加一些正负点。如果主体和背景翻转,请与 InvertMask 配对以获得预期的剪切图。将结果用于需要 alpha 通道的任何地方。

GroundingMaskDetector (#22)

直接从自然语言指令生成语义遮罩。当您希望一键选择而无需组装检测到分割链时,这是最佳选择。收紧文本并增加信心以防拾取多个区域;当主体被遗漏时,扩大措辞以包括变体。

JoinImageWithAlpha (#14)

将原始图像与遮罩合成为 RGBA 输出,供下游编辑器使用。当您需要透明背景、选择性效果或分层合成工作时使用。结合 InvertMask 在隔离主体与剪切主体之间切换。

VHS_LoadVideo (#32)

将视频拆分为帧并提取音频以进行处理。如果您的源有可变帧率,依赖它报告的加载帧率以保持时间一致性。此节点是任何剪辑中的逐帧检测或分割的入口点。

VHS_VideoCombine (#39)

在保留音频的同时将处理过的帧重新编码为 MP4。将帧率匹配到上游报告的值以避免时间漂移。使用文件名前缀在输出文件夹中保持不同运行的组织。

可选扩展

  • 保持 ComfyUI Grounding 提示简短且以名词为主;在必要时添加一两个属性,例如“yellow excavator”或“lead singer with glasses”。
  • 对于繁忙场景,增加检测器置信度并减少最大框数以在将框发送到 SAM 2 之前稳定结果。
  • 准备视频时,在导入时修剪或子采样以加快迭代,然后切换回全帧计数以进行最终渲染。
  • 如果您主要需要语义遮罩而无需框控,请运行分割 - 遮罩路径;否则,偏好检测器加 SAM 2 路线以获得精确边缘。
  • 节点来自 ComfyUI Grounding 扩展;请参阅项目以获取更新和支持的模型。Repository

致谢

此工作流实现并基于以下作品和资源进行构建。我们诚挚感谢 PozzettiAndrea 为 ComfyUI-Grounding 的贡献和维护。有关权威详细信息,请参阅下文链接的原始文档和存储库。

资源

  • PozzettiAndrea/ComfyUI-Grounding
    • GitHub: ComfyUI-Grounding

注意:引用的模型、数据集和代码的使用受其作者和维护者提供的各自许可证和条款的约束。

Want More ComfyUI Workflows?

Unsampling 的羊皮纸风格

使用 Unsampling 方法将您的视频转换为羊皮纸风格的动画。

使用 Unsampling 的粘土风格

使用 Unsampling 方法将您的视频转换为粘土风格。

动态图形动画效果 | Vid2Vid

从预先存在的视频输入开始实现动态图形动画效果。

使用Unsampling实现一致的风格迁移

通过Unsampling控制潜在噪声有助于显著提高视频风格迁移的一致性。

DiffuEraser | 视频修复

使用自动遮罩和真实的重建从视频中去除物体。

IPAdapter Plus (V2) | 风格和构图

IPAdapter Plus (V2) | 风格和构图

IPAdapter Plus 能够有效地进行风格和构图迁移,其功能类似于单图像 LoRA。

Flux Depth 和 Canny

官方 Flux 工具 - Flux Depth 和 Canny 控制网络模型

AnimateDiff + QR Code ControlNet | 视觉效果(VFX)

使用 AnimateDiff 和 ControlNet(包括 QRCode Monster 和 Lineart)创建引人入胜的视觉效果。

关注我们
  • 领英
  • Facebook
  • Instagram
  • Twitter
支持
  • Discord
  • 电子邮件
  • 系统状态
  • 附属
资源
  • 免费 ComfyUI 在线版
  • ComfyUI 指南
  • RunComfy API
  • ComfyUI 教程
  • ComfyUI 节点
  • 了解更多
法律
  • 服务条款
  • 隐私政策
  • Cookie 政策
RunComfy
版权 2025 RunComfy. 保留所有权利。

RunComfy 是首选的 ComfyUI 平台,提供 ComfyUI 在线 环境和服务,以及 ComfyUI 工作流 具有惊艳的视觉效果。 RunComfy还提供 AI Playground, 帮助艺术家利用最新的AI工具创作出令人惊叹的艺术作品。