SAM 3.1 ComfyUI 工作流,用于提示引导的分割、边界框预览和视频跟踪#
此 SAM 3.1 ComfyUI 工作流提供原生、可提示的图像分割,具有即时边界框可视化和帧精确的视频对象跟踪与蒙版提取。它使用内置的 comfy-core SAM 3.1 节点,因此无需第三方自定义节点即可获得一流的性能和稳定性。结果是快速、可重用的蒙版,用于合成、隔离或跨静态图像和完整视频的下游编辑。
为艺术家、编辑和管道工程师设计,SAM 3.1 ComfyUI 使您可以轻松地从文本提示或边界框开始,就地验证选择,然后在整个剪辑中传播干净的蒙版。它在后台加载 sam3.1_multiplex_fp16 检查点,并运行官方的 SAM3_Detect、SAM3_VideoTrack、SAM3_TrackToMask 和 SAM3_TrackPreview 节点,这些节点已作为原生支持添加到 ComfyUI 中。有关背景信息,请参阅 Hugging Face 上的模型文件和 ComfyUI 的 pull request:Comfy-Org/sam3.1,ComfyUI PR #13408。
Comfyui SAM 3.1 ComfyUI 工作流中的关键模型#
- Comfy-Org SAM 3.1 Multiplex FP16 检查点。sam3.1_multiplex_fp16 权重支持可提示的图像分割和 SAM 3.1 节点使用的跟踪器。用
CheckpointLoaderSimple加载它,它提供在整个工作流中使用的模型和文本条件。来源:Comfy-Org/sam3.1。
如何使用 Comfyui SAM 3.1 ComfyUI 工作流#
图中有两条独立的通道。图像蒙版允许您分割静态图像并预览边界框以进行快速质量检查。视频蒙版在参考帧上初始化蒙版,跟踪剪辑中的对象,预览跟踪,并导出蒙版以便于编辑或合成。
图像蒙版#
此通道非常适合单帧或在进行跟踪之前对您的提示进行原型设计。从 LoadImage (#4) 加载图像并在 CLIPTextEncode (#3) 中写入简短的文本提示,例如“a bird”或“red car”。文本条件和图像传递给 SAM3_Detect (#1),它返回检测到的主体的蒙版和自动边界框。使用 MaskPreview+ (#5) 视觉检查蒙版,并使用 DrawBBoxes (#6) 加 PreviewImage (#7) 确认框的位置。如果选择不明确,请完善文本,添加正或负点,或提供更紧的框以引导 SAM 3.1 ComfyUI 到预期对象。
视频蒙版#
此通道将相同的可提示分割扩展到完整的剪辑。在 VHS_LoadVideoPath (#12) 中加载视频;它为图的其余部分提供帧和元数据。使用 ImageFromBatch (#15) 选择参考帧,并通过 CLIPTextEncode (#14) 以文本描述。SAM3_Detect (#13) 在该帧上生成初始蒙版,作为 SAM3_VideoTrack (#8) 使用相同模型和文本条件跟踪剩余帧中对象的种子。使用 SAM3_TrackToMask (#9) 将结果跟踪转换为每帧蒙版。对于快速二进制预览或反转前景/背景,蒙版通过 InvertMask (#19) 和 MaskToImage (#16),然后 VHS_VideoCombine (#17) 可以渲染简单的蒙版视频。要在原始帧上交互查看结果,SAM3_TrackPreview (#10) 以 VHS_VideoInfoLoaded (#18) 提供的源帧速率播放叠加。调整起始帧或提示,如果看到漂移,然后重新运行以锁定跟踪后导出。
Comfyui SAM 3.1 ComfyUI 工作流中的关键节点#
SAM3_Detect (#1)#
根据您的提示和可选的点或框生成静态图像的对象蒙版和边界框。使用它快速验证您的主题选择。如果蒙版太宽或包括相似物,请收紧文本描述或绘制更受约束的框以改善分离。
SAM3_Detect (#13)#
通过在选定参考帧上生成干净的蒙版来为视频跟踪器播种。在 SAM 3.1 ComfyUI 中,跟踪质量强烈依赖于此种子,因此请选择目标可见且最少遮挡的帧。如果主题稍后更改外观,请从另一帧重新初始化并在编辑器中连接结果。
SAM3_VideoTrack (#8)#
使用相同的模型和文本提示在剪辑中传播初始蒙版。保持种子的条件一致,以避免附着在类似对象上。当跟踪小或快速移动的目标时,请从具有自信种子的帧开始,并在光照或比例显著变化时考虑缩短片段。
SAM3_TrackToMask (#9)#
将跟踪器输出转换为导出的蒙版序列。您可以输出所有帧或通过输入索引或简单范围选择子集。这是将视频预览写入或保存为 PNG 序列以在您首选工具中合成的交接点。
SAM3_TrackPreview (#10)#
在原始帧上播放已跟踪的结果以进行即时质量控制。预览使用 VHS_VideoInfoLoaded (#18) 报告的源帧速率,因此时间与您的剪辑匹配。使用它在提交完全导出之前识别漂移、遮挡失败或身份交换。
可选附加项#
- 当您的文本提示匹配帧中的多个主题时,使用边界框消除歧义。
- 如果目标在剪辑中途更改比例或光照,将视频拆分为逻辑段,并在每个段中重新播种
SAM3_Detect(#13) 以实现更稳定的跟踪。 - 对于作为图像序列的蒙版导出,将
SAM3_TrackToMask(#9) 路由到SaveImage节点而不是VHS_VideoCombine(#17)。 - 保持提示简短而具体。在 SAM 3.1 ComfyUI 中,具有关键属性的简洁名词通常优于冗长的散文。
- 当您只需要特定帧的静态蒙版时,直接在该帧上运行图像蒙版以绕过跟踪并节省时间。
致谢#
此工作流实现并构建在以下作品和资源之上。我们衷心感谢 Innovate Futures @ Benji 提供的 ComfyUI 与 SAM 3.1 分割工作流,Comfy-Org 提供的 SAM 3.1 模型文件,以及 Comfy-Org 提供的原生 ComfyUI SAM 3.1 支持 PR 的贡献和维护。有关权威细节,请参阅下列链接的原始文档和存储库。
资源#
- Innovate Futures @ Benji/工作流来源
- Comfy-Org/SAM 3.1 模型文件
- GitHub: facebookresearch/sam3
- Hugging Face: Comfy-Org/sam3.1
- arXiv: SAM 3: Segment Anything with Concepts (2511.16719)
- 文档 / 发布说明:RELEASE_SAM3p1.md
- Comfy-Org/Native ComfyUI SAM 3.1 支持 PR
- GitHub: Comfy-Org/ComfyUI#13408
注意:所引用的模型、数据集和代码的使用受其作者和维护者提供的各自许可证和条款的约束。

