ComfyUI Grounding:提示檢測,像素精準分割和視頻疊加
此工作流程將 ComfyUI Grounding 包裝成三種實用路徑,用於圖像批次、單張圖像和視頻。它將自然語言提示轉換為物件邊界框和高質量遮罩,然後預覽 RGBA 合成或寫入帶有保留音頻的註釋視頻。藝術家、編輯者和視覺效果通才可以快速隔離主體,去除背景,並生成乾淨的疊加層以進行合成。
基於開放詞彙檢測和現代分割技術,ComfyUI Grounding 對於各種主體和場景都可靠。您可以使用短提示來驅動選擇,通過分割進行精煉,並在視頻回路時保持幀時間一致。
Comfyui ComfyUI Grounding 工作流程中的關鍵模型
- Microsoft Florence-2 Large。一個支持從自然語言提示進行開放詞彙檢測的視覺語言模型,能夠為任意物件提供靈活的框建議。 Model card
- Segment Anything 2 (SAM 2)。一個分割基礎模型,將點或框轉換為清晰的遮罩;在此它將 Florence-2 的檢測精煉為像素精準的選擇。 Repository
如何使用 Comfyui ComfyUI Grounding 工作流程
該工作流程包含四個獨立的組。選擇與您的任務匹配的路徑;每個都可以獨立運行。
批次 - 正常
此路徑處理一個圖像文件夾並輸出 RGBA 合成。LoadImagesFromFolderKJ (#9) 讀取您的批次,GroundingModelLoader (#3) 引入 Florence-2。在 GroundingDetector (#1) 中提供一個短提示來建議目標周圍的框;如果看到遺漏或誤報,請調整置信度。DownLoadSAM2Model (#12) 加載 SAM 2,Sam2Segment (#11) 將框轉換為乾淨的遮罩。可選地用 InvertMask (#15) 翻轉選擇,並使用 JoinImageWithAlpha (#14) 和 PreviewImage (#17) 預覽帶 alpha 的剪裁。
正常 - 圖像
用於單幀的快速提示檢查。LoadImage (#24) 導入您的圖像,GroundingDetector (#25) 根據您的文字提示繪製標記框。PreviewImage (#26) 顯示註釋結果,以便您在批次或視頻工作之前迭代措辭。
分割 - 遮罩
此路徑創建一個一步的、文字驅動的分割疊加。GroundingMaskModelLoader (#21) 加載遮罩模型,LoadImage (#18) 提供幀。在 GroundingMaskDetector (#22) 中輸入描述性指令以直接獲取遮罩和疊加預覽;PreviewImage (#20) 顯示合成,PreviewAny (#19) 顯示解析後的指令字符串。當您想要快速語義選擇而不需要單獨的檢測和精煉時,這是理想的選擇。
正常 - 視頻
此路徑在視頻幀上疊加檢測並重新編碼同步片段。VHS_LoadVideo (#32) 導入幀和音頻,GroundingModelLoader (#30) 提供 Florence-2。在 GroundingDetector (#28) 中設置提示(例如 "faces")以在每幀上繪製框。VHS_VideoInfo (#40) 將加載的幀速率轉發到 VHS_VideoCombine (#39),其寫入帶有原始音頻和匹配時間的 MP4。結果是一個準備分享的註釋視頻,用於審查或鏡頭計劃。
Comfyui ComfyUI Grounding 工作流程中的關鍵節點
GroundingDetector (#1)
核心檢測器,將您的文字提示轉換為邊界框。提高分數閾值以減少誤報;如果目標很小或部分被遮擋,則降低它。保持提示簡短且具體,例如 "red umbrella" 而不是長句子。使用此節點來驅動下游的分割和可視化階段。
Sam2Segment (#11)
使用 SAM 2 將粗略的框精煉為清晰的遮罩。從 GroundingDetector 提供框;只有在邊界需要額外指導時才添加少量正或負點。若主體和背景翻轉,則與 InvertMask 配對以獲得預期的剪裁。無論何時需要 alpha 遮片都使用此結果。
GroundingMaskDetector (#22)
直接從自然語言指令生成語義遮罩。當您想要一鍵選擇而不需要組裝檢測到分割鏈時,這是最佳選擇。收緊文本並提高信心,如果多個區域被拾取;擴展措辭以包含變化,當主題被忽略時。
JoinImageWithAlpha (#14)
將原始圖像與遮罩合成為 RGBA 輸出,用於下游編輯。需要透明背景、選擇性效果或分層合成時使用它。與 InvertMask 結合使用,以在隔離主體和剪裁主體之間切換。
VHS_LoadVideo (#32)
將視頻分解為幀並提取音頻以進行處理。如果您的來源有可變幀速率,請依賴其報告的加載幀速率以保持時間一致。此節點是任何幀對幀檢測或分割跨剪輯的入口點。
VHS_VideoCombine (#39)
將處理過的幀重新編碼為 MP4 同時保留音頻。匹配報告的幀速率以避免時間漂移。使用文件名前綴來保持不同運行在輸出文件夾中的有序。
可選附加功能
- 保持 ComfyUI Grounding 提示簡短且以名詞為主;必要時添加一兩個屬性,例如 "yellow excavator" 或 "lead singer with glasses"。
- 對於繁忙的場景,提高檢測器信心並減少最大框數量,以穩定結果,然後將框發送到 SAM 2。
- 準備視頻時,導入時修剪或抽樣以加快迭代,然後切換回完整幀數以進行最終渲染。
- 如果您主要需要語義遮罩而不需要框控制,運行分割 - 遮罩路徑;否則,偏好檢測器加 SAM 2 路徑以獲得精確的邊緣。
- 這些節點來自 ComfyUI Grounding 擴展;查看項目以獲取更新和支持的模型。 Repository
致謝
此工作流程實施並建立在以下工作和資源之上。我們感謝 PozzettiAndrea 為 ComfyUI-Grounding 的貢獻和維護。欲了解權威細節,請參考下方鏈接的原始文檔和存儲庫。
資源
- PozzettiAndrea/ComfyUI-Grounding
- GitHub: ComfyUI-Grounding
注意:引用的模型、數據集和代碼的使用受其作者和維護者提供的相應許可和條款的約束。
