ComfyUI Grounding: 프롬프트 기반 감지, 픽셀 정확도의 세분화 및 비디오 오버레이
이 워크플로우는 ComfyUI Grounding을 이미지 배치, 단일 이미지 및 비디오에 대한 세 가지 실용적인 경로로 패키징합니다. 자연어 프롬프트를 객체 경계 상자와 고품질 마스크로 변환한 후 RGBA 합성을 미리 보기하거나 주석이 달린 비디오를 오디오를 보존하여 작성합니다. 아티스트, 편집자 및 VFX 일반가는 주제를 빠르게 분리하고 배경을 제거하며 합성을 위한 깔끔한 오버레이를 생성할 수 있습니다.
개방형 어휘 감지 및 최신 세분화에 기반한 ComfyUI Grounding은 다양한 주제와 장면에 대해 신뢰할 수 있습니다. 짧은 프롬프트로 선택을 유도하고 세분화를 통해 정제하며 비디오를 왕복할 때 프레임 타이밍을 유지합니다.
Comfyui ComfyUI Grounding 워크플로우의 주요 모델
- Microsoft Florence-2 Large. 자연어 프롬프트에서 개방형 어휘 감지를 지원하는 비전-언어 모델로 임의 객체에 대한 유연한 상자 제안을 가능하게 합니다. 모델 카드
- Segment Anything 2 (SAM 2). 점이나 상자를 선명한 마스크로 변환하는 세분화 기본 모델로, Florence-2 감지를 픽셀 정확도의 선택으로 정제합니다. 저장소
Comfyui ComfyUI Grounding 워크플로우 사용 방법
워크플로우에는 네 개의 독립적인 그룹이 포함되어 있습니다. 작업에 맞는 경로를 선택하세요; 각 경로는 독립적으로 실행할 수 있습니다.
배치 - 일반
이 경로는 이미지 폴더를 처리하고 RGBA 합성을 출력합니다. LoadImagesFromFolderKJ (#9)는 배치를 읽고, GroundingModelLoader (#3)는 Florence-2를 가져옵니다. GroundingDetector (#1)에서 짧은 프롬프트를 제공하여 대상 주위에 상자를 제안하세요; 누락되거나 잘못된 긍정이 보일 경우 신뢰도를 조정하세요. DownLoadSAM2Model (#12)은 SAM 2를 로드하고 Sam2Segment (#11)는 상자를 깨끗한 마스크로 변환합니다. 선택을 InvertMask (#15)로 플립하고 JoinImageWithAlpha (#14)와 PreviewImage (#17)를 사용하여 알파로 잘라낸 결과를 미리 볼 수 있습니다.
일반 - 이미지
단일 프레임에서 빠른 프롬프트 검사를 위해 사용하세요. LoadImage (#24)는 이미지를 가져오고 GroundingDetector (#25)는 텍스트 프롬프트에 따라 라벨이 있는 상자를 그립니다. PreviewImage (#26)는 주석이 달린 결과를 보여주어 배치 또는 비디오 작업 전에 문구를 반복할 수 있습니다.
세분화 - 마스크
이 경로는 텍스트 기반의 세분화 오버레이를 한 번에 생성합니다. GroundingMaskModelLoader (#21)는 마스크 모델을 로드하고 LoadImage (#18)는 프레임을 제공합니다. GroundingMaskDetector (#22)에 설명을 입력하여 직접 마스크와 오버레이된 미리보기를 얻으세요; PreviewImage (#20)는 합성을 표시하고 PreviewAny (#19)는 해결된 지시 문자열을 보여줍니다. 별도의 감지 및 정제 없이 빠른 의미 선택이 필요할 때 이상적입니다.
일반 - 비디오
이 경로는 비디오 프레임에 감지를 오버레이하고 동기화된 클립을 재인코딩합니다. VHS_LoadVideo (#32)는 프레임과 오디오를 가져오고 GroundingModelLoader (#30)는 Florence-2를 제공합니다. GroundingDetector (#28)에서 “faces”와 같은 프롬프트를 설정하여 프레임마다 상자를 그립니다. VHS_VideoInfo (#40)는 로드된 프레임 속도를 VHS_VideoCombine (#39)로 전달하여 원본 오디오와 일치하는 타이밍으로 MP4를 작성합니다. 결과는 검토 또는 샷 계획을 위한 준비된 주석이 달린 비디오입니다.
Comfyui ComfyUI Grounding 워크플로우의 주요 노드
GroundingDetector (#1)
텍스트 프롬프트를 경계 상자로 변환하는 핵심 감지기입니다. 잘못된 긍정을 줄이기 위해 점수 임계값을 높이세요; 대상이 작거나 부분적으로 가려져 있는 경우 낮추세요. 프롬프트를 짧고 구체적으로 유지하세요, 예를 들어 “red umbrella” 대신 길게 작성하지 마세요. 이 노드를 사용하여 세분화 및 시각화 단계를 유도합니다.
Sam2Segment (#11)
거친 상자를 SAM 2를 사용하여 선명한 마스크로 정제합니다. GroundingDetector에서 상자를 피드하세요; 경계에 추가 가이드가 필요한 경우 긍정적 또는 부정적 포인트 몇 개를 추가하세요. 주제와 배경이 뒤집히면 InvertMask와 페어링하여 의도된 컷아웃을 얻으세요. 알파 매트가 필요한 곳에 결과를 사용하세요.
GroundingMaskDetector (#22)
자연어 지시에서 직접 의미 마스크를 생성합니다. 감지에서 세분화로 체인을 구성하지 않고 원클릭 선택이 필요할 때 가장 좋습니다. 텍스트를 조이고 여러 영역이 선택될 경우 신뢰도를 높이세요; 주제가 누락되면 변형을 포함하도록 문구를 넓히세요.
JoinImageWithAlpha (#14)
원본 이미지와 마스크를 합성하여 RGBA 출력을 다운스트림 편집기에 제공합니다. 투명한 배경, 선택적 효과 또는 계층화된 작업이 필요할 때 사용하세요. InvertMask와 결합하여 주제를 분리하고 주제를 잘라내는 작업 사이를 전환하세요.
VHS_LoadVideo (#32)
비디오를 프레임으로 분할하고 오디오를 추출하여 처리합니다. 소스에 가변 프레임 속도가 있는 경우 보고된 로드된 프레임 속도를 사용하여 타이밍을 일관되게 유지하세요. 이 노드는 클립 전반에 걸쳐 프레임별 감지 또는 세분화의 진입점입니다.
VHS_VideoCombine (#39)
오디오를 보존하면서 처리된 프레임을 MP4로 재인코딩합니다. 프레임 속도를 상류에서 보고된 값에 맞춰 시간 드리프트를 피하세요. 파일 이름 접두사를 사용하여 다른 실행을 출력 폴더에 정리하세요.
선택적 추가 기능
- ComfyUI Grounding 프롬프트를 짧고 명사 중심으로 유지하세요; 필요할 경우 한두 개의 속성을 추가하세요, 예를 들어 “yellow excavator” 또는 “lead singer with glasses”.
- 복잡한 장면에서는 감지기 신뢰도를 높이고 최대 상자 수를 줄여 SAM 2에 상자를 보내기 전에 결과를 안정화하세요.
- 비디오를 준비할 때, 가져올 때 잘라내거나 샘플링하여 빠른 반복을 수행한 다음 최종 렌더링을 위해 전체 프레임 수로 전환하세요.
- 주로 상자 제어 없이 의미 마스크가 필요하다면 세분화 - 마스크 경로를 실행하세요; 그렇지 않으면 정확한 가장자리를 위한 감지기 플러스 SAM 2 경로를 선호하세요.
- 노드는 ComfyUI Grounding 확장에서 제공됩니다; 프로젝트에서 업데이트 및 지원되는 모델을 참조하세요. 저장소
감사의 말
이 워크플로우는 다음 작업 및 리소스를 구현하고 기반으로 합니다. ComfyUI-Grounding에 대한 기여 및 유지 보수에 대해 PozzettiAndrea에게 감사드립니다. 권위 있는 세부 사항은 아래에 링크된 원본 문서 및 저장소를 참조하세요.
리소스
- PozzettiAndrea/ComfyUI-Grounding
- GitHub: ComfyUI-Grounding
참고: 참조된 모델, 데이터 세트 및 코드의 사용은 작성자 및 유지 관리자가 제공하는 해당 라이선스 및 조건에 따릅니다.
