이 워크플로우는 ComfyUI Grounding을 이미지 배치, 단일 이미지 및 비디오에 대한 세 가지 실용적인 경로로 패키징합니다. 자연어 프롬프트를 객체 경계 상자와 고품질 마스크로 변환한 후 RGBA 합성을 미리 보기하거나 주석이 달린 비디오를 오디오를 보존하여 작성합니다. 아티스트, 편집자 및 VFX 일반가는 주제를 빠르게 분리하고 배경을 제거하며 합성을 위한 깔끔한 오버레이를 생성할 수 있습니다.
개방형 어휘 감지 및 최신 세분화에 기반한 ComfyUI Grounding은 다양한 주제와 장면에 대해 신뢰할 수 있습니다. 짧은 프롬프트로 선택을 유도하고 세분화를 통해 정제하며 비디오를 왕복할 때 프레임 타이밍을 유지합니다.
워크플로우에는 네 개의 독립적인 그룹이 포함되어 있습니다. 작업에 맞는 경로를 선택하세요; 각 경로는 독립적으로 실행할 수 있습니다.
이 경로는 이미지 폴더를 처리하고 RGBA 합성을 출력합니다. LoadImagesFromFolderKJ (#9)는 배치를 읽고, GroundingModelLoader (#3)는 Florence-2를 가져옵니다. GroundingDetector (#1)에서 짧은 프롬프트를 제공하여 대상 주위에 상자를 제안하세요; 누락되거나 잘못된 긍정이 보일 경우 신뢰도를 조정하세요. DownLoadSAM2Model (#12)은 SAM 2를 로드하고 Sam2Segment (#11)는 상자를 깨끗한 마스크로 변환합니다. 선택을 InvertMask (#15)로 플립하고 JoinImageWithAlpha (#14)와 PreviewImage (#17)를 사용하여 알파로 잘라낸 결과를 미리 볼 수 있습니다.
단일 프레임에서 빠른 프롬프트 검사를 위해 사용하세요. LoadImage (#24)는 이미지를 가져오고 GroundingDetector (#25)는 텍스트 프롬프트에 따라 라벨이 있는 상자를 그립니다. PreviewImage (#26)는 주석이 달린 결과를 보여주어 배치 또는 비디오 작업 전에 문구를 반복할 수 있습니다.
이 경로는 텍스트 기반의 세분화 오버레이를 한 번에 생성합니다. GroundingMaskModelLoader (#21)는 마스크 모델을 로드하고 LoadImage (#18)는 프레임을 제공합니다. GroundingMaskDetector (#22)에 설명을 입력하여 직접 마스크와 오버레이된 미리보기를 얻으세요; PreviewImage (#20)는 합성을 표시하고 PreviewAny (#19)는 해결된 지시 문자열을 보여줍니다. 별도의 감지 및 정제 없이 빠른 의미 선택이 필요할 때 이상적입니다.
이 경로는 비디오 프레임에 감지를 오버레이하고 동기화된 클립을 재인코딩합니다. VHS_LoadVideo (#32)는 프레임과 오디오를 가져오고 GroundingModelLoader (#30)는 Florence-2를 제공합니다. GroundingDetector (#28)에서 “faces”와 같은 프롬프트를 설정하여 프레임마다 상자를 그립니다. VHS_VideoInfo (#40)는 로드된 프레임 속도를 VHS_VideoCombine (#39)로 전달하여 원본 오디오와 일치하는 타이밍으로 MP4를 작성합니다. 결과는 검토 또는 샷 계획을 위한 준비된 주석이 달린 비디오입니다.
GroundingDetector (#1)텍스트 프롬프트를 경계 상자로 변환하는 핵심 감지기입니다. 잘못된 긍정을 줄이기 위해 점수 임계값을 높이세요; 대상이 작거나 부분적으로 가려져 있는 경우 낮추세요. 프롬프트를 짧고 구체적으로 유지하세요, 예를 들어 “red umbrella” 대신 길게 작성하지 마세요. 이 노드를 사용하여 세분화 및 시각화 단계를 유도합니다.
Sam2Segment (#11)거친 상자를 SAM 2를 사용하여 선명한 마스크로 정제합니다. GroundingDetector에서 상자를 피드하세요; 경계에 추가 가이드가 필요한 경우 긍정적 또는 부정적 포인트 몇 개를 추가하세요. 주제와 배경이 뒤집히면 InvertMask와 페어링하여 의도된 컷아웃을 얻으세요. 알파 매트가 필요한 곳에 결과를 사용하세요.
GroundingMaskDetector (#22)자연어 지시에서 직접 의미 마스크를 생성합니다. 감지에서 세분화로 체인을 구성하지 않고 원클릭 선택이 필요할 때 가장 좋습니다. 텍스트를 조이고 여러 영역이 선택될 경우 신뢰도를 높이세요; 주제가 누락되면 변형을 포함하도록 문구를 넓히세요.
JoinImageWithAlpha (#14)원본 이미지와 마스크를 합성하여 RGBA 출력을 다운스트림 편집기에 제공합니다. 투명한 배경, 선택적 효과 또는 계층화된 작업이 필요할 때 사용하세요. InvertMask와 결합하여 주제를 분리하고 주제를 잘라내는 작업 사이를 전환하세요.
VHS_LoadVideo (#32)비디오를 프레임으로 분할하고 오디오를 추출하여 처리합니다. 소스에 가변 프레임 속도가 있는 경우 보고된 로드된 프레임 속도를 사용하여 타이밍을 일관되게 유지하세요. 이 노드는 클립 전반에 걸쳐 프레임별 감지 또는 세분화의 진입점입니다.
VHS_VideoCombine (#39)오디오를 보존하면서 처리된 프레임을 MP4로 재인코딩합니다. 프레임 속도를 상류에서 보고된 값에 맞춰 시간 드리프트를 피하세요. 파일 이름 접두사를 사용하여 다른 실행을 출력 폴더에 정리하세요.
이 워크플로우는 다음 작업 및 리소스를 구현하고 기반으로 합니다. ComfyUI-Grounding에 대한 기여 및 유지 보수에 대해 PozzettiAndrea에게 감사드립니다. 권위 있는 세부 사항은 아래에 링크된 원본 문서 및 저장소를 참조하세요.
참고: 참조된 모델, 데이터 세트 및 코드의 사용은 작성자 및 유지 관리자가 제공하는 해당 라이선스 및 조건에 따릅니다.
RunComfy는 최고의 ComfyUI 플랫폼으로서 ComfyUI 온라인 환경과 서비스를 제공하며 ComfyUI 워크플로우 멋진 비주얼을 제공합니다. RunComfy는 또한 제공합니다 AI Playground, 예술가들이 최신 AI 도구를 활용하여 놀라운 예술을 창조할 수 있도록 지원합니다.