SAM 3.1 ComfyUI 워크플로우: 프롬프트 기반 세분화, 경계 상자 미리보기 및 비디오 추적#
이 SAM 3.1 ComfyUI 워크플로우는 native, 프롬프트 가능한 이미지 세분화를 즉각적인 경계 상자 시각화와 프레임 정확한 비디오 객체 추적 및 마스크 추출과 함께 제공합니다. 내장된 comfy-core SAM 3.1 노드를 사용하므로 타사 사용자 정의 노드 없이도 일류의 성능과 안정성을 얻을 수 있습니다. 결과적으로 합성, 분리 또는 후속 편집을 위해 빠르고 재사용 가능한 매트를 제공합니다.
아티스트, 편집자 및 파이프라인 엔지니어를 위해 설계된 SAM 3.1 ComfyUI는 텍스트 큐 또는 경계 상자로 시작하여 선택을 현장에서 검증한 다음 전체 클립을 통해 깨끗한 마스크를 전파하기 쉽게 만듭니다. 내부적으로는 sam3.1_multiplex_fp16 체크포인트를 로드하고 ComfyUI에 native 지원으로 추가된 공식 SAM3_Detect, SAM3_VideoTrack, SAM3_TrackToMask, SAM3_TrackPreview 노드를 실행합니다. 배경에 대한 정보는 Hugging Face의 모델 파일과 ComfyUI 풀 요청을 참조하십시오: Comfy-Org/sam3.1, ComfyUI PR #13408.
Comfyui SAM 3.1 ComfyUI 워크플로우의 주요 모델#
- Comfy-Org SAM 3.1 Multiplex FP16 체크포인트. sam3.1_multiplex_fp16 가중치는 SAM 3.1 노드에서 사용되는 프롬프트 가능한 이미지 세분화 및 추적기를 지원합니다.
CheckpointLoaderSimple을 사용하여 로드하면 워크플로우 전반에서 사용되는 모델 및 텍스트 컨디셔닝을 제공합니다. 출처: Comfy-Org/sam3.1.
Comfyui SAM 3.1 ComfyUI 워크플로우 사용 방법#
그래프에는 두 개의 독립적인 레인이 있습니다. 이미지 마스킹은 정지 이미지를 세분화하고 빠른 QA를 위한 경계 상자를 미리 볼 수 있게 합니다. 비디오 마스킹은 참조 프레임에 마스크를 초기화하고 클립 전체에서 객체를 추적하며 트랙을 미리 보고 편집 또는 합성을 위한 마스크를 내보냅니다.
이미지 마스킹#
이 레인은 단일 프레임 또는 추적을 실행하기 전에 프롬프트를 프로토타입화하는 데 이상적입니다. LoadImage (#4)로 이미지를 로드하고 CLIPTextEncode (#3)에서 "새" 또는 "빨간색 자동차"와 같은 짧은 텍스트 큐를 작성하여 시작합니다. 텍스트 컨디셔닝과 이미지는 SAM3_Detect (#1)에 전달되며, 이는 감지된 주제 주위에 마스크와 자동 경계 상자를 모두 반환합니다. MaskPreview+ (#5)를 사용하여 매트를 시각적으로 검사하고 DrawBBoxes (#6) 및 PreviewImage (#7)로 상자 배치를 확인합니다. 선택이 모호한 경우 텍스트를 정제하거나 긍정적 또는 부정적 포인트를 추가하거나 SAM 3.1 ComfyUI가 의도한 객체로 더 잘 유도되도록 더 타이트한 상자를 제공하십시오.
비디오 마스킹#
이 레인은 동일한 프롬프트 가능한 세분화를 전체 클립으로 확장합니다. VHS_LoadVideoPath (#12)에서 비디오를 로드하면 나머지 그래프에 프레임과 메타데이터를 제공합니다. 참조 프레임은 ImageFromBatch (#15)에서 선택되고 CLIPTextEncode (#14)를 통해 텍스트로 설명됩니다. SAM3_Detect (#13)는 해당 프레임에서 초기 마스크를 생성하여 SAM3_VideoTrack (#8)이 동일한 모델과 텍스트 컨디셔닝을 사용하여 나머지 프레임을 따라 객체를 추적할 수 있도록 합니다. 결과 트랙을 프레임별 매트로 변환하려면 SAM3_TrackToMask (#9)를 사용하십시오. 빠른 이진 미리보기 또는 전경/배경 반전을 위해, 마스크는 InvertMask (#19) 및 MaskToImage (#16)를 통과한 다음 VHS_VideoCombine (#17)에서 간단한 마스크 비디오를 렌더링할 수 있습니다. 원본 프레임 위에 결과를 대화형으로 보려면 SAM3_TrackPreview (#10)를 사용하여 VHS_VideoInfoLoaded (#18)가 제공하는 소스 프레임 속도로 오버레이를 재생합니다. 드리프트가 보이면 시작 프레임 또는 프롬프트를 조정한 다음 내보내기 전에 트랙을 고정하기 위해 다시 실행하십시오.
Comfyui SAM 3.1 ComfyUI 워크플로우의 주요 노드#
SAM3_Detect (#1)#
프롬프트 및 선택적 포인트 또는 상자를 기반으로 정지 이미지에 대한 객체 마스크 및 경계 상자를 생성합니다. SAM 3.1 ComfyUI에서 주제 선택을 빠르게 검증하는 데 사용하십시오. 마스크가 너무 넓거나 유사체를 포함하는 것 같으면 텍스트 설명을 강화하거나 더 제한된 상자를 그려서 분리를 개선하십시오.
SAM3_Detect (#13)#
선택한 참조 프레임에서 깨끗한 마스크를 생성하여 비디오 추적기를 시드합니다. SAM 3.1 ComfyUI의 추적 품질은 이 시드에 크게 의존하므로 대상이 보이고 최소한으로 가려진 프레임을 선택하십시오. 나중에 주제가 모양을 바꾸면 다른 프레임에서 다시 초기화하고 편집기에서 결과를 연결하십시오.
SAM3_VideoTrack (#8)#
동일한 모델과 텍스트 큐를 사용하여 클립을 통해 초기 마스크를 전파합니다. 시드와의 컨디셔닝을 일관되게 유지하여 유사한 객체에 고착되지 않도록 하십시오. 작거나 빠르게 움직이는 대상을 추적할 때는 자신 있는 시드가 있는 프레임에서 시작하고 조명이 크게 변하거나 크기 변화가 급격한 경우 세그먼트를 단축하는 것을 고려하십시오.
SAM3_TrackToMask (#9)#
추적기 출력을 내보낼 마스크 시퀀스로 변환합니다. 모든 프레임을 출력하거나 인덱스나 간단한 범위를 입력하여 하위 집합을 선택할 수 있습니다. 이 지점에서 비디오 미리보기를 작성하거나 선호하는 도구에서 합성을 위한 PNG 시퀀스를 저장할 수 있습니다.
SAM3_TrackPreview (#10)#
원본 프레임 위에 추적된 결과를 즉각적인 품질 관리 용도로 재생합니다. 미리보기는 VHS_VideoInfoLoaded (#18)가 보고한 소스 프레임 속도를 사용하므로 타이밍이 클립과 일치합니다. 드리프트, 가림 실패, 또는 신원 교환을 확인하여 전체 내보내기에 착수하기 전에 감지하십시오.
선택적 추가 기능#
- 프레임 내 여러 주제와 일치하는 텍스트 프롬프트가 있을 때 경계 상자를 사용하여 모호성을 해소하십시오.
- 대상이 클립 중간에 크기나 조명이 변경되면 비디오를 논리적 세그먼트로 분할하고 각 세그먼트에서
SAM3_Detect(#13)를 다시 시드하여 보다 안정적인 추적을 수행하십시오. - 이미지 시퀀스로 매트 내보내기를 위해,
SAM3_TrackToMask(#9)를VHS_VideoCombine(#17) 대신SaveImage노드에 연결하십시오. - 프롬프트를 짧고 구체적으로 유지하십시오. SAM 3.1 ComfyUI에서는 키 속성을 가진 간결한 명사가 긴 산문보다 더 잘 작동하는 경우가 많습니다.
- 특정 프레임에서 정지 마스크만 필요한 경우, 해당 프레임에서 직접 이미지 마스킹을 실행하여 추적을 우회하고 시간을 절약하십시오.
감사의 말#
이 워크플로우는 다음 작업 및 리소스를 구현하고 확장합니다. 우리는 ComfyUI와 SAM 3.1 세분화 워크플로우를 위한 Innovate Futures @ Benji, SAM 3.1 모델 파일을 위한 Comfy-Org, 및 Native ComfyUI SAM 3.1 지원 PR을 위한 Comfy-Org의 기여와 유지 보수에 감사드립니다. 권위 있는 세부 사항은 아래에 연결된 원본 문서 및 저장소를 참조하십시오.
리소스#
- Innovate Futures @ Benji/워크플로우 출처
- Comfy-Org/SAM 3.1 모델 파일
- GitHub: facebookresearch/sam3
- Hugging Face: Comfy-Org/sam3.1
- arXiv: SAM 3: Segment Anything with Concepts (2511.16719)
- 문서 / 릴리스 노트: RELEASE_SAM3p1.md
- Comfy-Org/Native ComfyUI SAM 3.1 지원 PR
- GitHub: Comfy-Org/ComfyUI#13408
참고: 참조된 모델, 데이터셋 및 코드의 사용은 해당 저자 및 유지 관리자가 제공한 라이선스 및 조건의 적용을 받습니다.
