Workflow SAM 3.1 ComfyUI para segmentação guiada por prompts, visualização de caixas delimitadoras e rastreamento de vídeo#
Este workflow SAM 3.1 ComfyUI oferece segmentação de imagem nativa e guiada por prompts com visualização instantânea de caixas delimitadoras e rastreamento de objetos em vídeo com extração de máscara. Ele usa os nós comfy-core SAM 3.1 integrados, proporcionando desempenho e estabilidade de primeira classe sem nós personalizados de terceiros. O resultado são máscaras rápidas e reutilizáveis para composição, isolamento ou edição em imagens estáticas e vídeos completos.
Projetado para artistas, editores e engenheiros de pipeline, o SAM 3.1 ComfyUI facilita o início com um prompt de texto ou uma caixa delimitadora, valida a seleção no local e depois propaga uma máscara limpa por todo o clipe. Nos bastidores, ele carrega o checkpoint sam3.1_multiplex_fp16 e executa os nós oficiais SAM3_Detect, SAM3_VideoTrack, SAM3_TrackToMask e SAM3_TrackPreview que foram adicionados como suporte nativo ao ComfyUI. Veja os arquivos do modelo no Hugging Face e a pull request no ComfyUI para mais detalhes: Comfy-Org/sam3.1, ComfyUI PR #13408.
Modelos principais no workflow Comfyui SAM 3.1 ComfyUI#
- Checkpoint Comfy-Org SAM 3.1 Multiplex FP16. Os pesos sam3.1_multiplex_fp16 potenciam a segmentação de imagem guiada por prompts e o rastreador usado pelos nós SAM 3.1. Carregue-o com
CheckpointLoaderSimplee ele fornece o modelo e o condicionamento de texto usado em todo o workflow. Fonte: Comfy-Org/sam3.1.
Como usar o workflow Comfyui SAM 3.1 ComfyUI#
O gráfico possui duas vias independentes. A máscara de imagem permite segmentar uma imagem estática e visualizar caixas delimitadoras para QA rápido. A máscara de vídeo inicializa uma máscara em um quadro de referência, rastreia o objeto ao longo do clipe, pré-visualiza o rastreamento e exporta máscaras para edição ou composição.
Máscara de Imagem#
Esta via é ideal para quadros únicos ou para prototipar seu prompt antes de executar o rastreamento. Comece carregando uma imagem com LoadImage (#4) e escrevendo um prompt de texto curto em CLIPTextEncode (#3), por exemplo "um pássaro" ou "carro vermelho". O condicionamento de texto e a imagem são alimentados para SAM3_Detect (#1), que retorna tanto uma máscara quanto caixas delimitadoras automáticas ao redor do sujeito detectado. Use MaskPreview+ (#5) para inspecionar visualmente a máscara e DrawBBoxes (#6) além de PreviewImage (#7) para confirmar a colocação da caixa. Se a seleção for ambígua, refine o texto, adicione pontos positivos ou negativos, ou forneça uma caixa mais apertada para direcionar o SAM 3.1 ComfyUI para o objeto pretendido.
Máscara de Vídeo#
Esta via escala a mesma segmentação guiada por prompts para clipes completos. Carregue um vídeo em VHS_LoadVideoPath (#12); ele fornece quadros e metadados para o restante do gráfico. Um quadro de referência é escolhido com ImageFromBatch (#15) e descrito em texto via CLIPTextEncode (#14). SAM3_Detect (#13) gera a máscara inicial nesse quadro, que serve como semente para SAM3_VideoTrack (#8) seguir o objeto nos quadros restantes usando o mesmo modelo e condicionamento de texto. Converta o rastreamento resultante em máscaras por quadro com SAM3_TrackToMask (#9). Para uma pré-visualização binária rápida ou inverter primeiro plano/fundo, as máscaras passam por InvertMask (#19) e MaskToImage (#16), então VHS_VideoCombine (#17) pode renderizar um vídeo de máscara simples. Para uma visão interativa do resultado sobre os quadros originais, SAM3_TrackPreview (#10) reproduz a sobreposição na taxa de quadros de origem fornecida por VHS_VideoInfoLoaded (#18). Ajuste o quadro inicial ou o prompt se perceber deslocamento, então reexecute para travar o rastreamento antes de exportar.
Nós principais no workflow Comfyui SAM 3.1 ComfyUI#
SAM3_Detect (#1)#
Gera uma máscara de objeto e caixas delimitadoras para uma imagem estática com base no seu prompt e pontos ou caixas opcionais. Use-o para validar rapidamente sua escolha de sujeito no SAM 3.1 ComfyUI. Se a máscara parecer muito ampla ou incluir semelhantes, aperte a descrição textual ou desenhe uma caixa mais restrita para melhorar a separação.
SAM3_Detect (#13)#
Inicia o rastreador de vídeo produzindo uma máscara limpa em um quadro de referência escolhido. A qualidade do rastreamento no SAM 3.1 ComfyUI depende fortemente dessa semente, então escolha um quadro onde o alvo esteja visível e minimamente ocluído. Se o sujeito mudar de aparência posteriormente, reinicialize a partir de outro quadro e concatene os resultados no seu editor.
SAM3_VideoTrack (#8)#
Propaga a máscara inicial pelo clipe usando o mesmo modelo e prompt de texto. Mantenha o condicionamento consistente com a semente para evitar prender-se a objetos semelhantes. Ao rastrear um sujeito pequeno ou em movimento rápido, comece de um quadro com uma semente confiante e considere encurtar o segmento se a iluminação ou a escala mudarem drasticamente.
SAM3_TrackToMask (#9)#
Converte a saída do rastreador em uma sequência de máscaras para exportação. Você pode exportar todos os quadros ou selecionar um subconjunto entrando com índices ou intervalos simples. Este é o ponto de entrega para escrever uma pré-visualização de vídeo ou salvar uma sequência de PNGs para composição na sua ferramenta preferida.
SAM3_TrackPreview (#10)#
Reproduz o resultado rastreado sobre os quadros originais para controle de qualidade instantâneo. A pré-visualização usa a taxa de quadros de origem reportada por VHS_VideoInfoLoaded (#18) para que o tempo corresponda ao seu clipe. Use-o para identificar deslocamento, falhas de oclusão ou trocas de identidade antes de se comprometer com uma exportação completa.
Extras opcionais#
- Use caixas delimitadoras para desambiguar quando seu prompt de texto corresponder a vários sujeitos no quadro.
- Se o alvo mudar de escala ou iluminação no meio do clipe, divida o vídeo em segmentos lógicos e reseme
SAM3_Detect(#13) por segmento para um rastreamento mais estável. - Para exportações de máscara como uma sequência de imagens, direcione
SAM3_TrackToMask(#9) para um nóSaveImageem vez deVHS_VideoCombine(#17). - Mantenha os prompts curtos e específicos. No SAM 3.1 ComfyUI, substantivos concisos com um atributo chave frequentemente superam longas prosas.
- Quando você só precisa de uma máscara estática de um quadro específico, execute a Máscara de Imagem nesse quadro diretamente para pular o rastreamento e economizar tempo.
Agradecimentos#
Este workflow implementa e se baseia nos seguintes trabalhos e recursos. Agradecemos imensamente a Innovate Futures @ Benji pelo ComfyUI com o workflow de segmentação SAM 3.1, Comfy-Org pelos arquivos do modelo SAM 3.1 e Comfy-Org pelo PR de suporte nativo ao ComfyUI SAM 3.1 por suas contribuições e manutenção. Para detalhes autoritativos, consulte a documentação original e os repositórios vinculados abaixo.
Recursos#
- Innovate Futures @ Benji/Fonte do Workflow
- Documentação / Notas de Lançamento: ComfyUI Com Suporte Nativo a Segmentação SAM 3.1! Nenhum Nó Personalizado Necessário @Benji's AI Playground
- Arquivos do modelo Comfy-Org/SAM 3.1
- GitHub: facebookresearch/sam3
- Hugging Face: Comfy-Org/sam3.1
- arXiv: SAM 3: Segment Anything with Concepts (2511.16719)
- Documentação / Notas de Lançamento: RELEASE_SAM3p1.md
- Suporte Nativo Comfy-Org/ComfyUI SAM 3.1 PR
- GitHub: Comfy-Org/ComfyUI#13408
Nota: O uso dos modelos, conjuntos de dados e códigos referenciados está sujeito às respectivas licenças e termos fornecidos por seus autores e mantenedores.

