logo
RunComfy
  • Models
  • ComfyUI
  • TrainerNew
  • API
  • Pricing
discord logo
ComfyUI>Fluxos de Trabalho>ComfyUI Grounding | Fluxo de Trabalho de Rastreamento de Objetos

ComfyUI Grounding | Fluxo de Trabalho de Rastreamento de Objetos

Workflow Name: RunComfy/ComfyUI-Grounding
Workflow ID: 0000...1310
Este fluxo de trabalho ajuda você a isolar e rastrear objetos em quadros de vídeo com precisão de nível de pixel. Permite gerar máscaras limpas e consistentes e dados de movimento para composição e tarefas avançadas de VFX. Seja para isolar personagens, limpar o fundo ou realizar edições direcionadas, ele proporciona rastreamento confiável sempre. Você pode guiar o processo com prompts de texto ou referências visuais. Perfeito para criadores que buscam segmentação precisa e consistente em quadros para efeitos visuais e edição impulsionada por IA.

ComfyUI Grounding: Detecção orientada, segmentação precisa e sobreposições de vídeo

Este fluxo de trabalho embala o ComfyUI Grounding em três caminhos práticos para lotes de imagens, imagens únicas e vídeos. Converte prompts de linguagem natural em caixas delimitadoras de objetos e máscaras de alta qualidade, depois pré-visualiza composições RGBA ou escreve vídeos anotados com áudio preservado. Artistas, editores e generalistas de VFX podem isolar rapidamente assuntos, remover fundos e gerar sobreposições limpas para composição.

Construído com detecção de vocabulário aberto e segmentação moderna, o ComfyUI Grounding é confiável para uma variedade de assuntos e cenas. Você pode direcionar a seleção com prompts curtos, refinar com segmentação e manter o tempo dos quadros intacto ao fazer round-tripping de vídeo.

Modelos principais no fluxo de trabalho Comfyui ComfyUI Grounding

  • Microsoft Florence-2 Large. Um modelo de visão-linguagem que suporta detecção de vocabulário aberto a partir de prompts de linguagem natural, permitindo propostas de caixas flexíveis para objetos arbitrários. Model card
  • Segment Anything 2 (SAM 2). Um modelo de fundação de segmentação que transforma pontos ou caixas em máscaras nítidas; aqui refina as detecções do Florence-2 em seleções precisas de pixels. Repository

Como usar o fluxo de trabalho Comfyui ComfyUI Grounding

O fluxo de trabalho contém quatro grupos autônomos. Escolha o caminho que corresponde à sua tarefa; cada um pode ser executado de forma independente.

Lote - Normal

Este caminho processa uma pasta de imagens e gera composições RGBA. LoadImagesFromFolderKJ (#9) lê seu lote, enquanto GroundingModelLoader (#3) traz o Florence-2. Forneça um prompt curto em GroundingDetector (#1) para propor caixas ao redor do seu alvo; ajuste a confiança se perceber falhas ou falsos positivos. DownLoadSAM2Model (#12) carrega o SAM 2 e Sam2Segment (#11) converte as caixas em uma máscara limpa. Opcionalmente, inverta a seleção com InvertMask (#15) e visualize o recorte com alfa usando JoinImageWithAlpha (#14) e PreviewImage (#17).

Normal - Imagem

Use isso para verificações rápidas de prompts em um único quadro. LoadImage (#24) traz sua imagem e GroundingDetector (#25) desenha caixas rotuladas com base no seu prompt de texto. PreviewImage (#26) mostra o resultado anotado para que você possa iterar nas palavras antes do trabalho em lote ou vídeo.

Segmentar - Máscara

Este caminho cria uma sobreposição de segmentação orientada por texto em um único passo. GroundingMaskModelLoader (#21) carrega o modelo de máscara e LoadImage (#18) fornece o quadro. Digite uma instrução descritiva em GroundingMaskDetector (#22) para obter diretamente uma máscara e uma pré-visualização sobreposta; PreviewImage (#20) exibe a composição, enquanto PreviewAny (#19) mostra a string de instrução resolvida. É ideal quando você deseja uma seleção semântica rápida sem detecção e refinamento separados.

Normal - Vídeo

Este caminho sobrepõe detecções em quadros de vídeo e reencoda um clipe sincronizado. VHS_LoadVideo (#32) importa quadros e áudio, e GroundingModelLoader (#30) fornece o Florence-2. Defina um prompt como “faces” em GroundingDetector (#28) para desenhar caixas por quadro. VHS_VideoInfo (#40) encaminha a taxa de quadros carregada para VHS_VideoCombine (#39), que escreve um MP4 com o áudio original e o tempo correspondente. O resultado é um vídeo anotado pronto para compartilhamento para revisão ou planejamento de filmagem.

Nós principais no fluxo de trabalho Comfyui ComfyUI Grounding

GroundingDetector (#1)

Detector principal que transforma seu prompt de texto em caixas delimitadoras. Aumente o limite de pontuação para menos falsos positivos; diminua se o alvo for pequeno ou parcialmente oculto. Mantenha os prompts curtos e específicos, por exemplo, “guarda-chuva vermelho” em vez de frases longas. Use este nó para impulsionar tanto a segmentação quanto as etapas de visualização a jusante.

Sam2Segment (#11)

Refina caixas grosseiras em máscaras nítidas usando o SAM 2. Alimente-o com caixas do GroundingDetector; adicione alguns pontos positivos ou negativos apenas quando o limite precisar de orientação extra. Se o assunto e o fundo se inverterem, combine com InvertMask para o recorte pretendido. Use o resultado sempre que uma máscara alfa for necessária.

GroundingMaskDetector (#22)

Gera uma máscara semântica diretamente de uma instrução de linguagem natural. Isso é melhor quando você deseja uma seleção de um clique sem montar uma cadeia de detecção para segmentação. Aperte o texto e aumente a confiança se várias regiões estiverem sendo captadas; amplie a redação para incluir variações quando o assunto for perdido.

JoinImageWithAlpha (#14)

Composita a imagem original com a máscara em uma saída RGBA para editores a jusante. Use-o quando precisar de fundos transparentes, efeitos seletivos ou trabalho de comp em camadas. Combine com InvertMask para alternar entre isolar o sujeito e cortar o sujeito.

VHS_LoadVideo (#32)

Divide um vídeo em quadros e extrai áudio para processamento. Se sua fonte tiver uma taxa de quadros variável, confie na taxa de quadros carregada que ele relata para manter o tempo consistente. Este nó é o ponto de entrada para qualquer detecção ou segmentação quadro a quadro em um clipe.

VHS_VideoCombine (#39)

Reencoda quadros processados em um MP4 enquanto preserva o áudio. Combine a taxa de quadros com o valor relatado a montante para evitar desvio de tempo. Use o prefixo do nome do arquivo para manter diferentes execuções organizadas na sua pasta de saída.

Extras opcionais

  • Mantenha os prompts do ComfyUI Grounding curtos e focados em substantivos; adicione um ou dois atributos quando necessário, por exemplo, “escavadeira amarela” ou “vocalista com óculos”.
  • Para cenas movimentadas, aumente a confiança do detector e reduza a contagem máxima de caixas para estabilizar os resultados antes de enviar as caixas para o SAM 2.
  • Ao preparar vídeos, corte ou subamostre na importação para iterações mais rápidas, depois mude de volta para contagens de quadros completas para renderizações finais.
  • Se você principalmente precisar de máscaras semânticas sem controle de caixa, execute o caminho Segmentar - Máscara; caso contrário, prefira a rota detector mais SAM 2 para bordas precisas.
  • Os nós vêm da extensão ComfyUI Grounding; veja o projeto para atualizações e modelos suportados. Repository

Agradecimentos

Este fluxo de trabalho implementa e se baseia nos seguintes trabalhos e recursos. Agradecemos profundamente a PozzettiAndrea por ComfyUI-Grounding por suas contribuições e manutenção. Para detalhes autoritativos, consulte a documentação original e os repositórios vinculados abaixo.

Recursos

  • PozzettiAndrea/ComfyUI-Grounding
    • GitHub: ComfyUI-Grounding

Nota: O uso dos modelos, conjuntos de dados e código referenciados está sujeito às respectivas licenças e termos fornecidos por seus autores e mantenedores.

Want More ComfyUI Workflows?

Estilo Parchment com Unsampling

Converta seu vídeo em animações no estilo parchment usando o método Unsampling.

Estilo de Argila com Unsampling

Converta seu vídeo em estilo de argila usando o método Unsampling.

Efeitos de Animação Gráfica em Movimento | Vid2Vid

Alcance efeitos de animação gráfica em movimento a partir de um vídeo de entrada pré-existente.

Transferência de Estilo Consistente com Unsampling

Controlar o ruído latente com Unsampling ajuda a aumentar dramaticamente a consistência na transferência de estilo de vídeo.

DiffuEraser | Pintura de Vídeo

Remova objetos de vídeos com mascaramento automático e reconstrução realista.

Fácil Ampliador de Vídeo para Filmagens | Aperfeiçoamento HD Profissional

Transforme clipes de baixa resolução em vídeos HD nítidos e naturais rapidamente.

IPAdapter V1 + AnimateDiff + ControlNet | Arte de Movimento

Descubra o uso inovador do IPAdapter para criar arte de movimento deslumbrante.

Gere MUNDOS INTEIROS DE IA Construtor de Cenas de Vídeo

Transforme filmagens simples em paisagens cinematográficas de IA de maneira instantânea

Siga-nos
  • LinkedIn
  • Facebook
  • Instagram
  • Twitter
Suporte
  • Discord
  • E-mail
  • Status do Sistema
  • afiliado
Recursos
  • ComfyUI Online Gratuito
  • Guias do ComfyUI
  • RunComfy API
  • Tutoriais do ComfyUI
  • Nós do ComfyUI
  • Saiba Mais
Legal
  • Termos de Serviço
  • Política de Privacidade
  • Política de Cookies
RunComfy
Copyright 2026 RunComfy. Todos os Direitos Reservados.

RunComfy é a principal ComfyUI plataforma, oferecendo ComfyUI online ambiente e serviços, juntamente com fluxos de trabalho do ComfyUI apresentando visuais impressionantes. RunComfy também oferece AI Models, permitindo que artistas utilizem as mais recentes ferramentas de AI para criar arte incrível.