logo
RunComfy
ComfyUIPlaygroundPricing
discord logo
ComfyUI>Fluxos de Trabalho>ComfyUI Grounding | Fluxo de Trabalho de Rastreamento de Objetos

ComfyUI Grounding | Fluxo de Trabalho de Rastreamento de Objetos

Workflow Name: RunComfy/ComfyUI-Grounding
Workflow ID: 0000...1310
Este fluxo de trabalho ajuda você a isolar e rastrear objetos em quadros de vídeo com precisão de nível de pixel. Permite gerar máscaras limpas e consistentes e dados de movimento para composição e tarefas avançadas de VFX. Seja para isolar personagens, limpar o fundo ou realizar edições direcionadas, ele proporciona rastreamento confiável sempre. Você pode guiar o processo com prompts de texto ou referências visuais. Perfeito para criadores que buscam segmentação precisa e consistente em quadros para efeitos visuais e edição impulsionada por IA.

ComfyUI Grounding: Detecção orientada, segmentação precisa e sobreposições de vídeo

Este fluxo de trabalho embala o ComfyUI Grounding em três caminhos práticos para lotes de imagens, imagens únicas e vídeos. Converte prompts de linguagem natural em caixas delimitadoras de objetos e máscaras de alta qualidade, depois pré-visualiza composições RGBA ou escreve vídeos anotados com áudio preservado. Artistas, editores e generalistas de VFX podem isolar rapidamente assuntos, remover fundos e gerar sobreposições limpas para composição.

Construído com detecção de vocabulário aberto e segmentação moderna, o ComfyUI Grounding é confiável para uma variedade de assuntos e cenas. Você pode direcionar a seleção com prompts curtos, refinar com segmentação e manter o tempo dos quadros intacto ao fazer round-tripping de vídeo.

Modelos principais no fluxo de trabalho Comfyui ComfyUI Grounding

  • Microsoft Florence-2 Large. Um modelo de visão-linguagem que suporta detecção de vocabulário aberto a partir de prompts de linguagem natural, permitindo propostas de caixas flexíveis para objetos arbitrários. Model card
  • Segment Anything 2 (SAM 2). Um modelo de fundação de segmentação que transforma pontos ou caixas em máscaras nítidas; aqui refina as detecções do Florence-2 em seleções precisas de pixels. Repository

Como usar o fluxo de trabalho Comfyui ComfyUI Grounding

O fluxo de trabalho contém quatro grupos autônomos. Escolha o caminho que corresponde à sua tarefa; cada um pode ser executado de forma independente.

Lote - Normal

Este caminho processa uma pasta de imagens e gera composições RGBA. LoadImagesFromFolderKJ (#9) lê seu lote, enquanto GroundingModelLoader (#3) traz o Florence-2. Forneça um prompt curto em GroundingDetector (#1) para propor caixas ao redor do seu alvo; ajuste a confiança se perceber falhas ou falsos positivos. DownLoadSAM2Model (#12) carrega o SAM 2 e Sam2Segment (#11) converte as caixas em uma máscara limpa. Opcionalmente, inverta a seleção com InvertMask (#15) e visualize o recorte com alfa usando JoinImageWithAlpha (#14) e PreviewImage (#17).

Normal - Imagem

Use isso para verificações rápidas de prompts em um único quadro. LoadImage (#24) traz sua imagem e GroundingDetector (#25) desenha caixas rotuladas com base no seu prompt de texto. PreviewImage (#26) mostra o resultado anotado para que você possa iterar nas palavras antes do trabalho em lote ou vídeo.

Segmentar - Máscara

Este caminho cria uma sobreposição de segmentação orientada por texto em um único passo. GroundingMaskModelLoader (#21) carrega o modelo de máscara e LoadImage (#18) fornece o quadro. Digite uma instrução descritiva em GroundingMaskDetector (#22) para obter diretamente uma máscara e uma pré-visualização sobreposta; PreviewImage (#20) exibe a composição, enquanto PreviewAny (#19) mostra a string de instrução resolvida. É ideal quando você deseja uma seleção semântica rápida sem detecção e refinamento separados.

Normal - Vídeo

Este caminho sobrepõe detecções em quadros de vídeo e reencoda um clipe sincronizado. VHS_LoadVideo (#32) importa quadros e áudio, e GroundingModelLoader (#30) fornece o Florence-2. Defina um prompt como “faces” em GroundingDetector (#28) para desenhar caixas por quadro. VHS_VideoInfo (#40) encaminha a taxa de quadros carregada para VHS_VideoCombine (#39), que escreve um MP4 com o áudio original e o tempo correspondente. O resultado é um vídeo anotado pronto para compartilhamento para revisão ou planejamento de filmagem.

Nós principais no fluxo de trabalho Comfyui ComfyUI Grounding

GroundingDetector (#1)

Detector principal que transforma seu prompt de texto em caixas delimitadoras. Aumente o limite de pontuação para menos falsos positivos; diminua se o alvo for pequeno ou parcialmente oculto. Mantenha os prompts curtos e específicos, por exemplo, “guarda-chuva vermelho” em vez de frases longas. Use este nó para impulsionar tanto a segmentação quanto as etapas de visualização a jusante.

Sam2Segment (#11)

Refina caixas grosseiras em máscaras nítidas usando o SAM 2. Alimente-o com caixas do GroundingDetector; adicione alguns pontos positivos ou negativos apenas quando o limite precisar de orientação extra. Se o assunto e o fundo se inverterem, combine com InvertMask para o recorte pretendido. Use o resultado sempre que uma máscara alfa for necessária.

GroundingMaskDetector (#22)

Gera uma máscara semântica diretamente de uma instrução de linguagem natural. Isso é melhor quando você deseja uma seleção de um clique sem montar uma cadeia de detecção para segmentação. Aperte o texto e aumente a confiança se várias regiões estiverem sendo captadas; amplie a redação para incluir variações quando o assunto for perdido.

JoinImageWithAlpha (#14)

Composita a imagem original com a máscara em uma saída RGBA para editores a jusante. Use-o quando precisar de fundos transparentes, efeitos seletivos ou trabalho de comp em camadas. Combine com InvertMask para alternar entre isolar o sujeito e cortar o sujeito.

VHS_LoadVideo (#32)

Divide um vídeo em quadros e extrai áudio para processamento. Se sua fonte tiver uma taxa de quadros variável, confie na taxa de quadros carregada que ele relata para manter o tempo consistente. Este nó é o ponto de entrada para qualquer detecção ou segmentação quadro a quadro em um clipe.

VHS_VideoCombine (#39)

Reencoda quadros processados em um MP4 enquanto preserva o áudio. Combine a taxa de quadros com o valor relatado a montante para evitar desvio de tempo. Use o prefixo do nome do arquivo para manter diferentes execuções organizadas na sua pasta de saída.

Extras opcionais

  • Mantenha os prompts do ComfyUI Grounding curtos e focados em substantivos; adicione um ou dois atributos quando necessário, por exemplo, “escavadeira amarela” ou “vocalista com óculos”.
  • Para cenas movimentadas, aumente a confiança do detector e reduza a contagem máxima de caixas para estabilizar os resultados antes de enviar as caixas para o SAM 2.
  • Ao preparar vídeos, corte ou subamostre na importação para iterações mais rápidas, depois mude de volta para contagens de quadros completas para renderizações finais.
  • Se você principalmente precisar de máscaras semânticas sem controle de caixa, execute o caminho Segmentar - Máscara; caso contrário, prefira a rota detector mais SAM 2 para bordas precisas.
  • Os nós vêm da extensão ComfyUI Grounding; veja o projeto para atualizações e modelos suportados. Repository

Agradecimentos

Este fluxo de trabalho implementa e se baseia nos seguintes trabalhos e recursos. Agradecemos profundamente a PozzettiAndrea por ComfyUI-Grounding por suas contribuições e manutenção. Para detalhes autoritativos, consulte a documentação original e os repositórios vinculados abaixo.

Recursos

  • PozzettiAndrea/ComfyUI-Grounding
    • GitHub: ComfyUI-Grounding

Nota: O uso dos modelos, conjuntos de dados e código referenciados está sujeito às respectivas licenças e termos fornecidos por seus autores e mantenedores.

Want More ComfyUI Workflows?

Estilo Parchment com Unsampling

Converta seu vídeo em animações no estilo parchment usando o método Unsampling.

Estilo de Argila com Unsampling

Converta seu vídeo em estilo de argila usando o método Unsampling.

Efeitos de Animação Gráfica em Movimento | Vid2Vid

Alcance efeitos de animação gráfica em movimento a partir de um vídeo de entrada pré-existente.

Transferência de Estilo Consistente com Unsampling

Controlar o ruído latente com Unsampling ajuda a aumentar dramaticamente a consistência na transferência de estilo de vídeo.

DiffuEraser | Pintura de Vídeo

Remova objetos de vídeos com mascaramento automático e reconstrução realista.

Hunyuan Image 2.1 | Gerador de Imagens de IA em Alta Resolução

Modelo de próxima geração 2.1 para visuais de IA nítidos, claros e ultra-definidos rapidamente.

Flux Redux | Variação e Restilização

Flux Tools Oficial - Flux Redux para Variação e Restilização de Imagens

OmniGen2 | Texto para Imagem & Edição

Modelo unificado poderoso para geração e edição de imagens

Siga-nos
  • LinkedIn
  • Facebook
  • Instagram
  • Twitter
Suporte
  • Discord
  • E-mail
  • Status do Sistema
  • afiliado
Recursos
  • ComfyUI Online Gratuito
  • Guias do ComfyUI
  • RunComfy API
  • Tutoriais do ComfyUI
  • Nós do ComfyUI
  • Saiba Mais
Legal
  • Termos de Serviço
  • Política de Privacidade
  • Política de Cookies
RunComfy
Copyright 2025 RunComfy. Todos os Direitos Reservados.

RunComfy é a principal ComfyUI plataforma, oferecendo ComfyUI online ambiente e serviços, juntamente com fluxos de trabalho do ComfyUI apresentando visuais impressionantes. RunComfy também oferece AI Playground, permitindo que artistas utilizem as mais recentes ferramentas de AI para criar arte incrível.