ComfyUI Grounding Workflow

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

ComfyUI Grounding Examples

ComfyUI Grounding: Detecção orientada, segmentação precisa e sobreposições de vídeo#

Este fluxo de trabalho embala o ComfyUI Grounding em três caminhos práticos para lotes de imagens, imagens únicas e vídeos. Converte prompts de linguagem natural em caixas delimitadoras de objetos e máscaras de alta qualidade, depois pré-visualiza composições RGBA ou escreve vídeos anotados com áudio preservado. Artistas, editores e generalistas de VFX podem isolar rapidamente assuntos, remover fundos e gerar sobreposições limpas para composição.

Construído com detecção de vocabulário aberto e segmentação moderna, o ComfyUI Grounding é confiável para uma variedade de assuntos e cenas. Você pode direcionar a seleção com prompts curtos, refinar com segmentação e manter o tempo dos quadros intacto ao fazer round-tripping de vídeo.

Modelos principais no fluxo de trabalho Comfyui ComfyUI Grounding#

Microsoft Florence-2 Large. Um modelo de visão-linguagem que suporta detecção de vocabulário aberto a partir de prompts de linguagem natural, permitindo propostas de caixas flexíveis para objetos arbitrários. Model card
Segment Anything 2 (SAM 2). Um modelo de fundação de segmentação que transforma pontos ou caixas em máscaras nítidas; aqui refina as detecções do Florence-2 em seleções precisas de pixels. Repository

Como usar o fluxo de trabalho Comfyui ComfyUI Grounding#

O fluxo de trabalho contém quatro grupos autônomos. Escolha o caminho que corresponde à sua tarefa; cada um pode ser executado de forma independente.

Lote - Normal#

Este caminho processa uma pasta de imagens e gera composições RGBA. LoadImagesFromFolderKJ (#9) lê seu lote, enquanto GroundingModelLoader (#3) traz o Florence-2. Forneça um prompt curto em GroundingDetector (#1) para propor caixas ao redor do seu alvo; ajuste a confiança se perceber falhas ou falsos positivos. DownLoadSAM2Model (#12) carrega o SAM 2 e Sam2Segment (#11) converte as caixas em uma máscara limpa. Opcionalmente, inverta a seleção com InvertMask (#15) e visualize o recorte com alfa usando JoinImageWithAlpha (#14) e PreviewImage (#17).

Normal - Imagem#

Use isso para verificações rápidas de prompts em um único quadro. LoadImage (#24) traz sua imagem e GroundingDetector (#25) desenha caixas rotuladas com base no seu prompt de texto. PreviewImage (#26) mostra o resultado anotado para que você possa iterar nas palavras antes do trabalho em lote ou vídeo.

Segmentar - Máscara#

Este caminho cria uma sobreposição de segmentação orientada por texto em um único passo. GroundingMaskModelLoader (#21) carrega o modelo de máscara e LoadImage (#18) fornece o quadro. Digite uma instrução descritiva em GroundingMaskDetector (#22) para obter diretamente uma máscara e uma pré-visualização sobreposta; PreviewImage (#20) exibe a composição, enquanto PreviewAny (#19) mostra a string de instrução resolvida. É ideal quando você deseja uma seleção semântica rápida sem detecção e refinamento separados.

Normal - Vídeo#

Este caminho sobrepõe detecções em quadros de vídeo e reencoda um clipe sincronizado. VHS_LoadVideo (#32) importa quadros e áudio, e GroundingModelLoader (#30) fornece o Florence-2. Defina um prompt como “faces” em GroundingDetector (#28) para desenhar caixas por quadro. VHS_VideoInfo (#40) encaminha a taxa de quadros carregada para VHS_VideoCombine (#39), que escreve um MP4 com o áudio original e o tempo correspondente. O resultado é um vídeo anotado pronto para compartilhamento para revisão ou planejamento de filmagem.

Nós principais no fluxo de trabalho Comfyui ComfyUI Grounding#

`GroundingDetector` (#1)#

Detector principal que transforma seu prompt de texto em caixas delimitadoras. Aumente o limite de pontuação para menos falsos positivos; diminua se o alvo for pequeno ou parcialmente oculto. Mantenha os prompts curtos e específicos, por exemplo, “guarda-chuva vermelho” em vez de frases longas. Use este nó para impulsionar tanto a segmentação quanto as etapas de visualização a jusante.

`Sam2Segment` (#11)#

Refina caixas grosseiras em máscaras nítidas usando o SAM 2. Alimente-o com caixas do GroundingDetector; adicione alguns pontos positivos ou negativos apenas quando o limite precisar de orientação extra. Se o assunto e o fundo se inverterem, combine com InvertMask para o recorte pretendido. Use o resultado sempre que uma máscara alfa for necessária.

`GroundingMaskDetector` (#22)#

Gera uma máscara semântica diretamente de uma instrução de linguagem natural. Isso é melhor quando você deseja uma seleção de um clique sem montar uma cadeia de detecção para segmentação. Aperte o texto e aumente a confiança se várias regiões estiverem sendo captadas; amplie a redação para incluir variações quando o assunto for perdido.

`JoinImageWithAlpha` (#14)#

Composita a imagem original com a máscara em uma saída RGBA para editores a jusante. Use-o quando precisar de fundos transparentes, efeitos seletivos ou trabalho de comp em camadas. Combine com InvertMask para alternar entre isolar o sujeito e cortar o sujeito.

`VHS_LoadVideo` (#32)#

Divide um vídeo em quadros e extrai áudio para processamento. Se sua fonte tiver uma taxa de quadros variável, confie na taxa de quadros carregada que ele relata para manter o tempo consistente. Este nó é o ponto de entrada para qualquer detecção ou segmentação quadro a quadro em um clipe.

`VHS_VideoCombine` (#39)#

Reencoda quadros processados em um MP4 enquanto preserva o áudio. Combine a taxa de quadros com o valor relatado a montante para evitar desvio de tempo. Use o prefixo do nome do arquivo para manter diferentes execuções organizadas na sua pasta de saída.

Extras opcionais#

Mantenha os prompts do ComfyUI Grounding curtos e focados em substantivos; adicione um ou dois atributos quando necessário, por exemplo, “escavadeira amarela” ou “vocalista com óculos”.
Para cenas movimentadas, aumente a confiança do detector e reduza a contagem máxima de caixas para estabilizar os resultados antes de enviar as caixas para o SAM 2.
Ao preparar vídeos, corte ou subamostre na importação para iterações mais rápidas, depois mude de volta para contagens de quadros completas para renderizações finais.
Se você principalmente precisar de máscaras semânticas sem controle de caixa, execute o caminho Segmentar - Máscara; caso contrário, prefira a rota detector mais SAM 2 para bordas precisas.
Os nós vêm da extensão ComfyUI Grounding; veja o projeto para atualizações e modelos suportados. Repository

Agradecimentos#

Este fluxo de trabalho implementa e se baseia nos seguintes trabalhos e recursos. Agradecemos profundamente a PozzettiAndrea por ComfyUI-Grounding por suas contribuições e manutenção. Para detalhes autoritativos, consulte a documentação original e os repositórios vinculados abaixo.

Recursos#

PozzettiAndrea/ComfyUI-Grounding
- GitHub: ComfyUI-Grounding

Nota: O uso dos modelos, conjuntos de dados e código referenciados está sujeito às respectivas licenças e termos fornecidos por seus autores e mantenedores.

Want More ComfyUI Workflows?

Estilo Parchment com Unsampling

Converta seu vídeo em animações no estilo parchment usando o método Unsampling.

Estilo de Argila com Unsampling

Converta seu vídeo em estilo de argila usando o método Unsampling.

Efeitos de Animação Gráfica em Movimento | Vid2Vid

Alcance efeitos de animação gráfica em movimento a partir de um vídeo de entrada pré-existente.

Transferência de Estilo Consistente com Unsampling

Controlar o ruído latente com Unsampling ajuda a aumentar dramaticamente a consistência na transferência de estilo de vídeo.

DiffuEraser | Pintura de Vídeo

Remova objetos de vídeos com mascaramento automático e reconstrução realista.

SVD + FreeU | Imagem para Vídeo

Incorpore o FreeU com o SVD para melhorar a qualidade da conversão de imagem para vídeo sem custos adicionais.

APISR | Upscaler de Imagem/Vídeo de Anime

O modelo APISR aprimora e restaura imagens e vídeos de anime, tornando seus visuais mais vibrantes e nítidos.

IC-Light | Reiluminação de Imagens

Edite planos de fundo, melhore a iluminação e regenere novas cenas facilmente.

Suporte

Recursos

Legal

RunComfy

RunComfy é a principal ComfyUI plataforma, oferecendo ComfyUI online ambiente e serviços, juntamente com fluxos de trabalho do ComfyUI apresentando visuais impressionantes. RunComfy também oferece AI Models, permitindo que artistas utilizem as mais recentes ferramentas de AI para criar arte incrível.

ComfyUI Grounding | Fluxo de Trabalho de Rastreamento de Objetos