logo
RunComfy
ComfyUIPlaygroundPricing
discord logo
ComfyUI>Flujos de trabajo>ComfyUI Grounding | Flujo de Trabajo de Seguimiento de Objetos

ComfyUI Grounding | Flujo de Trabajo de Seguimiento de Objetos

Workflow Name: RunComfy/ComfyUI-Grounding
Workflow ID: 0000...1310
Este flujo de trabajo le ayuda a aislar y rastrear objetos a través de fotogramas de video con precisión a nivel de píxel. Le permite generar máscaras limpias y consistentes y datos de movimiento para composiciones y tareas avanzadas de VFX. Ya sea que necesite aislamiento de personajes, limpieza de fondo o ediciones específicas, proporciona un seguimiento confiable cada vez. Puede guiar el proceso con indicaciones de texto o referencias visuales. Perfecto para creadores que buscan segmentación precisa y consistente por fotograma para efectos visuales y edición impulsada por IA.

ComfyUI Grounding: Detección con indicaciones, segmentación precisa y superposiciones de video

Este flujo de trabajo empaqueta ComfyUI Grounding en tres caminos prácticos para lotes de imágenes, imágenes individuales y videos. Convierte indicaciones en lenguaje natural en cuadros delimitadores de objetos y máscaras de alta calidad, luego previsualiza composiciones RGBA o escribe videos anotados con audio preservado. Artistas, editores y generalistas de VFX pueden aislar rápidamente sujetos, eliminar fondos y generar superposiciones limpias para la composición.

Construido sobre detección de vocabulario abierto y segmentación moderna, ComfyUI Grounding es confiable para sujetos y escenas variados. Puede impulsar la selección con indicaciones cortas, refinar con segmentación y mantener el tiempo de fotogramas intacto al procesar videos.

Modelos clave en el flujo de trabajo de Comfyui ComfyUI Grounding

  • Microsoft Florence-2 Large. Un modelo de visión-lenguaje que admite detección de vocabulario abierto a partir de indicaciones en lenguaje natural, permitiendo propuestas de cuadros flexibles para objetos arbitrarios. Model card
  • Segment Anything 2 (SAM 2). Un modelo de segmentación que convierte puntos o cuadros en máscaras nítidas; aquí refina las detecciones de Florence-2 en selecciones precisas a nivel de píxel. Repository

Cómo usar el flujo de trabajo de Comfyui ComfyUI Grounding

El flujo de trabajo contiene cuatro grupos autónomos. Elija el camino que coincida con su tarea; cada uno puede ejecutarse de forma independiente.

Lote - Normal

Este camino procesa una carpeta de imágenes y genera composiciones RGBA. LoadImagesFromFolderKJ (#9) lee su lote, mientras que GroundingModelLoader (#3) incorpora Florence-2. Proporcione una breve indicación en GroundingDetector (#1) para proponer cuadros alrededor de su objetivo; ajuste la confianza si observa fallos o falsos positivos. DownLoadSAM2Model (#12) carga SAM 2 y Sam2Segment (#11) convierte los cuadros en una máscara limpia. Opcionalmente invierta la selección con InvertMask (#15) y previsualice el recorte con alfa usando JoinImageWithAlpha (#14) y PreviewImage (#17).

Normal - Imagen

Utilice esto para verificar rápidamente indicaciones en un solo fotograma. LoadImage (#24) trae su imagen y GroundingDetector (#25) dibuja cuadros etiquetados según su indicación de texto. PreviewImage (#26) muestra el resultado anotado para que pueda iterar en la redacción antes de trabajar en lotes o videos.

Segmento - Máscara

Este camino crea una superposición de segmentación impulsada por texto en un solo paso. GroundingMaskModelLoader (#21) carga el modelo de máscara y LoadImage (#18) suministra el fotograma. Escriba una instrucción descriptiva en GroundingMaskDetector (#22) para obtener directamente una máscara y una previsualización superpuesta; PreviewImage (#20) muestra la composición, mientras que PreviewAny (#19) muestra la cadena de instrucciones resuelta. Es ideal cuando desea una selección semántica rápida sin detección y refinamiento separados.

Normal - Video

Este camino superpone detecciones en fotogramas de video y re-codifica un clip sincronizado. VHS_LoadVideo (#32) importa fotogramas y audio, y GroundingModelLoader (#30) proporciona Florence-2. Establezca una indicación como "caras" en GroundingDetector (#28) para dibujar cuadros por fotograma. VHS_VideoInfo (#40) reenvía la tasa de fotogramas cargada a VHS_VideoCombine (#39), que escribe un MP4 con el audio original y el tiempo coincidente. El resultado es un video anotado listo para compartir para revisión o planificación de tomas.

Nodos clave en el flujo de trabajo de Comfyui ComfyUI Grounding

GroundingDetector (#1)

Detector central que convierte su indicación de texto en cuadros delimitadores. Aumente el umbral de puntuación para menos falsos positivos; bájelo si el objetivo es pequeño o está parcialmente ocluido. Mantenga las indicaciones cortas y específicas, por ejemplo, "paraguas rojo" en lugar de oraciones largas. Use este nodo para impulsar tanto las etapas de segmentación como de visualización.

Sam2Segment (#11)

Refina cuadros toscos en máscaras nítidas usando SAM 2. Aliméntelo con cuadros de GroundingDetector; agregue algunos puntos positivos o negativos solo cuando el límite necesite orientación adicional. Si el sujeto y el fondo se invierten, combine con InvertMask para el recorte deseado. Use el resultado donde sea necesario un mate alfa.

GroundingMaskDetector (#22)

Genera una máscara semántica directamente desde una instrucción en lenguaje natural. Esto es mejor cuando desea una selección de un clic sin ensamblar una cadena de detección a segmentación. Ajuste el texto e incremente la confianza si se están seleccionando múltiples regiones; amplíe la redacción para incluir variaciones cuando se pierda el sujeto.

JoinImageWithAlpha (#14)

Compone la imagen original con la máscara en una salida RGBA para editores posteriores. Úselo cuando necesite fondos transparentes, efectos selectivos o trabajo compuesto en capas. Combine con InvertMask para alternar entre aislar el sujeto y recortar el sujeto.

VHS_LoadVideo (#32)

Divide un video en fotogramas y extrae audio para procesamiento. Si su fuente tiene una tasa de fotogramas variable, confíe en la tasa de fotogramas cargada que informa para mantener el tiempo consistente. Este nodo es el punto de entrada para cualquier detección o segmentación fotograma por fotograma a través de un clip.

VHS_VideoCombine (#39)

Re-codifica fotogramas procesados en un MP4 mientras preserva el audio. Haga coincidir la tasa de fotogramas con el valor informado aguas arriba para evitar el desajuste de tiempo. Use el prefijo del nombre de archivo para mantener organizadas diferentes ejecuciones en su carpeta de salida.

Extras opcionales

  • Mantenga las indicaciones de ComfyUI Grounding cortas y centradas en sustantivos; agregue uno o dos atributos cuando sea necesario, por ejemplo, "excavadora amarilla" o "cantante principal con gafas".
  • Para escenas concurridas, aumente la confianza del detector y reduzca el recuento máximo de cuadros para estabilizar los resultados antes de enviar cuadros a SAM 2.
  • Al preparar video, recorte o subsample en la importación para iteraciones más rápidas, luego cambie a recuentos de fotogramas completos para renderizados finales.
  • Si principalmente necesita máscaras semánticas sin control de cuadros, ejecute el camino de Segmento - Máscara; de lo contrario, prefiera la ruta de detector más SAM 2 para bordes precisos.
  • Los nodos provienen de la extensión ComfyUI Grounding; vea el proyecto para actualizaciones y modelos compatibles. Repository

Agradecimientos

Este flujo de trabajo implementa y se basa en los siguientes trabajos y recursos. Agradecemos sinceramente a PozzettiAndrea por ComfyUI-Grounding por sus contribuciones y mantenimiento. Para detalles autorizados, consulte la documentación original y los repositorios vinculados a continuación.

Recursos

  • PozzettiAndrea/ComfyUI-Grounding
    • GitHub: ComfyUI-Grounding

Nota: El uso de los modelos, conjuntos de datos y código referenciados está sujeto a las licencias y términos respectivos proporcionados por sus autores y mantenedores.

Want More ComfyUI Workflows?

Estilo Pergamino con Unsampling

Convierte tu video en animaciones estilo pergamino usando el método de Unsampling.

Estilo de Arcilla con Unsampling

Convierte tu video al estilo de arcilla usando el método Unsampling.

Efectos de Animación de Gráficos en Movimiento | Vid2Vid

Logra efectos de animación de gráficos en movimiento a partir de una entrada de video preexistente.

Transferencia de Estilo Consistente con Unsampling

Controlar el ruido latente con Unsampling ayuda a aumentar dramáticamente la consistencia en la transferencia de estilo de video.

DiffuEraser | Pintado de Video

Elimine objetos de videos con auto-mascaramiento y reconstrucción realista.

Anyline + MistoLine | Boceto a imagen de alta calidad

Anyline + MistoLine | Boceto a imagen de alta calidad

MistoLine se adapta a varios dibujos lineales, generando sin esfuerzo imágenes de alta calidad a partir de bocetos.

SkyReels V1 | Creación de Video Centrado en Humanos

Genera videos humanos cinematográficos con expresiones faciales genuinas y movimientos naturales a partir de texto o imágenes.

IPAdapter Plus (V2) | Transferencia de estilo con una imagen

IPAdapter Plus (V2) | Transferencia de estilo con una imagen

Use IPAdapter Plus y ControlNet para una transferencia de estilo precisa con una sola imagen de referencia.

Síguenos
  • LinkedIn
  • Facebook
  • Instagram
  • Twitter
Soporte
  • Discord
  • Correo electrónico
  • Estado del sistema
  • afiliado
Recursos
  • ComfyUI en línea gratis
  • Guías de ComfyUI
  • RunComfy API
  • Tutoriales de ComfyUI
  • Nodos de ComfyUI
  • Aprende más
Legal
  • Términos de servicio
  • Política de privacidad
  • Política de cookies
RunComfy
Derechos de autor 2025 RunComfy. Todos los derechos reservados.

RunComfy es la principal ComfyUI plataforma, ofreciendo ComfyUI en línea entorno y servicios, junto con flujos de trabajo de ComfyUI con impresionantes imágenes. RunComfy también ofrece AI Playground, permitiendo a los artistas aprovechar las últimas herramientas de AI para crear arte increíble.