ComfyUI Grounding Workflow

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

ComfyUI Grounding Examples

ComfyUI Grounding: Обнаружение по подсказкам, пиксельная сегментация и видео-наложения#

Этот рабочий процесс упаковывает ComfyUI Grounding в три практических пути для партий изображений, одиночных изображений и видео. Он превращает подсказки на естественном языке в ограничивающие рамки объектов и высококачественные маски, затем предварительно просматривает RGBA-композиты или записывает аннотированные видео с сохранением аудио. Художники, редакторы и специалисты по VFX могут быстро изолировать объекты, удалять фоны и создавать чистые наложения для композитинга.

Основанный на обнаружении с открытым словарем и современной сегментации, ComfyUI Grounding надежен для различных объектов и сцен. Вы можете управлять выбором с помощью коротких подсказок, уточнять с помощью сегментации и сохранять временную синхронизацию кадров при возврате видео.

Ключевые модели в рабочем процессе Comfyui ComfyUI Grounding#

Microsoft Florence-2 Large. Модель визуального языка, поддерживающая обнаружение с открытым словарем из подсказок на естественном языке, позволяя гибко предлагать рамки для произвольных объектов. Model card
Segment Anything 2 (SAM 2). Модель сегментации, которая превращает точки или рамки в четкие маски; здесь она уточняет обнаружения Florence-2 в пиксельные выборки. Repository

Как использовать рабочий процесс Comfyui ComfyUI Grounding#

Рабочий процесс содержит четыре автономные группы. Выберите путь, соответствующий вашей задаче; каждый из них можно запускать независимо.

Batch - Normal#

Этот путь обрабатывает папку с изображениями и выводит RGBA-композиты. LoadImagesFromFolderKJ (#9) читает вашу партию, в то время как GroundingModelLoader (#3) загружает Florence-2. Укажите короткую подсказку в GroundingDetector (#1), чтобы предложить рамки вокруг вашей цели; настройте уверенность, если заметите пропуски или ложные срабатывания. DownLoadSAM2Model (#12) загружает SAM 2, а Sam2Segment (#11) преобразует рамки в чистую маску. При необходимости переверните выбор с помощью InvertMask (#15) и предварительно просмотрите вырезку с альфа-каналом, используя JoinImageWithAlpha (#14) и PreviewImage (#17).

Normal - Image#

Используйте это для быстрой проверки подсказок на одном кадре. LoadImage (#24) загружает ваше изображение, а GroundingDetector (#25) рисует рамки с метками на основе вашей текстовой подсказки. PreviewImage (#26) показывает аннотированный результат, чтобы вы могли изменить формулировку перед пакетной или видео работой.

Segment - Mask#

Этот путь создает одношаговое наложение сегментации, управляемое текстом. GroundingMaskModelLoader (#21) загружает модель маски, а LoadImage (#18) предоставляет кадр. Введите описательную инструкцию в GroundingMaskDetector (#22), чтобы напрямую получить маску и предварительный просмотр с наложением; PreviewImage (#20) отображает композит, в то время как PreviewAny (#19) показывает разрешенную строку инструкции. Это идеально, когда вам нужна быстрая семантическая выборка без отдельного обнаружения и уточнения.

Normal - Video#

Этот путь накладывает обнаружения на кадры видео и перекодирует синхронизированный клип. VHS_LoadVideo (#32) импортирует кадры и аудио, а GroundingModelLoader (#30) предоставляет Florence-2. Установите подсказку, такую как "faces", в GroundingDetector (#28), чтобы рисовать рамки для каждого кадра. VHS_VideoInfo (#40) передает загруженную частоту кадров в VHS_VideoCombine (#39), который записывает MP4 с оригинальным аудио и совпадающим временем. Результат — готовое к обмену аннотированное видео для обзора или планирования съемки.

Ключевые узлы в рабочем процессе Comfyui ComfyUI Grounding#

`GroundingDetector` (#1)#

Основной детектор, превращающий вашу текстовую подсказку в ограничивающие рамки. Повышайте порог оценки для уменьшения ложных срабатываний; снижайте его, если цель мала или частично закрыта. Держите подсказки короткими и конкретными, например "красный зонт" вместо длинных предложений. Используйте этот узел для управления как сегментацией, так и визуализацией на последующих этапах.

`Sam2Segment` (#11)#

Уточняет грубые рамки в четкие маски, используя SAM 2. Подайте ему рамки из GroundingDetector; добавьте несколько положительных или отрицательных точек только тогда, когда границе требуется дополнительное руководство. Если объект и фон меняются местами, используйте InvertMask для нужной вырезки. Используйте результат везде, где требуется альфа-мат.

`GroundingMaskDetector` (#22)#

Генерирует семантическую маску непосредственно из инструкции на естественном языке. Это лучше всего, когда вам нужна выборка одним кликом без сборки цепочки обнаружения-сегментации. Уточняйте текст и увеличивайте уверенность, если выбирается несколько регионов; расширяйте формулировку, чтобы включать варианты, когда объект не выбран.

`JoinImageWithAlpha` (#14)#

Комбинирует оригинальное изображение с маской в RGBA-вывод для последующих редакторов. Используйте его, когда вам нужны прозрачные фоны, выборочные эффекты или многослойная работа с композитом. Объединяйте с InvertMask, чтобы переключаться между изоляцией объекта и его вырезкой.

`VHS_LoadVideo` (#32)#

Разделяет видео на кадры и извлекает аудио для обработки. Если ваш источник имеет переменную частоту кадров, полагайтесь на загруженную частоту кадров, которую он сообщает, чтобы сохранить временную синхронизацию. Этот узел является точкой входа для любого обнаружения или сегментации по кадрам на протяжении всего клипа.

`VHS_VideoCombine` (#39)#

Перекодирует обработанные кадры в MP4, сохраняя аудио. Сопоставьте частоту кадров со значением, сообщаемым выше, чтобы избежать временного дрейфа. Используйте префикс имени файла, чтобы организовать разные запуски в вашей папке вывода.

Дополнительные опции#

Держите подсказки ComfyUI Grounding короткими и сосредоточенными на существительных; добавляйте один или два атрибута при необходимости, например "желтый экскаватор" или "лидер группы в очках".
Для загруженных сцен увеличьте уверенность детектора и уменьшите максимальное количество рамок, чтобы стабилизировать результаты перед отправкой рамок в SAM 2.
При подготовке видео обрезайте или подсэмплируйте при импорте для более быстрых итераций, затем переключайтесь обратно на полные подсчеты кадров для финальных рендеров.
Если вам в основном нужны семантические маски без управления рамками, используйте путь Segment - Mask; в противном случае предпочитайте маршрут "детектор плюс SAM 2" для точных краев.
Узлы происходят из расширения ComfyUI Grounding; см. проект для обновлений и поддерживаемых моделей. Repository

Благодарности#

Этот рабочий процесс реализует и основывается на следующих работах и ресурсах. Мы искренне благодарим PozzettiAndrea за ComfyUI-Grounding за их вклад и поддержку. Для получения авторитетной информации, пожалуйста, обратитесь к оригинальной документации и репозиториям, указанным ниже.

Ресурсы#

PozzettiAndrea/ComfyUI-Grounding
- GitHub: ComfyUI-Grounding

Примечание: Использование упомянутых моделей, наборов данных и кода подчиняется соответствующим лицензиям и условиям, предоставленным их авторами и поддерживающими.

Want More ComfyUI Workflows?

Стиль пергамента с Unsampling

Преобразуйте ваше видео в анимации в стиле пергамента, используя метод Unsampling.

Глиняный стиль с Unsampling

Преобразуйте ваше видео в глиняный стиль, используя метод Unsampling.

Эффекты анимации графики | Vid2Vid

Достигните эффектов анимации графики, начиная с уже существующего видео.

Последовательный перенос стиля с Unsampling

Контроль латентного шума с помощью Unsampling значительно увеличивает последовательность в переносе стиля видео.

DiffuEraser | Видеозаливка

Удаляйте объекты из видео с авто-маскированием и реалистичной реконструкцией.

IPAdapter Plus (V2) | Объединение Изображений

Используйте различные методы слияния с IPAdapter Plus для точного и эффективного контроля смешивания изображений.

Mochi 1 | Genmo Текст-видео

Демонстрация преобразования текста в видео с использованием модели Genmo Mochi 1

Редактирование изображений FireRed | Умный улучшитель фотографий

Чёткие исправления фотографий с точным контролем тона и деталей.

Подписывайтесь на нас

Поддержка

Ресурсы

Юридическая информация

RunComfy

RunComfy - ведущая ComfyUI платформа, предлагающая ComfyUI онлайн среду и услуги, а также рабочие процессы ComfyUI с потрясающей визуализацией. RunComfy также предоставляет AI Models, позволяя художникам использовать новейшие инструменты AI для создания невероятного искусства.

ComfyUI Grounding | Рабочий процесс отслеживания объектов