Capybara ComfyUI Workflow v0.1: один унифицированный шаблон для изображений и видео
Capybara ComfyUI Workflow — это пакет шаблонов 4-в-1, который охватывает текст-в-изображение, редактирование изображений на основе инструкций, изображение-в-видео и редактирование видео на основе подсказок в ComfyUI. Он построен на основе модели диффузии Capybara v0.1 и единой, унифицированной цепочки, чтобы вы могли переходить между задачами изображения и видео с последовательным поведением и предсказуемыми результатами.
Этот Capybara ComfyUI Workflow идеально подходит для создателей, которым нужны редактирования на основе подсказок, быстрая итерация и надежные предустановки соотношения сторон. Каждый путь повторно использует ту же модель и стратегию подсказок, что сохраняет согласованность цветовой науки, композиции и стиля во всех задачах.
Основные модели в Comfyui Capybara ComfyUI Workflow
- Capybara v0.1 (diffusion UNet). Основной генератор, который объединяет поведение изображений и видео; он определяет, как контент составляется и стилизуется во всех четырех шаблонах. Подробности см. в репозитории проекта и карточке модели: xgen-universe/Capybara (GitHub) и xgen-universe/Capybara (Hugging Face).
- Qwen2.5‑VL‑7B текстовый энкодер. Обеспечивает сильное, дружественное к инструкциям понимание языка для подсказок и директив редактирования, улучшая соответствие между тем, что вы пишете, и тем, что создается. См. Qwen/Qwen2.5-VL-7B.
- ByT5‑small текстовый энкодер. Байт-уровневый энкодер, который помогает с надежной токенизацией и обработкой текста внутри подсказок, дополняя основную языковую модель. См. google/byt5-small.
- HunyuanVideo 1.5 VAE. Обрабатывает латентное декодирование/кодирование по изображениям и видео, так что оба имеют одинаковые характеристики реконструкции. См. Tencent/HunyuanVideo (GitHub) и перепакованные активы в Comfy-Org/HunyuanVideo_1.5_repackaged.
- SigCLIP Vision (patch14, 384). Поставляет функции изображения, которые помогают сохранить структуру и идентичность во время редактирования и при преобразовании изображений в видео. См. Comfy-Org/sigclip_vision_384.
Как использовать Comfyui Capybara ComfyUI Workflow
Рабочий процесс организован в четыре группы, которые вы можете запускать независимо. Каждая группа использует ту же модель Capybara и стратегию подсказок, так что стиль и точность сохраняются между изображениями и видео. Используйте встроенные панели размера и соотношения, чтобы выбрать из разумных предустановок разрешения перед созданием.
- Редактирование изображений
- Загрузите исходное изображение с помощью
LoadImage(#80), затем откройтеImage Edit (Capybara v0.1)(#103). Напишите подсказки в стиле инструкций, такие как "Сохраните объект и наряд; замените сцену в помещении на освещенный солнцем луг." Используйте отрицательную подсказку, чтобы подавить артефакты, такие как "водяной знак, текст, низкое качество." - Редактор использует CLIP vision, чтобы закрепить объект и компоновку, в то время как Capybara применяет вашу инструкцию к остальной части сцены. Это отлично подходит для быстрой замены фона или глобальных настроек внешнего вида без потери идентичности.
- Результат сохраняется с помощью
SaveImage(#102). Если вам нужно конкретное соотношение, установите ширину/высоту на узле на одну из включенных предустановок.
- Загрузите исходное изображение с помощью
- Текст-в-изображение
- Откройте подграф
Text to Image (Capybara v0.1)(#143) и напишите описательную подсказку. Эта ветвь генерирует чистое статическое изображение, используя те же языковые энкодеры и планировщик, что и другие пути, так что оно соответствует внешнему виду ваших редактирований и видео. - Добавьте короткую отрицательную подсказку для контроля качества. Если вы хотите квадратный, 16:9, 9:16 или 4:3 вывод, выберите соответствующую предустановку в панели размера перед запуском.
- Изображения сохраняются для обзора и могут быть повторно использованы в качестве отправных точек в путях изображение-в-видео или редактирования для сохранения визуальной непрерывности.
- Откройте подграф
- Изображение-в-видео
- Загрузите эталонное изображение с помощью
LoadImage(#131), затем запустите подграф генератора (#130). Напишите подсказку, учитывающую движение (например, "медленное движение вперед, теплый кинематографический грейд"), чтобы анимировать входные данные, уважая их композицию и идентичность. - Под капотом,
HunyuanVideo15ImageToVideo(#115) превращает изображение и вашу подсказку в короткую последовательность латентных кадров, которые Capybara уточняет. Используйте включенное управление длиной, чтобы выбрать, какой длины должен быть клип. - Кадры кодируются в MP4 с помощью
VHS_VideoCombine(#144) с кинематографической частотой кадров по умолчанию. Используйте это, когда хотите быстрое движение, готовое для социальных сетей, из художественно направленного ключевого кадра.
- Загрузите эталонное изображение с помощью
- Редактирование видео
- Импортируйте клип с помощью
VHS_LoadVideo(#146), затем откройте подграф редактирования (#136). Напишите инструкцию, такую как "Измените фон океана на луг; сохраните лошадь и движение." - Путь редактирования объединяет CLIP vision с вашей подсказкой, так что объекты остаются стабильными, в то время как сцены, освещение или погода адаптируются со временем. Отрицательные подсказки помогают подавить мерцание или нежелательные наложения.
- Результат компилируется с помощью
VHS_VideoCombine(#145) в MP4. Выберите предустановку разрешения, которая соответствует вашему источнику, чтобы избежать растяжения.
- Импортируйте клип с помощью
Основные узлы в Comfyui Capybara ComfyUI Workflow
Image Edit (Capybara v0.1)(#103)- Компактный редактор на основе инструкций, который сохраняет структуру, используя функции зрения, применяя при этом ваше текстовое редактирование глобально. Настройте подсказку
text, чтобы описать, что должно измениться и что должно оставаться, затем используйтеstepsдля качества/плавности иcfgдля баланса силы подсказки против исходного изображения. Увеличьтеstepsдля большей детализации; умеренные значенияcfgобычно сохраняют верность редактирований.
- Компактный редактор на основе инструкций, который сохраняет структуру, используя функции зрения, применяя при этом ваше текстовое редактирование глобально. Настройте подсказку
HunyuanVideo15ImageToVideo(#115)- Мост от статических изображений к движению и движок, стоящий за редактированием видео на основе подсказок. Он создает короткую латентную последовательность, обусловленную вашей подсказкой и, если предоставлена, начальным изображением. Настройте
lengthдля продолжительности иwidth/heightдля соответствия предустановке; большие размеры увеличивают детализацию и время рендеринга. Этот узел является основой как групп Image‑to‑Video, так и Video Edit, используя дизайн HunyuanVideo для стабильной временной генерации, в то время как Capybara обрабатывает удаление шума.
- Мост от статических изображений к движению и движок, стоящий за редактированием видео на основе подсказок. Он создает короткую латентную последовательность, обусловленную вашей подсказкой и, если предоставлена, начальным изображением. Настройте
VHS_VideoCombine(#145)- Финализатор, который превращает сгенерированные кадры в MP4. Используйте
frame_rateдля управления ритмом движения иcrfдля обмена качеством на размер файла. Более низкийcrfдает более высокое качество, но более крупные файлы; держите его последовательным во всех проектах, чтобы ваши выходные данные Capybara ComfyUI Workflow имели единообразный вид.
- Финализатор, который превращает сгенерированные кадры в MP4. Используйте
Дополнительные опции для Capybara ComfyUI Workflow
- Используйте предустановки размера и соотношения, чтобы зафиксировать 16:9, 9:16, 1:1 или 4:3 при 480p, 720p, 1024 или 1080p. Оставаться на предустановке помогает стабилизировать выборку и VAE и уменьшает артефакты по краям.
- Для повышения качества увеличьте диффузию
stepsв панелях выборки. Рендеринг занимает больше времени, но тонкие текстуры и чистые края заметно улучшаются. - Сохраните стабильность объекта в редактированиях, написав подсказки, которые явно указывают, что сохранять (например, "сохраните персонажей и костюмы неизменными") и переместите изменения сцены в остальную часть предложения.
- Отрицательные подсказки — это ваша команда по уборке. Обычные записи, такие как "размытость, водяной знак, текст" помогают удалить наложения и артефакты, похожие на сжатие, как в изображениях, так и в видео.
- Для видео выберите длину клипа, чтобы соответствовать вашему предполагаемому кадровому числу. Значения по умолчанию настроены на короткие социальные клипы; более длинные последовательности выигрывают от немного более высоких
stepsдля временной согласованности.
Этот Capybara ComfyUI Workflow разработан для минимизации трения при настройке: одна модель, четыре творческие задачи и последовательные элементы управления. Начните с текст-в-изображение для разработки внешнего вида, используйте редактирование изображений для уточнения, анимируйте ключевой кадр с помощью изображение-в-видео, затем завершите редактированием видео на основе подсказок, чтобы соответствовать окончательному брифу.
Благодарности
Этот рабочий процесс реализует и опирается на следующие работы и ресурсы. Мы искренне благодарим XGen Universe за модель Capybara и проект, Comfy-Org за активы модели диффузии Capybara v0.1, HunyuanVideo 1.5 VAE и упаковку текстового энкодера Qwen2.5-VL-7B, и Comfy.org за шаблоны рабочего процесса Capybara (Text to Image, Image Edit, Image to Video и Video Edit) за их вклад и поддержку. Для получения авторитетной информации, пожалуйста, обращайтесь к оригинальной документации и репозиториям, указанным ниже.
Ресурсы
- XGen Universe/Capybara Project
- GitHub: xgen-universe/Capybara
- Hugging Face: xgen-universe/Capybara
- Comfy.org/Capybara Template - Text to Image
- Документация / Примечания к выпуску: Capybara Template - Text to Image
- Comfy.org/Capybara Template - Image Edit
- Документация / Примечания к выпуску: Capybara Template - Image Edit
- Comfy.org/Capybara Template - Image to Video
- Документация / Примечания к выпуску: Capybara Template - Image to Video
- Comfy.org/Capybara Template - Video Edit
- Документация / Примечания к выпуску: Capybara Template - Video Edit
Примечание: Использование упомянутых моделей, наборов данных и кода регулируется соответствующими лицензиями и условиями, предоставленными их авторами и поддерживающими организациями.



