Capybara ComfyUI Workflow v0.1 | Generador de Imágenes y Videos 4 en 1

Capybara ComfyUI Workflow Workflow

Capybara ComfyUI Workflow v0.1 | 4-in-1 Image and Video Generator

¿Quiere ejecutar este flujo de trabajo?

Flujos de trabajo completamente operativos
Sin nodos ni modelos faltantes
No se requiere configuración manual
Presenta visuales impresionantes

Capybara ComfyUI Workflow Examples

capybara-comfyui-workflow-v0-1-4-in-1-image-and-video-generator-1368-example_01.webp

capybara-comfyui-workflow-v0-1-4-in-1-image-and-video-generator-1368-example_02.webp

capybara-comfyui-workflow-v0-1-4-in-1-image-and-video-generator-1368-example_03.webp

capybara-comfyui-workflow-v0-1-4-in-1-image-and-video-generator-1368-example_04.webp

capybara-comfyui-workflow-v0-1-4-in-1-image-and-video-generator-1368-example_05.webp

capybara-comfyui-workflow-v0-1-4-in-1-image-and-video-generator-1368-example_06.webp

Capybara ComfyUI Workflow v0.1: una plantilla unificada para imágenes y videos#

Capybara ComfyUI Workflow es un paquete de plantillas 4-en-1 que cubre texto a imagen, edición de imágenes basada en instrucciones, imagen a video, y edición de videos basada en indicaciones en ComfyUI. Está construido alrededor del modelo de difusión Capybara v0.1 y una única tubería unificada para que puedas moverte entre tareas de imágenes y videos con comportamiento consistente y resultados predecibles.

Este Capybara ComfyUI Workflow es ideal para creadores que necesitan ediciones impulsadas por indicaciones, iteración rápida y preajustes de relación de aspecto confiables. Cada ruta reutiliza la misma pila de modelos y estrategia de indicaciones, lo que mantiene la ciencia del color, la composición y el estilo coherente a través de las tareas.

Modelos clave en Comfyui Capybara ComfyUI Workflow#

Capybara v0.1 (difusión UNet). El generador principal que unifica el comportamiento de imagen y video; dirige cómo se compone y estiliza el contenido en las cuatro plantillas. Consulta el repositorio del proyecto y la tarjeta del modelo para detalles: xgen-universe/Capybara (GitHub) y xgen-universe/Capybara (Hugging Face).
Qwen2.5‑VL‑7B codificador de texto. Proporciona una fuerte comprensión del lenguaje amigable con instrucciones para indicaciones y directivas de edición, mejorando la alineación entre lo que escribes y lo que se genera. Ver Qwen/Qwen2.5-VL-7B.
ByT5‑small codificador de texto. Un codificador a nivel de byte que ayuda con la tokenización robusta y el manejo de texto dentro de las indicaciones, complementando el modelo de lenguaje principal. Ver google/byt5-small.
HunyuanVideo 1.5 VAE. Maneja la decodificación/codificación latente a través de las ramas de imagen y video para que ambas compartan las mismas características de reconstrucción. Ver Tencent/HunyuanVideo (GitHub) y los activos reempaquetados en Comfy-Org/HunyuanVideo_1.5_repackaged.
SigCLIP Vision (patch14, 384). Proporciona características de imagen que ayudan a preservar la estructura e identidad durante las ediciones y al convertir imágenes en videos. Ver Comfy-Org/sigclip_vision_384.

Cómo usar Comfyui Capybara ComfyUI Workflow#

El flujo de trabajo está organizado en cuatro grupos que puedes ejecutar de manera independiente. Cada grupo comparte la misma pila de modelos Capybara y estrategia de indicaciones, por lo que el estilo y la fidelidad se mantienen entre imágenes y videos. Usa los paneles de Tamaño y Relación incorporados para elegir entre preajustes de resolución sensatos antes de generar.

Edición de Imagen
- Carga una imagen fuente con LoadImage (#80), luego abre Image Edit (Capybara v0.1) (#103). Escribe indicaciones estilo instrucción como "Mantén el sujeto y el atuendo; reemplaza la escena interior con un prado soleado." Usa la indicación negativa para suprimir artefactos como "marca de agua, texto, baja calidad."
- El editor utiliza visión CLIP para anclar el sujeto y el diseño mientras Capybara aplica tu instrucción al resto de la escena. Esto es excelente para intercambios rápidos de fondo o ajustes globales de apariencia sin perder identidad.
- La salida se guarda con SaveImage (#102). Si necesitas una relación específica, ajusta los controles de ancho/alto expuestos en el nodo a uno de los preajustes incluidos.
Texto a Imagen
- Abre el subgrafo Text to Image (Capybara v0.1) (#143) y escribe una indicación descriptiva. Esta rama genera una imagen fija limpia usando los mismos codificadores de lenguaje y planificador que las otras rutas, por lo que coincide con el aspecto de tus ediciones y videos.
- Añade una breve indicación negativa para control de calidad. Si deseas una salida cuadrada, 16:9, 9:16 o 4:3, elige el preajuste correspondiente en el panel de Tamaño antes de ejecutar.
- Las imágenes se guardan para revisión y pueden reutilizarse como puntos de partida en las rutas de imagen a video o edición para mantener la continuidad visual.
Imagen a Video
- Carga una referencia fija con LoadImage (#131), luego ejecuta el subgrafo generador (#130). Escribe una indicación consciente del movimiento (por ejemplo, "lento avance de cámara, gradación cálida cinematográfica") para animar la entrada respetando su composición e identidad.
- Bajo el capó, HunyuanVideo15ImageToVideo (#115) convierte la imagen fija y tu indicación en una corta secuencia de cuadros latentes que Capybara refina. Usa el control de longitud incluido para elegir la duración del clip.
- Los cuadros se codifican a MP4 con VHS_VideoCombine (#144) a una velocidad de fotogramas cinematográfica por defecto. Usa esto cuando desees un movimiento listo para redes sociales a partir de un fotograma clave dirigido por arte.
Edición de Video
- Importa un clip con VHS_LoadVideo (#146), luego abre el subgrafo de edición (#136). Escribe una instrucción como "Cambia el fondo del océano por pradera; mantén el caballo y el movimiento."
- La ruta de edición fusiona visión CLIP con tu indicación para que los sujetos se mantengan estables mientras las escenas, la iluminación o el clima se adaptan con el tiempo. Las indicaciones negativas ayudan a suprimir parpadeos o superposiciones no deseadas.
- El resultado se compila con VHS_VideoCombine (#145) a MP4. Elige un preajuste de resolución que coincida con tu fuente para evitar estiramientos.

Nodos clave en Comfyui Capybara ComfyUI Workflow#

Image Edit (Capybara v0.1) (#103)
- Un editor compacto basado en instrucciones que preserva la estructura usando características de visión mientras aplica tu edición de texto de manera global. Ajusta la indicación text para describir lo que debe cambiar y lo que debe permanecer, luego usa steps para calidad/suavidad y cfg para equilibrar la fuerza de la indicación contra la imagen fuente. Aumenta steps para más detalle; valores moderados de cfg generalmente mantienen las ediciones fieles.
HunyuanVideo15ImageToVideo (#115)
- El puente de imágenes fijas a movimiento y el motor detrás de las ediciones de video basadas en indicaciones. Crea una corta secuencia latente condicionada por tu indicación y, cuando se proporciona, una imagen de inicio. Ajusta length para la duración y width/height para coincidir con un preajuste; tamaños más grandes aumentan el detalle y el tiempo de renderizado. Este nodo es la columna vertebral de los grupos de Imagen a Video y Edición de Video, aprovechando el diseño de HunyuanVideo para una generación temporal estable mientras Capybara maneja la eliminación de ruido.
VHS_VideoCombine (#145)
- El finalizador que convierte los cuadros generados en un MP4. Usa frame_rate para controlar la cadencia del movimiento y crf para intercambiar calidad por tamaño de archivo. Un crf más bajo produce mayor calidad pero archivos más grandes; mantenlo consistente a través de los proyectos para que tus salidas de Capybara ComfyUI Workflow tengan un aspecto uniforme.

Extras opcionales para el Capybara ComfyUI Workflow#

Usa los preajustes de Tamaño y Relación para bloquear en 16:9, 9:16, 1:1, o 4:3 a 480p, 720p, 1024, o 1080p. Mantenerse en el preajuste ayuda a que el muestreador y el VAE se mantengan estables y reduce los artefactos de borde.
Para un aumento de calidad, incrementa los steps de difusión en los paneles del Muestreador. La renderización lleva más tiempo, pero las texturas finas y los bordes limpios mejoran notablemente.
Mantén tu sujeto estable en las ediciones escribiendo indicaciones que digan explícitamente qué mantener (por ejemplo, "mantén personajes y disfraces sin cambios") y empuja los cambios de escena al resto de la oración.
Las indicaciones negativas son tu equipo de limpieza. Entradas comunes como "borroso, marca de agua, texto" ayudan a eliminar superposiciones y artefactos similares a la compresión en imágenes y videos.
Para videos, elige la longitud del clip para que coincida con tu tasa de fotogramas prevista. Los valores predeterminados están ajustados para clips sociales cortos; las secuencias más largas se benefician de steps ligeramente más altos para consistencia temporal.

Este Capybara ComfyUI Workflow está diseñado para minimizar la fricción de configuración: una pila de modelos, cuatro tareas creativas y controles consistentes. Comienza con texto a imagen para desarrollo de apariencia, usa edición de imagen para refinar, anima el fotograma clave con imagen a video, luego termina con edición de video basada en indicaciones para coincidir con el informe final.

Agradecimientos#

Este flujo de trabajo implementa y se basa en los siguientes trabajos y recursos. Agradecemos a XGen Universe por el modelo y proyecto Capybara, a Comfy-Org por los activos del modelo de difusión Capybara v0.1, HunyuanVideo 1.5 VAE, y el empaquetado del codificador de texto Qwen2.5-VL-7B, y a Comfy.org por las plantillas de flujo de trabajo Capybara (Texto a Imagen, Edición de Imagen, Imagen a Video, y Edición de Video) por sus contribuciones y mantenimiento. Para detalles autorizados, por favor consulta la documentación original y los repositorios enlazados a continuación.

Recursos#

XGen Universe/Capybara Project
- GitHub: xgen-universe/Capybara
- Hugging Face: xgen-universe/Capybara
Comfy.org/Capybara Template - Text to Image
- Docs / Release Notes: Capybara Template - Text to Image
Comfy.org/Capybara Template - Image Edit
- Docs / Release Notes: Capybara Template - Image Edit
Comfy.org/Capybara Template - Image to Video
- Docs / Release Notes: Capybara Template - Image to Video
Comfy.org/Capybara Template - Video Edit
- Docs / Release Notes: Capybara Template - Video Edit

Nota: El uso de los modelos, conjuntos de datos y código referenciados está sujeto a las respectivas licencias y términos proporcionados por sus autores y mantenedores.

Want More ComfyUI Workflows?

Wan 2.1 | Generación de Video Revolucionaria

Crea videos increíbles a partir de texto o imágenes con IA revolucionaria ejecutándose en CPUs cotidianas.

Pyramid Flow | Generación de Video

Incluyendo tanto el modo de texto a video como de imagen a video.

Inserta Cualquier Cosa | Edición de Imágenes Basada en Referencias

Inserta cualquier sujeto en imágenes con guía de máscara o texto.

Wan FusionX | T2V+I2V+VACE Completo

¡La solución de generación de video más poderosa hasta ahora! Detalles de calidad cinematográfica, tu estudio de cine personal.

ComfyUI VNCCS Clone | Generador de Personajes Consistente

Clona personajes rápidamente con resultados estables y de alta calidad listos para sprites.

Flux Redux | Variación y Restilización

Herramientas Oficiales Flux - Flux Redux para Variación y Restilización de Imágenes

Flex.1 LoRA Inferencia | AI Toolkit ComfyUI

Ejecute su Flex.1 LoRA entrenado con AI Toolkit en ComfyUI con valores predeterminados coincidentes con el entrenamiento usando un solo nodo personalizado RC.

Personajes Consistentes y Realistas

Cree personajes consistentes y realistas con control preciso sobre rasgos faciales, poses y composiciones.

Soporte

Recursos

Legal

RunComfy

RunComfy es la principal ComfyUI plataforma, ofreciendo ComfyUI en línea entorno y servicios, junto con flujos de trabajo de ComfyUI con impresionantes imágenes. RunComfy también ofrece AI Models, permitiendo a los artistas aprovechar las últimas herramientas de AI para crear arte increíble.

Capybara ComfyUI Workflow | Creador Unificado de Imágenes y Videos