Capybara ComfyUI Workflow v0.1: una plantilla unificada para imágenes y videos
Capybara ComfyUI Workflow es un paquete de plantillas 4-en-1 que cubre texto a imagen, edición de imágenes basada en instrucciones, imagen a video, y edición de videos basada en indicaciones en ComfyUI. Está construido alrededor del modelo de difusión Capybara v0.1 y una única tubería unificada para que puedas moverte entre tareas de imágenes y videos con comportamiento consistente y resultados predecibles.
Este Capybara ComfyUI Workflow es ideal para creadores que necesitan ediciones impulsadas por indicaciones, iteración rápida y preajustes de relación de aspecto confiables. Cada ruta reutiliza la misma pila de modelos y estrategia de indicaciones, lo que mantiene la ciencia del color, la composición y el estilo coherente a través de las tareas.
Modelos clave en Comfyui Capybara ComfyUI Workflow
- Capybara v0.1 (difusión UNet). El generador principal que unifica el comportamiento de imagen y video; dirige cómo se compone y estiliza el contenido en las cuatro plantillas. Consulta el repositorio del proyecto y la tarjeta del modelo para detalles: xgen-universe/Capybara (GitHub) y xgen-universe/Capybara (Hugging Face).
- Qwen2.5‑VL‑7B codificador de texto. Proporciona una fuerte comprensión del lenguaje amigable con instrucciones para indicaciones y directivas de edición, mejorando la alineación entre lo que escribes y lo que se genera. Ver Qwen/Qwen2.5-VL-7B.
- ByT5‑small codificador de texto. Un codificador a nivel de byte que ayuda con la tokenización robusta y el manejo de texto dentro de las indicaciones, complementando el modelo de lenguaje principal. Ver google/byt5-small.
- HunyuanVideo 1.5 VAE. Maneja la decodificación/codificación latente a través de las ramas de imagen y video para que ambas compartan las mismas características de reconstrucción. Ver Tencent/HunyuanVideo (GitHub) y los activos reempaquetados en Comfy-Org/HunyuanVideo_1.5_repackaged.
- SigCLIP Vision (patch14, 384). Proporciona características de imagen que ayudan a preservar la estructura e identidad durante las ediciones y al convertir imágenes en videos. Ver Comfy-Org/sigclip_vision_384.
Cómo usar Comfyui Capybara ComfyUI Workflow
El flujo de trabajo está organizado en cuatro grupos que puedes ejecutar de manera independiente. Cada grupo comparte la misma pila de modelos Capybara y estrategia de indicaciones, por lo que el estilo y la fidelidad se mantienen entre imágenes y videos. Usa los paneles de Tamaño y Relación incorporados para elegir entre preajustes de resolución sensatos antes de generar.
- Edición de Imagen
- Carga una imagen fuente con
LoadImage(#80), luego abreImage Edit (Capybara v0.1)(#103). Escribe indicaciones estilo instrucción como "Mantén el sujeto y el atuendo; reemplaza la escena interior con un prado soleado." Usa la indicación negativa para suprimir artefactos como "marca de agua, texto, baja calidad." - El editor utiliza visión CLIP para anclar el sujeto y el diseño mientras Capybara aplica tu instrucción al resto de la escena. Esto es excelente para intercambios rápidos de fondo o ajustes globales de apariencia sin perder identidad.
- La salida se guarda con
SaveImage(#102). Si necesitas una relación específica, ajusta los controles de ancho/alto expuestos en el nodo a uno de los preajustes incluidos.
- Carga una imagen fuente con
- Texto a Imagen
- Abre el subgrafo
Text to Image (Capybara v0.1)(#143) y escribe una indicación descriptiva. Esta rama genera una imagen fija limpia usando los mismos codificadores de lenguaje y planificador que las otras rutas, por lo que coincide con el aspecto de tus ediciones y videos. - Añade una breve indicación negativa para control de calidad. Si deseas una salida cuadrada, 16:9, 9:16 o 4:3, elige el preajuste correspondiente en el panel de Tamaño antes de ejecutar.
- Las imágenes se guardan para revisión y pueden reutilizarse como puntos de partida en las rutas de imagen a video o edición para mantener la continuidad visual.
- Abre el subgrafo
- Imagen a Video
- Carga una referencia fija con
LoadImage(#131), luego ejecuta el subgrafo generador (#130). Escribe una indicación consciente del movimiento (por ejemplo, "lento avance de cámara, gradación cálida cinematográfica") para animar la entrada respetando su composición e identidad. - Bajo el capó,
HunyuanVideo15ImageToVideo(#115) convierte la imagen fija y tu indicación en una corta secuencia de cuadros latentes que Capybara refina. Usa el control de longitud incluido para elegir la duración del clip. - Los cuadros se codifican a MP4 con
VHS_VideoCombine(#144) a una velocidad de fotogramas cinematográfica por defecto. Usa esto cuando desees un movimiento listo para redes sociales a partir de un fotograma clave dirigido por arte.
- Carga una referencia fija con
- Edición de Video
- Importa un clip con
VHS_LoadVideo(#146), luego abre el subgrafo de edición (#136). Escribe una instrucción como "Cambia el fondo del océano por pradera; mantén el caballo y el movimiento." - La ruta de edición fusiona visión CLIP con tu indicación para que los sujetos se mantengan estables mientras las escenas, la iluminación o el clima se adaptan con el tiempo. Las indicaciones negativas ayudan a suprimir parpadeos o superposiciones no deseadas.
- El resultado se compila con
VHS_VideoCombine(#145) a MP4. Elige un preajuste de resolución que coincida con tu fuente para evitar estiramientos.
- Importa un clip con
Nodos clave en Comfyui Capybara ComfyUI Workflow
Image Edit (Capybara v0.1)(#103)- Un editor compacto basado en instrucciones que preserva la estructura usando características de visión mientras aplica tu edición de texto de manera global. Ajusta la indicación
textpara describir lo que debe cambiar y lo que debe permanecer, luego usastepspara calidad/suavidad ycfgpara equilibrar la fuerza de la indicación contra la imagen fuente. Aumentastepspara más detalle; valores moderados decfggeneralmente mantienen las ediciones fieles.
- Un editor compacto basado en instrucciones que preserva la estructura usando características de visión mientras aplica tu edición de texto de manera global. Ajusta la indicación
HunyuanVideo15ImageToVideo(#115)- El puente de imágenes fijas a movimiento y el motor detrás de las ediciones de video basadas en indicaciones. Crea una corta secuencia latente condicionada por tu indicación y, cuando se proporciona, una imagen de inicio. Ajusta
lengthpara la duración ywidth/heightpara coincidir con un preajuste; tamaños más grandes aumentan el detalle y el tiempo de renderizado. Este nodo es la columna vertebral de los grupos de Imagen a Video y Edición de Video, aprovechando el diseño de HunyuanVideo para una generación temporal estable mientras Capybara maneja la eliminación de ruido.
- El puente de imágenes fijas a movimiento y el motor detrás de las ediciones de video basadas en indicaciones. Crea una corta secuencia latente condicionada por tu indicación y, cuando se proporciona, una imagen de inicio. Ajusta
VHS_VideoCombine(#145)- El finalizador que convierte los cuadros generados en un MP4. Usa
frame_ratepara controlar la cadencia del movimiento ycrfpara intercambiar calidad por tamaño de archivo. Uncrfmás bajo produce mayor calidad pero archivos más grandes; mantenlo consistente a través de los proyectos para que tus salidas de Capybara ComfyUI Workflow tengan un aspecto uniforme.
- El finalizador que convierte los cuadros generados en un MP4. Usa
Extras opcionales para el Capybara ComfyUI Workflow
- Usa los preajustes de Tamaño y Relación para bloquear en 16:9, 9:16, 1:1, o 4:3 a 480p, 720p, 1024, o 1080p. Mantenerse en el preajuste ayuda a que el muestreador y el VAE se mantengan estables y reduce los artefactos de borde.
- Para un aumento de calidad, incrementa los
stepsde difusión en los paneles del Muestreador. La renderización lleva más tiempo, pero las texturas finas y los bordes limpios mejoran notablemente. - Mantén tu sujeto estable en las ediciones escribiendo indicaciones que digan explícitamente qué mantener (por ejemplo, "mantén personajes y disfraces sin cambios") y empuja los cambios de escena al resto de la oración.
- Las indicaciones negativas son tu equipo de limpieza. Entradas comunes como "borroso, marca de agua, texto" ayudan a eliminar superposiciones y artefactos similares a la compresión en imágenes y videos.
- Para videos, elige la longitud del clip para que coincida con tu tasa de fotogramas prevista. Los valores predeterminados están ajustados para clips sociales cortos; las secuencias más largas se benefician de
stepsligeramente más altos para consistencia temporal.
Este Capybara ComfyUI Workflow está diseñado para minimizar la fricción de configuración: una pila de modelos, cuatro tareas creativas y controles consistentes. Comienza con texto a imagen para desarrollo de apariencia, usa edición de imagen para refinar, anima el fotograma clave con imagen a video, luego termina con edición de video basada en indicaciones para coincidir con el informe final.
Agradecimientos
Este flujo de trabajo implementa y se basa en los siguientes trabajos y recursos. Agradecemos a XGen Universe por el modelo y proyecto Capybara, a Comfy-Org por los activos del modelo de difusión Capybara v0.1, HunyuanVideo 1.5 VAE, y el empaquetado del codificador de texto Qwen2.5-VL-7B, y a Comfy.org por las plantillas de flujo de trabajo Capybara (Texto a Imagen, Edición de Imagen, Imagen a Video, y Edición de Video) por sus contribuciones y mantenimiento. Para detalles autorizados, por favor consulta la documentación original y los repositorios enlazados a continuación.
Recursos
- XGen Universe/Capybara Project
- GitHub: xgen-universe/Capybara
- Hugging Face: xgen-universe/Capybara
- Comfy.org/Capybara Template - Text to Image
- Docs / Release Notes: Capybara Template - Text to Image
- Comfy.org/Capybara Template - Image Edit
- Docs / Release Notes: Capybara Template - Image Edit
- Comfy.org/Capybara Template - Image to Video
- Docs / Release Notes: Capybara Template - Image to Video
- Comfy.org/Capybara Template - Video Edit
- Docs / Release Notes: Capybara Template - Video Edit
Nota: El uso de los modelos, conjuntos de datos y código referenciados está sujeto a las respectivas licencias y términos proporcionados por sus autores y mantenedores.


