ByteDance USO: Flujo de trabajo de generación unificada de estilo y sujeto para ComfyUI
Este flujo de trabajo lleva ByteDance USO a ComfyUI para creadores que desean personajes fieles a la identidad y transferencia de estilo precisa en un solo lugar. Construido sobre FLUX.1‑dev, admite generación basada en sujeto, estilo y combinada para que puedas colocar un personaje en nuevas escenas manteniendo la semejanza, aplicar estilos de imágenes de referencia o hacer ambas cosas a la vez.
Usa ByteDance USO cuando necesites una fuerte coherencia del sujeto con un control de estilo flexible y de alta calidad. El gráfico incluye dos ramas complementarias: una ruta de sujeto+estilo que se condiciona en una imagen de identidad, y una ruta impulsada por indicaciones que se puede utilizar con o sin referencias de estilo. Ambas rutas guardan imágenes de manera independiente para que puedas comparar resultados rápidamente.
Modelos clave en el flujo de trabajo Comfyui ByteDance USO
- FLUX.1‑dev. El transformador de difusión base que potencia la calidad y velocidad de generación. Proporciona la columna vertebral de muestreo utilizada por ByteDance USO en este flujo de trabajo. Model card
- ByteDance USO DiT LoRA v1. Un adaptador de bajo rango que inyecta capacidades de estilo y sujeto unificados en FLUX.1‑dev, permitiendo la preservación de identidad y guía de estilo en una configuración unificada. Los archivos se proporcionan en el paquete USO 1.0. Repository
- USO FLUX.1 Projector v1. Un parche de proyector que conecta las características de CLIP‑Vision a la columna vertebral de generación para que las señales de estilo y sujeto puedan guiar el modelo de manera efectiva. Incluido con el paquete USO. Repository
- SigCLIP Vision (patch14, 384). El codificador de visión que extrae incrustaciones de tus imágenes de referencia de estilo y sujeto, utilizado por los módulos USO para la guía visual. Repository
Cómo usar el flujo de trabajo Comfyui ByteDance USO
El gráfico tiene dos ramas que pueden ejecutarse de manera independiente. La rama superior usa una imagen de identidad más referencias de estilo; la rama inferior está impulsada por indicaciones y puede incluir opcionalmente referencias de estilo. Genera desde cualquiera de las ramas o ambas.
Paso 1 – Cargar Modelos
Este paso inicializa FLUX.1‑dev, el ByteDance USO LoRA, el proyector USO y el codificador de visión SigCLIP. Prepara el modelo base para la guía unificada de estilo y sujeto. Ambas ramas cargan el mismo conjunto para que puedas ejecutar flujos de trabajo de sujeto+estilo o indicaciones sin reconfigurar modelos. Una vez cargado, el flujo del modelo está listo para los procesadores de referencia de USO.
Paso 2 – Imagen de Sujeto/Identidad
Proporciona una imagen de identidad limpia de tu personaje. El flujo de trabajo la escala a un tamaño de trabajo adecuado y la codifica en un latente que preserva características faciales o de personaje clave. Este latente se fusiona con tu indicación para que ByteDance USO pueda colocar al sujeto en nuevas escenas manteniendo la identidad. Omite este paso si deseas generación solo de estilo o solo de texto.
Paso 3 – Referencia de Estilo
Agrega una o dos imágenes de estilo para guiar la paleta, los materiales y el trabajo de pincel. Cada imagen se codifica con el modelo de visión y se aplica a través de los nodos de referencia de estilo de USO, que superponen influencias de estilo en el modelo cargado. El orden importa cuando se usan dos referencias, ya que la segunda referencia se aplica después de la primera. Puedes omitir este grupo para ejecutar un pase solo impulsado por el sujeto o solo de texto.
Indicación
Escribe una indicación impulsada por la intención para composición, ambiente y detalles. En la rama de sujeto+estilo, tu indicación se combina con el latente de identidad y la guía de USO para que el texto, el sujeto y el estilo tiren en la misma dirección. En la rama impulsada por indicaciones, el texto solo (opcionalmente con referencias de estilo) dirige la imagen. Mantén las indicaciones específicas; evita contradecir el estilo elegido.
Tamaño de Imagen
Elige la resolución objetivo para la generación. El tamaño elegido influye en la compacidad de la composición y la densidad de detalle, especialmente para retratos frente a tomas de cuerpo completo. Si la VRAM está limitada, comienza más pequeño y escala más tarde. Ambas ramas exponen un nodo simple de tamaño de imagen para que puedas adaptar el aspecto y la fidelidad a tu caso de uso.
Muestreo y Salida
Cada rama muestrea con un muestreador estándar, decodifica a RGB y guarda en su propia salida. Normalmente obtendrás dos imágenes por ejecución: un resultado de sujeto estilizado y un resultado impulsado por indicaciones. Itera ajustando la indicación o intercambiando referencias; vuelve a muestrear para explorar alternativas o fija la semilla para repetibilidad.
Nodos clave en el flujo de trabajo Comfyui ByteDance USO
USOStyleReference (#56)
Aplica una imagen de estilo al flujo del modelo actual usando el proyector USO y las características de CLIP‑Vision. Usa una referencia para un aspecto fuerte y coherente o encadena dos para mezclas matizadas; la segunda referencia refina la primera. Si el estilo domina demasiado, intenta una referencia única y más limpia o simplifica su contenido.
ReferenceLatent (#44)
Inyecta el latente del sujeto codificado en la ruta de acondicionamiento para que ByteDance USO preserve la identidad. Funciona mejor con fotos de identidad despejadas que muestren claramente la cara del personaje o sus características definitorias. Si la identidad se desvanece, alimenta una referencia más completa o reduce las señales de estilo conflictivas.
FluxKontextMultiReferenceLatentMethod (#41)
Combina múltiples señales de referencia dentro de la vía de contexto FLUX. Aquí es donde el contexto del sujeto y la indicación se equilibran antes del muestreo. Si los resultados parecen demasiado restringidos, relaja las referencias; si se desvían, fortalece la imaginería del sujeto o simplifica la indicación.
FluxGuidance (#35)
Controla la fuerza de la guía de texto en relación con las señales de referencia. Valores más bajos permiten que el sujeto/estilo lideren; valores más altos imponen más fuertemente la indicación. Ajusta cuando veas que la indicación se ajusta poco (aumenta la guía) o que el estilo/sujeto se anulan (reduce la guía).
ImageScaleToMaxDimension (#109)
Prepara la imagen de identidad para la extracción de características estables. Los tamaños máximos más pequeños favorecen una composición más amplia; los tamaños más grandes ayudan cuando la referencia es un retrato ajustado y necesitas señales de identidad más nítidas. Ajusta según si tu referencia de sujeto es de cuerpo completo o un retrato.
EasyCache (#95)
Acelera la inferencia reutilizando estados intermedios cuando los cambios son menores. Ideal para ajustes de indicaciones y rápida iteración, pero puede reducir ligeramente los microdetalles. Desactívalo para renderizados finales de la más alta calidad.
KSampler (#31)
Ejecuta los pasos de difusión y controla la estocasticidad mediante la elección de semilla y muestreador. Aumenta los pasos para obtener más detalles, o bloquea la semilla para reproducir un aspecto mientras cambias las referencias. Si las texturas parecen ruidosas, intenta un muestreador diferente o menos pasos con una guía de estilo más fuerte.
Extras opcionales
- Para el trabajo de identidad de ByteDance USO, prefiere imágenes de sujetos neutrales e iluminadas uniformemente; evita el maquillaje pesado o ángulos extremos que puedan entrar en conflicto con las señales de estilo.
- Al apilar dos referencias de estilo, coloca primero la estética más amplia y la referencia de textura/detalle en segundo lugar para refinar sin sobrecargar la identidad.
- Mantén la indicación negativa mínima; el gráfico utiliza intencionalmente una ruta negativa neutral para que los priors aprendidos de USO y las referencias se alineen limpiamente.
- Itera rápidamente a menor resolución o con caché activado, luego desactiva el caché y escala tus semillas favoritas para los finales.
- Usa semillas reproducibles al comparar modos solo de sujeto, solo de estilo y combinados para entender cómo ByteDance USO equilibra cada señal.
Agradecimientos
Este flujo de trabajo implementa y se basa en los siguientes trabajos y recursos. Agradecemos a ByteDance por el modelo USO y al equipo de ComfyUI por el tutorial del flujo de trabajo nativo de ByteDance USO ComfyUI por sus contribuciones y mantenimiento. Para obtener detalles autorizados, consulta la documentación original y los repositorios vinculados a continuación.
Recursos
- ByteDance/USO
- GitHub: bytedance/USO
- Hugging Face: bytedance-research/USO
- arXiv: 2508.18966
- Docs / Release Notes: ByteDance USO Documentation
Nota: El uso de los modelos, conjuntos de datos y código referenciados está sujeto a las licencias y términos respectivos proporcionados por sus autores y mantenedores.

