Stable Diffusion 3 (SD3) | Texto a imagen

El nodo Stable Diffusion 3 ahora está disponible en la versión beta de RunComfy, lo que lo hace fácilmente accesible para sus proyectos. Puede usar el nodo Stable Diffusion 3 directamente dentro de este flujo de trabajo o integrarlo en sus flujos de trabajo existentes. Asegúrese de obtener primero su clave API de la página de claves de la API de Stability para.

Flujo de trabajo de ComfyUI

Stable Diffusion 3 in ComfyUI
¿Quiere ejecutar este flujo de trabajo?
  • Flujos de trabajo completamente operativos
  • Sin nodos ni modelos faltantes
  • No se requiere configuración manual
  • Presenta visuales impresionantes

Ejemplos

leverage-stable-diffusion-3-for-advanced-visuals-1089

Descripción

1. Integrando Stable Diffusion 3 en su flujo de trabajo creativo

1.1. Comenzando con la API de Stable Diffusion 3

Para incorporar Stable Diffusion 3 en sus proyectos, comience accediendo a las API tanto para la versión estándar como para la variante Turbo a través de la Plataforma de desarrolladores de Stability AI API.

  • Obteniendo su clave API: Primero, obtenga su clave de la API de Stability. Recibirá 25 créditos gratis para comenzar, que puede usar para generar imágenes.
  • Costos de uso:
    • SD3: Cada generación de imágenes cuesta 6.5 créditos.
    • SD3 Turbo: Una opción más económica a 4 créditos por imagen.

Asegúrese de que su clave API tenga suficiente crédito. Si pone en cola un mensaje pero no recibe un resultado, verifique su saldo de crédito en la Plataforma de Stability. 😃

1.2. Integrando el nodo Stable Diffusion 3 en su flujo de trabajo (use la versión beta de RunComfy)

El nodo Stable Diffusion 3 ahora está precargado en la versión beta de RunComfy, lo que lo hace fácilmente accesible para sus proyectos. Tiene la flexibilidad de usar el nodo Stable Diffusion 3 directamente dentro de este flujo de trabajo o integrarlo en sus flujos de trabajo existentes.

Estas son algunas características clave del nodo Stable Diffusion 3:

  • Mensajes positivos: Indique al modelo que se enfoque en temas o elementos específicos en su obra de arte.
  • Mensajes negativos: Especifique qué elementos deben evitarse en las imágenes. (Nota: El modelo SD3 Turbo no admite mensajes negativos).
  • Relaciones de aspecto: Elija entre una amplia gama, que incluye "21:9", "16:9", "5:4", "3:2", "1:1", "2:3", "4:5", "9:16", "9:21". (Nota: El modo de imagen a imagen de SD3 no admite la selección de relación de aspecto).
  • Modo: Configurable tanto para el modo de texto a imagen como de imagen a imagen.
  • Opciones de modelo: Incluye soporte para modelos SD3 y SD3 Turbo.
  • Semilla: Asegura la consistencia entre las imágenes generadas.
  • Fuerza: Esto es aplicable para el modo de imagen a imagen.
ComfyUI Stable Diffusion 3

2. Qué es Stable Diffusion 3

Stable Diffusion 3 es un modelo de IA de vanguardia diseñado específicamente para generar imágenes a partir de mensajes de texto. Representa la tercera iteración en la serie Stable Diffusion y tiene como objetivo ofrecer una mejor precisión, una mejor adherencia a los matices de los mensajes y una estética visual superior en comparación con las versiones anteriores y otros modelos como DALL·E 3, Midjourney v6 e Ideogram v1.

3. Arquitectura técnica de Stable Diffusion 3

En el núcleo de Stable Diffusion 3 se encuentra la arquitectura Multimodal Diffusion Transformer (MMDiT). Este marco innovador mejora la forma en que el modelo procesa e integra información textual y visual. A diferencia de sus predecesores que utilizaban un solo conjunto de pesos de red neuronal tanto para el procesamiento de imágenes como de texto, Stable Diffusion 3 emplea conjuntos de pesos separados para cada modalidad. Esta separación permite un manejo más especializado de los datos de texto e imagen, lo que lleva a una mejor comprensión del texto y ortografía en las imágenes generadas.

Componentes de la arquitectura MMDiT

  • Incrustadores de texto: Stable Diffusion 3 utiliza una combinación de tres modelos de incrustación de texto, incluidos dos modelos CLIP y T5, para convertir el texto en un formato que la IA pueda entender y procesar.
  • Codificador de imagen: Se utiliza un modelo de autocodificación mejorado para convertir imágenes en una forma adecuada para que la IA las manipule y genere nuevo contenido visual.
  • Enfoque de transformador dual: La arquitectura cuenta con dos transformadores distintos para texto e imágenes, que operan de manera independiente pero están interconectados para las operaciones de atención. Esta configuración permite que ambas modalidades se influyan directamente entre sí, mejorando la coherencia entre la entrada de texto y la salida de imagen.

4. Qué hay de nuevo y mejorado en Stable Diffusion 3

  • Adherencia a los mensajes: SD3 se destaca en seguir de cerca los detalles de los mensajes del usuario, particularmente aquellos que involucran escenas complejas o múltiples sujetos. Esta precisión en la comprensión y representación de mensajes detallados le permite superar a otros modelos líderes como DALL·E 3, Midjourney v6 e Ideogram v1, lo que lo hace altamente confiable para proyectos que requieren un cumplimiento estricto de las instrucciones dadas.
  • Texto en imágenes: Con su avanzada arquitectura Multimodal Diffusion Transformer (MMDiT), SD3 mejora significativamente la claridad y legibilidad del texto dentro de las imágenes. Al emplear conjuntos separados de pesos para procesar datos de imágenes y lenguaje, el modelo logra una comprensión de texto y una precisión ortográfica superiores. Esta es una mejora sustancial con respecto a las versiones anteriores de Stable Diffusion, y aborda uno de los desafíos comunes en las aplicaciones de IA de texto a imagen.
  • Calidad visual: SD3 no solo iguala sino que en muchos casos supera la calidad visual de las imágenes generadas por sus competidores. Las imágenes producidas no solo son estéticamente agradables, sino que también mantienen una alta fidelidad a los mensajes, gracias a la capacidad refinada del modelo para interpretar y visualizar descripciones textuales. Esto convierte a SD3 en la mejor opción para los usuarios que buscan una estética visual excepcional en sus imágenes generadas.
ComfyUI Stable Diffusion 3

Para obtener información detallada sobre el modelo, visite el documento de investigación de Stable Diffusion 3.

¿Quiere más flujos de trabajo de ComfyUI?