Stable Diffusion 3 (SD3) | Text zu Bild

Stable Diffusion 3 Node ist jetzt in der RunComfy Beta Version verfügbar und kann somit einfach in Ihre Projekte eingebunden werden. Sie können den Stable Diffusion 3 Node direkt in diesem Workflow verwenden oder in Ihre bestehenden Workflows integrieren. Bitte stellen Sie sicher, dass Sie zuerst Ihren API-Schlüssel von der Stability API-Schlüsselseite erhalten haben.

ComfyUI Workflow

Stable Diffusion 3 in ComfyUI
Möchtest du diesen Workflow ausführen?
  • Voll funktionsfähige Workflows
  • Keine fehlenden Nodes oder Modelle
  • Keine manuelle Einrichtung erforderlich
  • Beeindruckende Visualisierungen

Beispiele

leverage-stable-diffusion-3-for-advanced-visuals-1089

Beschreibung

1. Integration von Stable Diffusion 3 in Ihren kreativen Workflow

1.1. Erste Schritte mit der Stable Diffusion 3 API

Um Stable Diffusion 3 in Ihre Projekte zu integrieren, beginnen Sie mit dem Zugriff auf die APIs sowohl für die Standardversion als auch für die Turbo-Variante über die Stability AI Developer Platform API.

  • Ihren API-Schlüssel erhalten: Holen Sie sich zunächst Ihren Stability API-Schlüssel. Sie erhalten 25 kostenlose Credits, mit denen Sie Bilder generieren können.
  • Nutzungskosten:
    • SD3: Jede Bilderzeugung kostet 6,5 Credits.
    • SD3 Turbo: Eine kostengünstigere Option mit 4 Credits pro Bild.

Bitte stellen Sie sicher, dass Ihr API-Schlüssel über ausreichend Guthaben verfügt. Wenn Sie eine Eingabeaufforderung in die Warteschlange stellen, aber kein Ergebnis erhalten, überprüfen Sie Ihr Guthaben auf der Stability-Plattform. 😃

1.2. Integration des Stable Diffusion 3 Node in Ihren Workflow (Verwenden Sie die RunComfy Beta Version)

Der Stable Diffusion 3 Node ist jetzt in die RunComfy Beta Version vorgeladen, wodurch er mühelos für Ihre Projekte zugänglich ist. Sie haben die Flexibilität, den Stable Diffusion 3 Node entweder direkt in diesem Workflow zu verwenden oder in Ihre bestehenden Workflows zu integrieren.

Hier sind einige Schlüsselfunktionen des Stable Diffusion 3 Node:

  • Positive Prompts: Lenken Sie das Modell darauf, sich auf bestimmte Themen oder Elemente in Ihrem Kunstwerk zu konzentrieren.
  • Negative Prompts: Geben Sie an, welche Elemente in den Bildern vermieden werden sollen. (Hinweis: Das SD3 Turbo-Modell unterstützt keine negativen Prompts.)
  • Seitenverhältnisse: Wählen Sie aus einer breiten Palette, darunter "21:9", "16:9", "5:4", "3:2", "1:1", "2:3", "4:5", "9:16", "9:21". (Hinweis: Der Bild-zu-Bild-Modus von SD3 unterstützt keine Auswahl des Seitenverhältnisses.)
  • Modus: Konfigurierbar für Text-zu-Bild und Bild-zu-Bild.
  • Modelloptionen: Beinhaltet Unterstützung für SD3 und SD3 Turbo Modelle.
  • Seed: Gewährleistet Konsistenz bei generierten Bildern.
  • Stärke: Gilt für den Bild-zu-Bild-Modus.
ComfyUI Stable Diffusion 3

2. Was ist Stable Diffusion 3

Stable Diffusion 3 ist ein hochmodernes KI-Modell, das speziell für die Erzeugung von Bildern aus Texteingaben entwickelt wurde. Es stellt die dritte Iteration in der Stable Diffusion-Serie dar und zielt darauf ab, im Vergleich zu früheren Versionen und anderen Modellen wie DALL·E 3, Midjourney v6 und Ideogram v1 eine verbesserte Genauigkeit, eine bessere Einhaltung der Nuancen von Prompts und eine überlegene visuelle Ästhetik zu liefern.

3. Technische Architektur von Stable Diffusion 3

Im Kern von Stable Diffusion 3 liegt die Architektur des Multimodalen Diffusions-Transformers (MMDiT). Dieses innovative Framework verbessert die Art und Weise, wie das Modell Text- und Bildinformationen verarbeitet und integriert. Im Gegensatz zu seinen Vorgängern, die einen einzigen Satz von neuronalen Netzgewichten sowohl für die Bild- als auch für die Textverarbeitung verwendeten, nutzt Stable Diffusion 3 separate Gewichtssätze für jede Modalität. Diese Trennung ermöglicht eine spezialisiertere Behandlung von Text- und Bilddaten, was zu einem verbesserten Textverständnis und einer besseren Rechtschreibung in den generierten Bildern führt.

Komponenten der MMDiT-Architektur

  • Text-Embedder: Stable Diffusion 3 verwendet eine Kombination aus drei Text-Embedding-Modellen, darunter zwei CLIP-Modelle und T5, um Text in ein Format umzuwandeln, das die KI verstehen und verarbeiten kann.
  • Bild-Encoder: Ein verbessertes Autoencoding-Modell wird verwendet, um Bilder in eine Form umzuwandeln, die für die KI zur Manipulation und Erzeugung neuer visueller Inhalte geeignet ist.
  • Dualer Transformer-Ansatz: Die Architektur verfügt über zwei unterschiedliche Transformer für Text und Bilder, die unabhängig voneinander arbeiten, aber für Aufmerksamkeitsoperationen miteinander verbunden sind. Dieser Aufbau ermöglicht es beiden Modalitäten, sich direkt gegenseitig zu beeinflussen, was die Kohärenz zwischen der Texteingabe und der Bildausgabe verbessert.

4. Was ist neu und verbessert in Stable Diffusion 3

  • Einhaltung von Prompts: SD3 zeichnet sich dadurch aus, dass es die Spezifikationen von Benutzereingaben genau befolgt, insbesondere solche, die komplexe Szenen oder mehrere Subjekte beinhalten. Diese Präzision beim Verständnis und bei der Darstellung detaillierter Prompts ermöglicht es, andere führende Modelle wie DALL·E 3, Midjourney v6 und Ideogram v1 zu übertreffen, wodurch es für Projekte, die eine strikte Einhaltung der vorgegebenen Anweisungen erfordern, äußerst zuverlässig ist.
  • Text in Bildern: Mit seiner fortschrittlichen Multimodal Diffusion Transformer (MMDiT) Architektur verbessert SD3 die Klarheit und Lesbarkeit von Text in Bildern erheblich. Durch den Einsatz getrennter Gewichtssätze zur Verarbeitung von Bild- und Sprachdaten erreicht das Modell ein überlegenes Textverständnis und eine höhere Rechtschreibgenauigkeit. Dies stellt eine wesentliche Verbesserung gegenüber früheren Versionen von Stable Diffusion dar und behebt eine der häufigen Herausforderungen bei Text-zu-Bild-KI-Anwendungen.
  • Visuelle Qualität: SD3 erreicht nicht nur die visuelle Qualität der von Konkurrenten generierten Bilder, sondern übertrifft diese in vielen Fällen sogar. Die erzeugten Bilder sind nicht nur ästhetisch ansprechend, sondern halten auch eine hohe Übereinstimmung mit den Prompts, dank der verfeinerten Fähigkeit des Modells, textuelle Beschreibungen zu interpretieren und zu visualisieren. Damit ist SD3 eine Top-Wahl für Anwender, die eine außergewöhnliche visuelle Ästhetik in ihren generierten Bildern suchen.
ComfyUI Stable Diffusion 3

Für detaillierte Einblicke in das Modell besuchen Sie bitte das Stable Diffusion 3 Forschungspapier.

Möchtest du mehr ComfyUI Workflows?