Stable Diffusion 3(SD3)| テキストから画像へ

Stable Diffusion 3ノードは、RunComfy Betaバージョンで利用可能になりました。このワークフローで直接Stable Diffusion 3ノードを使用したり、既存のワークフローにStable Diffusion 3ノードを統合したりできます。最初にStability APIキーページからAPIキーを取得してください。

ComfyUIワークフロー

Stable Diffusion 3 in ComfyUI
このワークフローを実行しますか?
  • 完全に動作するワークフロー
  • 欠落したノードやモデルはありません
  • 手動セットアップは不要
  • 魅力的なビジュアルを特徴としています

leverage-stable-diffusion-3-for-advanced-visuals-1089

説明

1. Stable Diffusion 3をクリエイティブ・ワークフローに統合する

1.1. Stable Diffusion 3 APIを始める

Stable Diffusion 3をプロジェクトに組み込むには、まずStability AI Developer Platform APIから標準版とTurboバリアントの両方のAPIにアクセスします。

  • APIキーの取得: まず、Stability APIキーを取得します。最初に25個の無料クレジットが提供され、画像の生成に使用できます。
  • 使用コスト:
    • SD3: 画像1枚の生成に6.5クレジットかかります。
    • SD3 Turbo: 画像1枚あたり4クレジットと、より費用対効果の高いオプションです。

APIキーに十分なクレジットがあることを確認してください。プロンプトをキューに入れても結果が得られない場合は、Stability Platformでクレジット残高を確認してください。😃

1.2. Stable Diffusion 3ノードをワークフローに統合する(RunComfy Betaバージョンを使用)

**Stable Diffusion 3ノードは、RunComfy Betaバージョンにプリロードされており、**プロジェクトで簡単に利用できます。このワークフローで直接Stable Diffusion 3ノードを使用するか、既存のワークフローにStable Diffusion 3ノードを統合するかを選択できます。

Stable Diffusion 3ノードの主な機能は次のとおりです:

  • ポジティブ・プロンプト: アートワークの特定のテーマや要素に焦点を合わせるようモデルに指示します。
  • ネガティブ・プロンプト: 画像で避けるべき要素を指定します。(注: SD3 Turboモデルはネガティブ・プロンプトをサポートしていません。)
  • アスペクト比: "21:9"、"16:9"、"5:4"、"3:2"、"1:1"、"2:3"、"4:5"、"9:16"、"9:21"など、幅広い範囲から選択できます。(注: SD3のimage-to-imageモードではアスペクト比の選択はサポートされていません。)
  • モード: text-to-imageとimage-to-imageの両方のモードで設定可能。
  • モデル・オプション: SD3とSD3 Turboの両方のモデルをサポート。
  • Seed: 生成された画像の一貫性を確保。
  • Strength: image-to-imageモードに適用可能。
ComfyUI Stable Diffusion 3

2. Stable Diffusion 3とは

Stable Diffusion 3は、テキスト・プロンプトから画像を生成するために特別に設計された最先端のAIモデルです。Stable Diffusionシリーズの第3世代であり、初期バージョンやDALL·E 3、Midjourney v6、Ideogram v1などの他のモデルと比較して、プロンプトのニュアンスへの適合性や視覚的な美しさの向上を目指しています。

3. Stable Diffusion 3の技術アーキテクチャ

Stable Diffusion 3の中核にあるのは、Multimodal Diffusion Transformer(MMDiT)アーキテクチャです。この革新的なフレームワークは、モデルがテキストと視覚情報を処理・統合する方法を強化します。画像とテキストの処理に単一のニューラルネットワーク重みセットを利用する従来モデルとは異なり、Stable Diffusion 3はモダリティごとに別々の重みセットを採用しています。この分離により、テキストと画像データをより専門的に処理できるため、テキストの理解と生成される画像のスペルが向上します。

MMDiTアーキテクチャのコンポーネント

  • Text Embedders: Stable Diffusion 3は、2つのCLIPモデルとT5を含む3つのテキスト埋め込みモデルの組み合わせを使用して、テキストをAIが理解・処理できる形式に変換します。
  • Image Encoder: 強化された自動エンコーディング・モデルを使用して、画像をAIが操作して新しいビジュアル・コンテンツを生成するのに適した形式に変換します。
  • Dual Transformer Approach: このアーキテクチャは、テキストと画像に対して独立して動作するが、アテンション操作のために相互接続された2つの異なるトランスフォーマーを特徴としています。この設定により、両方のモダリティが直接互いに影響を与え合い、テキスト入力と画像出力の間のコヒーレンスを高めます。

4. Stable Diffusion 3の新機能と改善点

  • プロンプトへの適合: SD3は、特に複雑なシーンや複数の被写体を含むプロンプトの詳細に密接に従うことに優れています。詳細なプロンプトを理解しレンダリングする精度により、DALL·E 3、Midjourney v6、Ideogram v1など他の主要モデルを上回り、厳密な指示に従う必要があるプロジェクトに非常に信頼性の高いモデルとなっています。
  • 画像内のテキスト: 高度なMultimodal Diffusion Transformer(MMDiT)アーキテクチャにより、SD3は画像内のテキストの明瞭さと可読性を大幅に向上させます。画像と言語データを処理するための別々の重みセットを採用することで、モデルは優れたテキスト理解とスペルの正確さを実現しています。これは、Stable Diffusionの初期バージョンからの大幅な改善であり、テキスト・ツー・イメージAIアプリケーションの一般的な課題の1つに取り組んでいます。
  • 視覚的品質: SD3は、競合他社が生成する画像の視覚的品質に匹敵するだけでなく、多くの場合それを上回ります。生成された画像は、美しいだけでなく、モデルのテキスト記述を解釈・視覚化する洗練された能力のおかげで、プロンプトに対する高い忠実度を維持しています。これにより、SD3は生成された画像に優れた視覚的美しさを求めるユーザーにとって最良の選択肢となります。
ComfyUI Stable Diffusion 3

モデルの詳細については、Stable Diffusion 3の研究論文をご覧ください。

より多くのComfyUIワークフローが必要ですか?