ComfyUI>ワークフロー>OmniGen2 | テキストから画像生成 & 編集

OmniGen2 | テキストから画像生成 & 編集

Workflow Name: RunComfy/OmniGen2-Native

Workflow ID: 0000...1247

ComfyUI で OmniGen2 の統合マルチモーダル生成の力を体験してください。このワークフローは、デュアルパス Transformer アーキテクチャを備えた 7B パラメータモデルを使用して、優れたテキストから画像生成とテキストガイド付き画像編集を実現します。Qwen 2.5 VL 基盤に基づいて構築された OmniGen2 は、構成理解、長いプロンプトのフォロー、視覚品質と一貫性を保ちながらの正確な画像修正に優れています。

OmniGen2 ComfyUI ワークフローとは？

OmniGen2 ComfyUI ワークフローは、統合されたマルチモーダル生成を手元に提供し、テキストから画像の合成と命令に基づく画像編集を単一の強力なフレームワークで組み合わせます。これは、テキストの説明から驚くべき画像を生成するだけでなく、複雑な編集コマンドを驚くべき精度で理解して実行するクリエイティブな AI アシスタントを持つことと考えてください。

このワークフローは、Qwen 2.5 VL 基盤に基づく高度な 7B パラメータモデルを活用し、独自のデュアルパス Transformer アーキテクチャを特徴としています。このモデルを特別にするのは、その分離された設計です - テキストと画像の生成に別々の経路を使用し、優れた言語理解を維持しながら、あなたのクリエイティブなビジョンに忠実な高精度な視覚出力を提供します。

OmniGen2 の主な機能と利点

デュアル生成モード: OmniGen2 は、自然言語コマンドを通じて新しい画像をテキストから作成したり、既存の画像を編集したりします。

高度なアーキテクチャ: OmniGen2 のデュアルパス設計は、テキストと画像処理を分離して最適なパフォーマンスを実現します。

構成理解: OmniGen2 は、複雑なマルチエレメントプロンプトを驚異的な精度で処理します。

正確な画像編集: OmniGen2 の高度なアルゴリズムを使用して、画像の残りを完璧に保ちながらターゲットを絞った変更を行います。

マルチモーダル反射: OmniGen2 は自己分析し、結果を改善するために出力を洗練します。

ComfyUI での OmniGen2 の使用方法

OmniGen2 テキストから画像ワークフロー

画像の寸法を設定する

EmptySD3LatentImage ノードを使用して OmniGen2 の出力サイズを定義します:
- OmniGen2 のニーズに基づいて幅と高さを調整します
- 単一の画像生成のために batch_size を 1 に保ちます

テキストプロンプトを作成する

OmniGen2 の CLIP Text Encode (Prompt) ノードで:
- 最初のエンコーダーに詳細で記述的なプロンプトを書きます
- 2 番目のエンコーダーを空にするか、ネガティブプロンプトを追加します
- OmniGen2 は複雑な構成の説明に優れています

生成と保存

Run を押して OmniGen2 イメージを作成します
VAE Decode が潜在変数を最終画像に変換します
Save Image が OmniGen2 の創作を出力フォルダに自動的に保存します

OmniGen2 画像編集ワークフロー

ソース画像をアップロードする

OmniGen2 で編集したい画像をインポートするには Load Image ノードを使用します

編集指示を書き込む

OmniGen2 の CLIP Text Encode (Prompt) ノードで:
- 変更したい内容を明確かつ具体的に記述します
- 例: "キャラクターの髪の色を自然なシルバーに変える", "アビエーターサングラスを追加"
- 自然言語コマンドは OmniGen2 で完璧に機能します

OmniGen2 編集パラメータを設定する

Scale Image to Total Pixels ノード:
- upscale_method: area (リサイズ中の品質を維持)
- megapixels: 2.00 (総ピクセル数を制御)
  - これは画像を約 200 万ピクセルにリサイズします
  - 例えば、1920x1080 の画像を ~2MP に維持するようにスケールします
  - 高い値 = より詳細だが処理が遅い
  - 低い値 = 生成が速いが詳細が少ない
  - 2.00 は編集機能に最適です
VAE Encode がスケールされた画像を潜在空間に変換します

オプション: 2 つ目の画像入力を有効にする

紫色の（バイパスされた）ノードはマルチイメージ操作を可能にします:
- Ctrl+B を押してバイパスモードを切り替えます
- スタイル転送やオブジェクト挿入のために 2 つ目の画像をアップロードします
- 例えば "画像 1 と画像 2 の要素を組み合わせる" のようなタスクに最適です

編集された結果を生成する

OmniGen2 ワークフローを実行して編集を適用した結果を確認します
結果は高い忠実度を維持しながら指示に正確に従います

謝辞

この ComfyUI ワークフローは、北京人工知能研究所の研究者によって開発された画期的な OmniGen2 モデルを統合しています。この 7B パラメータモデルで実現可能なことの限界を押し広げる統合マルチモーダル生成システムを作成したチームに特別な感謝を捧げます。アーキテクチャは、モデル効率と生成品質のバランスを取る上での重要な進歩を表しています。

OmniGen2 に関するさらなるリソース

OmniGen2 はオープンソースライセンスの下でリリースされており、研究および商用アプリケーションのために無料で利用可能です。OmniGen2 に関する詳細情報:

GitHub リポジトリ - 公式の実装とモデルアーキテクチャの詳細: VectorSpaceLab/OmniGen2
プロジェクトページ - デモと技術的な洞察を含む包括的な概要: 公式ページ
ComfyUI 例 - ステップバイステップのチュートリアルと追加のワークフロー: ComfyUI Examples

Want More ComfyUI Workflows?

FLUX Kontext Dev | インテリジェント画像編集

Kontext Dev = 制御可能 + すべてのグラフィックデザインニーズを一つのツールで

DreamO | 統合マルチタスク画像カスタマイズフレームワーク

1〜3枚の参照からアイデンティティ、スタイル、トライオン、マルチコンディション画像生成を実行

BAGEL AI | T2I + I2T + I2I

オープンソースAIによるマルチモーダルの理解と生成。

Step1X-Edit | AI画像編集ツール

Step1X-Editで自然言語で11の編集操作を実行します。

Cosmos-Predict2 | Text2Image & Video2World

速くて本物！NVIDIA Cosmosで真の物理学を体験。

ControlNet Tile + 4x UltraSharp | 画像/動画アップスケーラー

ControlNet Tile、4xUltraSharp、フレーム補間を使用して高解像度の結果を得ます。

Hunyuan LoRA

ダウンロードしたHunyuan LoRAを使用して、ビデオ生成におけるスタイルとキャラクターの一貫性を制御します。

製品リライティングビデオ | Vid2Vid

ビデオとライトマスクを入力してリライティングビデオを生成する

フォローする

サポート

リソース

法的情報

RunComfy

RunComfyは最高の ComfyUI プラットフォームです。次のものを提供しています: ComfyUIオンライン環境とサービス、および ComfyUIワークフロー魅力的なビジュアルが特徴です。 RunComfyはまた提供します AI Playground, アーティストが最新のAIツールを活用して素晴らしいアートを作成できるようにする。