ComfyUI Omost: 增強圖像創作

1. Omost 是什麼？

Omost，縮寫為 "您的圖像幾乎完成！"，是一個創新的項目，將大型語言模型 (LLM) 的編碼能力轉化為圖像生成，更精確地說，是圖像組成能力。名稱 "Omost" 有雙重含義：每次使用 Omost 時，您的圖像幾乎完成，也意味著 "omni"（多模態）和 "most"（充分利用它）。

Omost 提供預訓練的 LLM 模型，這些模型生成代碼以使用 Omost 的虛擬 Canvas 代理組合圖像視覺內容。然後，這個 Canvas 可以由特定的圖像生成器實現來渲染最終圖像。Omost 的設計旨在簡化和增強圖像生成過程，使其對 AI 藝術家來說更易於訪問和高效。

2. Omost 如何工作

2.1. Canvas 和描述

Omost 使用一個虛擬的 Canvas，圖像的元素在其中被描述和定位。Canvas 被劃分為 9x9=81 個位置，允許元素的精確放置。這些位置進一步細分為邊界框，提供 729 個不同的可能位置，以便每個元素精確放置。這種結構化的方法可確保元素被精確且一致地放置。

2.2. 深度和顏色

Canvas 上的元素被分配一個 distance_to_viewer 參數，這有助於將它們排序到從背景到前景的層次。此參數充當相對深度指標，確保較近的元素出現在較遠的元素前面。此外，HTML_web_color_name 參數提供了一個粗略的顏色表示，用於初始渲染，這可以使用擴散模型進一步完善。這種初始顏色有助於在微調前可視化構圖。

2.3. 提示工程

Omost 使用子提示，這是對元素的簡短、獨立描述，以生成詳細和連貫的圖像組成。每個子提示少於 75 個符號，並獨立描述一個元素。這些子提示被合併為完整的提示讓 LLM 處理，確保生成的圖像準確且語義豐富。這種方法確保了文本編碼的效率，避免了語義截斷錯誤。

2.4. 區域提示器

Omost 實施了先進的注意力操控技術來處理區域提示，確保圖像的每個部分根據給定的描述準確生成。技術如注意力得分操控確保在掩蔽區域內的激活受到鼓勵，而外部的則受到抑制。這種對注意力的精確控制導致高質量的區域特定圖像生成。

3. ComfyUI Omost 節點的詳細說明

3.1. Omost LLM 載入節點

Omost LLM 載入節點的輸入參數

llm_name: 要載入的預訓練 LLM 模型的名稱。可用選項包括：
- lllyasviel/omost-phi-3-mini-128k-8bits
- lllyasviel/omost-llama-3-8b-4bits
- lllyasviel/omost-dolphin-2.9-llama3-8b-4bits

此參數指定要載入的模型，每個模型提供不同的能力和優化。

Omost LLM 載入節點的輸出參數

OMOST_LLM: 載入的 LLM 模型。

此輸出提供載入的 LLM，準備生成圖像描述和組成。

3.2. Omost LLM 聊天節點

Omost LLM 聊天節點的輸入參數

llm: 由 OmostLLMLoader 載入的 LLM 模型。
text: 生成圖像的文本提示。這是您描述場景或要生成的元素的主要輸入。
max_new_tokens: 生成的新符號的最大數量。這控制生成文本的長度，數值越高允許更詳細的描述。
top_p: 控制生成輸出的多樣性。值越接近 1.0 包含更多多樣化的可能性，而較低的值則專注於最可能的結果。
temperature: 控制生成輸出的隨機性。較高的值導致更隨機的輸出，而較低的值使輸出更具決定性。
conversation (可選): 先前對話的上下文。這允許模型從先前的互動繼續，保持上下文和連貫性。

Omost LLM 聊天節點的輸出參數

OMOST_CONVERSATION: 對話歷史，包括新的回應。這有助於跟蹤對話並在多次互動中保持上下文。
OMOST_CANVAS_CONDITIONING: 用於渲染的生成 Canvas 調節參數。這些參數定義了元素在 Canvas 上的放置和描述方式。

3.3. Omost 渲染 Canvas 調節節點

Omost 渲染 Canvas 調節節點的輸入參數

canvas_conds: Canvas 調節參數。這些參數包括 Canvas 上元素的詳細描述和位置。

Omost 渲染 Canvas 調節節點的輸出參數

IMAGE: 基於 Canvas 調節的渲染圖像。此輸出是描述場景的視覺表示，從調節參數生成。

3.4. Omost 布局調節節點

Omost 布局調節節點的輸入參數

canvas_conds: Canvas 調節參數。
clip: 用於文本編碼的 CLIP 模型。此模型將文本描述編碼為向量，供圖像生成器使用。
global_strength: 全局調節的強度。這控制整體描述對圖像的影響程度。
region_strength: 區域調節的強度。這控制特定區域描述對其各自區域的影響程度。
overlap_method: 處理重疊區域的方法（例如，overlay, average）。這定義了如何融合圖像中的重疊區域。
positive (可選): 額外的正向調節。這可以包括額外的提示或條件，以增強圖像的特定方面。

Omost 布局調節節點的輸出參數

CONDITIONING: 圖像生成的調節參數。這些參數指導圖像生成過程，確保輸出與描述的場景匹配。
MASK: 用於調節的掩碼。這有助於調試和對特定區域應用附加條件。

3.5. Omost 載入 Canvas 調節節點

Omost 載入 Canvas 調節節點的輸入參數

json_str: 表示 Canvas 調節參數的 JSON 字符串。這允許從 JSON 文件載入預定義的條件。

Omost 載入 Canvas 調節節點的輸出參數

OMOST_CANVAS_CONDITIONING: 載入的 Canvas 調節參數。這些參數用特定條件初始化 Canvas，準備進行圖像生成。

Want More ComfyUI Workflows?

FLUX.2 Dev LoRA 推論 | AI Toolkit ComfyUI

使用單個 RunComfy RC 自定義節點，在 ComfyUI 中運行由 AI Toolkit 訓練的 FLUX.2 Dev LoRA，並實現訓練匹配的行為。

創意 Software Soap

結合 IPAdapter 和 ControlNet 以高效應用材質並增強視覺效果。

Cosmos-Predict2 | Text2Image & Video2World

快速且真實！NVIDIA Cosmos 擁有真實物理效果。

Face to Many | 3D, Emoji, Pixel, Clay, Toy, Video game

利用 LoRA 模型、ControlNet 和 InstantID 進行高級面孔多風格轉換

Stable Diffusion 3 (SD3) | 文字生成圖像

將 Stable Diffusion 3 中間模型整合到您的工作流程中，創作出卓越的 AI 藝術作品。

ComfyUI Grounding | 物件追蹤工作流程

以像素級精準度追蹤任何主體，實現驚人的視覺效果。

PuLID | 精確的文本到圖像人臉嵌入

使用 PuLID 和 IPAdapter Plus 無縫整合面部身份和控制風格。

IPAdapter Plus (V2) + ControlNet | 圖像轉視頻

使用 ComfyUI IPAdapter Plus 和 ControlNet QRCode 將圖像轉換為動畫。

關注我們

支持

資源

法律

RunComfy

RunComfy 是首選的 ComfyUI 平台，提供 ComfyUI 在線環境和服務，以及 ComfyUI 工作流程具有驚豔的視覺效果。 RunComfy還提供 AI Models, 幫助藝術家利用最新的AI工具創作出令人驚艷的藝術作品。

Omost | 增強圖像創作