Omost, zkratka pro "Váš obrázek je téměř hotový!", je inovativní projekt, který převádí kódovací schopnosti Large Language Models (LLM) do generování obrázků, nebo přesněji řečeno, do schopností komponování obrázků. Název "Omost" má dvojí význam: naznačuje, že pokaždé, když použijete Omost, váš obrázek je téměř hotový, a také znamená "omni" (multi-modal) a "most" (získání maxima z toho).
Omost poskytuje předtrénované LLM modely, které generují kód pro komponování vizuálního obsahu obrázků pomocí virtuálního Canvas agenta Omost. Tento Canvas může být poté vykreslen specifickými implementacemi generátorů obrázků k vytvoření finálních obrázků. Omost je navržen tak, aby zjednodušil a zefektivnil proces generování obrázků, což jej činí přístupným a efektivním pro AI umělce.
Omost používá virtuální Canvas, kde jsou prvky obrázku popsány a umístěny. Canvas je rozdělen do mřížky 9x9=81 pozic, což umožňuje přesné umístění prvků. Tyto pozice jsou dále rozděleny do ohraničujících boxů, poskytujících 729 různých možných umístění pro každý prvek. Tento strukturovaný přístup zajišťuje, že prvky jsou umístěny přesně a konzistentně.
Prvky na Canvasu jsou přiřazeny parametru distance_to_viewer
, který pomáhá třídit je do vrstev od pozadí k popředí. Tento parametr funguje jako relativní ukazatel hloubky, zajišťující, že bližší prvky se objeví před těmi vzdálenějšími. Navíc parametr HTML_web_color_name
poskytuje hrubou barevnou reprezentaci pro počáteční vykreslení, které může být upřesněno pomocí difuzních modelů. Tato počáteční barva pomáhá vizualizovat kompozici před jemným doladěním.
Omost používá sub-prompty, což jsou krátké, samostatné popisy prvků, k generování detailních a koherentních obrazových kompozic. Každý sub-prompt má méně než 75 tokenů a popisuje prvek nezávisle. Tyto sub-prompty jsou sloučeny do kompletních promptů pro zpracování LLM, což zajišťuje, že generované obrázky jsou přesné a sémanticky bohaté. Tato metoda zajišťuje, že textové kódování je efektivní a vyhýbá se sémantickým chybám oříznutí.
Omost implementuje pokročilé techniky manipulace s pozorností k práci s regionálními prompty, zajišťující, že každá část obrázku je generována přesně na základě daných popisů. Techniky jako manipulace se skóre pozornosti zajišťují, že aktivace v maskovaných oblastech jsou podporovány, zatímco ty mimo jsou potlačovány. Tato přesná kontrola nad pozorností vede k vysoce kvalitnímu, regionálně specifickému generování obrázků.
llm_name
: Název předtrénovaného LLM modelu k načtení. Dostupné možnosti zahrnují:
lllyasviel/omost-phi-3-mini-128k-8bits
lllyasviel/omost-llama-3-8b-4bits
lllyasviel/omost-dolphin-2.9-llama3-8b-4bits
Tento parametr specifikuje, který model načíst, každý nabízí různé schopnosti a optimalizace.
OMOST_LLM
: Načtený LLM model.Tento výstup poskytuje načtený LLM, připravený generovat popisy a kompozice obrázků.
llm
: LLM model načtený uzlem OmostLLMLoader
.text
: Textový prompt pro generování obrázku. Toto je hlavní vstup, kde popisujete scénu nebo prvky, které chcete generovat.max_new_tokens
: Maximální počet nových tokenů k generování. To kontroluje délku generovaného textu, s vyšším počtem umožňujícím detailnější popisy.top_p
: Kontroluje rozmanitost generovaného výstupu. Hodnota blíže k 1.0 zahrnuje více různých možností, zatímco nižší hodnota se soustředí na nejpravděpodobnější výsledky.temperature
: Kontroluje náhodnost generovaného výstupu. Vyšší hodnoty vedou k náhodnějším výstupům, zatímco nižší hodnoty činí výstup více deterministickým.conversation
(volitelné): Kontext předchozí konverzace. To umožňuje modelu pokračovat z předchozích interakcí, udržující kontext a koherenci.OMOST_CONVERSATION
: Historie konverzace, včetně nové odpovědi. To pomáhá sledovat dialog a udržovat kontext napříč více interakcemi.OMOST_CANVAS_CONDITIONING
: Generované parametry kondicionování Canvasu pro vykreslení. Tyto parametry definují, jak jsou prvky umístěny a popsány na Canvasu.canvas_conds
: Parametry kondicionování Canvasu. Tyto parametry zahrnují detailní popisy a pozice prvků na Canvasu.IMAGE
: Vykreslený obrázek na základě kondicionování Canvasu. Tento výstup je vizuální reprezentací popsané scény, generovanou z kondicionačních parametrů.canvas_conds
: Parametry kondicionování Canvasu.clip
: CLIP model pro textové kódování. Tento model kóduje textové popisy do vektorů, které mohou být použity generátorem obrázků.global_strength
: Síla globálního kondicionování. To kontroluje, jak silně celkový popis ovlivňuje obrázek.region_strength
: Síla regionálního kondicionování. To kontroluje, jak silně specifické regionální popisy ovlivňují jejich příslušné oblasti.overlap_method
: Metoda pro manipulaci s překrývajícími se oblastmi (např. overlay
, average
). To definuje, jak blendovat překrývající se oblasti v obrázku.positive
(volitelné): Další pozitivní kondicionování. To může zahrnovat extra prompty nebo podmínky k vylepšení specifických aspektů obrázku.CONDITIONING
: Kondicionační parametry pro generování obrázků. Tyto parametry řídí proces generování obrázků, zajišťující, že výstup odpovídá popsané scéně.MASK
: Maska použitá pro kondicionování. To pomáhá při ladění a aplikaci dalších podmínek na specifické oblasti.json_str
: JSON string reprezentující parametry kondicionování Canvasu. To umožňuje načítání předdefinovaných podmínek z JSON souboru.OMOST_CANVAS_CONDITIONING
: Načtené parametry kondicionování Canvasu. Tyto parametry inicializují Canvas se specifickými podmínkami, připravené pro generování obrázků.© Autorská práva 2024 RunComfy. Všechna práva vyhrazena.