Omost, kort for "Dit billede er næsten færdigt!", er et innovativt projekt, der omdanner Large Language Models' (LLM) kodningsevner til billedgenerering, eller mere præcist, billedkomponeringsevner. Navnet "Omost" har en dobbelt betydning: det indebærer, at hver gang du bruger Omost, er dit billede næsten færdigt, og det betyder også "omni" (multi-modal) og "most" (at få det meste ud af det).
Omost leverer prætrænede LLM-modeller, der genererer kode til at komponere billedvisuelt indhold ved hjælp af Omost's virtuelle Canvas agent. Dette Canvas kan derefter gengives af specifikke implementeringer af billedgeneratorer til at skabe de endelige billeder. Omost er designet til at forenkle og forbedre billedgenereringsprocessen, hvilket gør det tilgængeligt og effektivt for AI-kunstnere.
Omost bruger et virtuelt Canvas, hvor elementer af billedet beskrives og placeres. Canvas er opdelt i et gitter på 9x9=81 positioner, hvilket muliggør præcis placering af elementer. Disse positioner er yderligere raffinerede til afgrænsningsbokse, hvilket giver 729 forskellige mulige placeringer for hvert element. Denne strukturerede tilgang sikrer, at elementerne placeres præcist og konsekvent.
Elementerne på Canvas tildeles en distance_to_viewer
parameter, som hjælper med at sortere dem i baggrund-til-forgrund lag. Denne parameter fungerer som en relativ dybdeindikator, der sikrer, at tættere elementer vises foran dem, der er længere væk. Derudover giver HTML_web_color_name
parameteren en grov farverepræsentation til den indledende rendering, som kan raffineres ved hjælp af diffusionsmodeller. Denne indledende farve hjælper med at visualisere kompositionen inden finjustering.
Omost bruger sub-prompts, som er korte, selvstændige beskrivelser af elementer, til at generere detaljerede og sammenhængende billedkompositioner. Hver sub-prompt er mindre end 75 tokens og beskriver et element uafhængigt. Disse sub-prompts flettes sammen til komplette prompts for LLM at behandle, hvilket sikrer, at de genererede billeder er præcise og semantisk rige. Denne metode sikrer, at tekstkodningen er effektiv og undgår semantiske afkortningsfejl.
Omost implementerer avancerede opmærksomhedsmanipulationsteknikker til at håndtere regionale prompts, hvilket sikrer, at hver del af billedet genereres præcist baseret på de givne beskrivelser. Teknikker som manipulation af opmærksomhedsscore sikrer, at aktiveringer inden for maskerede områder opmuntres, mens de udenfor afskrækkes. Denne præcise kontrol over opmærksomhed resulterer i høj-kvalitets, regionsspecifik billedgenerering.
llm_name
: Navnet på den prætrænede LLM-model, der skal indlæses. Tilgængelige muligheder inkluderer:
lllyasviel/omost-phi-3-mini-128k-8bits
lllyasviel/omost-llama-3-8b-4bits
lllyasviel/omost-dolphin-2.9-llama3-8b-4bits
Denne parameter specificerer, hvilken model der skal indlæses, hver med forskellige kapaciteter og optimeringer.
OMOST_LLM
: Den indlæste LLM-model.Denne output leverer den indlæste LLM, klar til at generere billedbeskrivelser og kompositioner.
llm
: LLM-modellen indlæst af OmostLLMLoader
.text
: Tekstprompten til at generere et billede. Dette er den primære input, hvor du beskriver scenen eller elementerne, du vil generere.max_new_tokens
: Maksimalt antal nye tokens, der skal genereres. Dette styrer længden af den genererede tekst, hvor et højere antal tillader mere detaljerede beskrivelser.top_p
: Styrer diversiteten af det genererede output. En værdi tættere på 1.0 inkluderer flere forskellige muligheder, mens en lavere værdi fokuserer på de mest sandsynlige udfald.temperature
: Styrer tilfældigheden af det genererede output. Højere værdier resulterer i mere tilfældige outputs, mens lavere værdier gør outputtet mere deterministisk.conversation
(valgfri): Tidligere samtalekontekst. Dette tillader modellen at fortsætte fra tidligere interaktioner, hvilket opretholder konteksten og sammenhængen.OMOST_CONVERSATION
: Samtalens historie, inklusive det nye svar. Dette hjælper med at spore dialogen og opretholde konteksten på tværs af flere interaktioner.OMOST_CANVAS_CONDITIONING
: De genererede Canvas-betingelsesparametre til rendering. Disse parametre definerer, hvordan elementerne placeres og beskrives på Canvas.canvas_conds
: Canvas-betingelsesparametrene. Disse parametre inkluderer detaljerede beskrivelser og positioner af elementer på Canvas.IMAGE
: Det renderede billede baseret på Canvas-betingelsen. Denne output er den visuelle repræsentation af den beskrevne scene, genereret fra betingelsesparametrene.canvas_conds
: Canvas-betingelsesparametrene.clip
: CLIP-modellen til tekstkodning. Denne model koder tekstbeskrivelserne til vektorer, der kan bruges af billedgeneratoren.global_strength
: Styrken af den globale betingelse. Dette styrer, hvor stærkt den overordnede beskrivelse påvirker billedet.region_strength
: Styrken af den regionale betingelse. Dette styrer, hvor stærkt de specifikke regionale beskrivelser påvirker deres respektive områder.overlap_method
: Metoden til at håndtere overlappende områder (f.eks., overlay
, average
). Dette definerer, hvordan man blander overlappende regioner i billedet.positive
(valgfri): Yderligere positiv betingelse. Dette kan inkludere ekstra prompts eller betingelser for at forbedre specifikke aspekter af billedet.CONDITIONING
: Betingelsesparametrene for billedgenerering. Disse parametre guider billedgenereringsprocessen og sikrer, at outputtet matcher den beskrevne scene.MASK
: Masken, der bruges til betingelsen. Dette hjælper med debugging og anvendelse af yderligere betingelser på specifikke regioner.json_str
: JSON-strengen, der repræsenterer Canvas-betingelsesparametrene. Dette tillader indlæsning af foruddefinerede betingelser fra en JSON-fil.OMOST_CANVAS_CONDITIONING
: De indlæste Canvas-betingelsesparametre. Disse parametre initialiserer Canvas med specifikke betingelser, klar til billedgenerering.© Ophavsret 2024 RunComfy. Alle rettigheder forbeholdes.