Omost, skrót od "Twój obraz jest prawie gotowy!", to innowacyjny projekt, który przekształca możliwości kodowania Large Language Models (LLM) w generowanie obrazów, a dokładniej w możliwości komponowania obrazów. Nazwa "Omost" ma podwójne znaczenie: sugeruje, że za każdym razem, gdy używasz Omost, Twój obraz jest prawie gotowy, a także oznacza "omni" (wielomodalny) i "most" (wyciągający z tego najwięcej).
Omost dostarcza wstępnie wytrenowane modele LLM, które generują kod do komponowania wizualnych treści obrazów za pomocą wirtualnego agenta Canvas Omost. Ten Canvas może być następnie renderowany przez konkretne implementacje generatorów obrazów w celu stworzenia ostatecznych obrazów. Omost został zaprojektowany, aby uprościć i ulepszyć proces generowania obrazów, czyniąc go dostępnym i efektywnym dla artystów AI.
Omost używa wirtualnego Canvas, gdzie elementy obrazu są opisywane i pozycjonowane. Canvas jest podzielony na siatkę 9x9=81 pozycji, co pozwala na precyzyjne umieszczanie elementów. Te pozycje są dalsze podzielone na ramki, oferując 729 różnych możliwych lokalizacji dla każdego elementu. To uporządkowane podejście zapewnia, że elementy są umieszczane dokładnie i konsekwentnie.
Elementom na Canvas przypisany jest parametr distance_to_viewer
, który pomaga sortować je na warstwy od tła do pierwszego planu. Ten parametr działa jako względny wskaźnik głębokości, zapewniając, że bliższe elementy pojawiają się przed tymi, które są dalej. Dodatkowo, parametr HTML_web_color_name
dostarcza ogólne przedstawienie koloru do wstępnego renderowania, które może być dopracowane za pomocą modeli dyfuzyjnych. Ten początkowy kolor pomaga w wizualizacji kompozycji przed dopracowaniem.
Omost używa sub-promptów, które są krótkimi, samodzielnymi opisami elementów, do generowania szczegółowych i spójnych kompozycji obrazów. Każdy sub-prompt ma mniej niż 75 tokenów i opisuje element niezależnie. Te sub-prompty są łączone w kompletne prompty dla LLM do przetworzenia, zapewniając, że generowane obrazy są dokładne i semantycznie bogate. Ta metoda zapewnia, że kodowanie tekstu jest efektywne i unika błędów semantycznych.
Omost wdraża zaawansowane techniki manipulacji uwagą, aby obsługiwać regionalne prompty, zapewniając, że każda część obrazu jest generowana dokładnie na podstawie podanych opisów. Techniki takie jak manipulacja wynikami uwagi zapewniają, że aktywacje w maskowanych obszarach są wzmacniane, podczas gdy te na zewnątrz są tłumione. Ta precyzyjna kontrola nad uwagą skutkuje wysokiej jakości, specyficzną dla regionu generacją obrazów.
llm_name
: Nazwa wstępnie wytrenowanego modelu LLM do załadowania. Dostępne opcje obejmują:
lllyasviel/omost-phi-3-mini-128k-8bits
lllyasviel/omost-llama-3-8b-4bits
lllyasviel/omost-dolphin-2.9-llama3-8b-4bits
Ten parametr określa, który model załadować, każdy oferujący różne możliwości i optymalizacje.
OMOST_LLM
: Załadowany model LLM.Ten wynik dostarcza załadowany LLM, gotowy do generowania opisów i kompozycji obrazów.
llm
: Model LLM załadowany przez OmostLLMLoader
.text
: Prompt tekstowy do wygenerowania obrazu. To główny parametr wejściowy, gdzie opisujesz scenę lub elementy, które chcesz wygenerować.max_new_tokens
: Maksymalna liczba nowych tokenów do wygenerowania. To kontroluje długość wygenerowanego tekstu, z wyższą liczbą pozwalającą na bardziej szczegółowe opisy.top_p
: Kontroluje różnorodność wygenerowanego wyniku. Wartość bliższa 1.0 obejmuje więcej różnych możliwości, podczas gdy niższa wartość koncentruje się na najbardziej prawdopodobnych wynikach.temperature
: Kontroluje losowość wygenerowanego wyniku. Wyższe wartości skutkują bardziej losowymi wynikami, podczas gdy niższe wartości czynią wynik bardziej deterministycznym.conversation
(Opcjonalne): Poprzedni kontekst rozmowy. To pozwala modelowi kontynuować poprzednie interakcje, utrzymując kontekst i spójność.OMOST_CONVERSATION
: Historia rozmowy, w tym nowa odpowiedź. To pomaga w śledzeniu dialogu i utrzymaniu kontekstu w różnych interakcjach.OMOST_CANVAS_CONDITIONING
: Wygenerowane parametry kondycjonowania Canvas do renderowania. Te parametry definiują, jak elementy są umieszczane i opisywane na Canvas.canvas_conds
: Parametry kondycjonowania Canvas. Te parametry zawierają szczegółowe opisy i pozycje elementów na Canvas.IMAGE
: Renderowany obraz na podstawie kondycjonowania Canvas. Ten wynik jest wizualną reprezentacją opisanej sceny, wygenerowaną z parametrów kondycjonowania.canvas_conds
: Parametry kondycjonowania Canvas.clip
: Model CLIP do kodowania tekstu. Ten model koduje opisy tekstowe w wektory, które mogą być użyte przez generator obrazów.global_strength
: Siła globalnego kondycjonowania. To kontroluje, jak mocno ogólny opis wpływa na obraz.region_strength
: Siła regionalnego kondycjonowania. To kontroluje, jak mocno specyficzne opisy regionalne wpływają na ich odpowiednie obszary.overlap_method
: Metoda obsługi nakładających się obszarów (np. overlay
, average
). To definiuje, jak mieszać nakładające się regiony w obrazie.positive
(Opcjonalne): Dodatkowe pozytywne kondycjonowanie. To może obejmować dodatkowe prompty lub warunki w celu ulepszenia specyficznych aspektów obrazu.CONDITIONING
: Parametry kondycjonowania do generowania obrazów. Te parametry kierują procesem generowania obrazów, zapewniając, że wynik pasuje do opisanego scenariusza.MASK
: Maska używana do kondycjonowania. To pomaga w debugowaniu i stosowaniu dodatkowych warunków do specyficznych regionów.json_str
: JSON string reprezentujący parametry kondycjonowania Canvas. To pozwala na ładowanie wstępnie zdefiniowanych warunków z pliku JSON.OMOST_CANVAS_CONDITIONING
: Załadowane parametry kondycjonowania Canvas. Te parametry inicjują Canvas ze specyficznymi warunkami, gotowe do generowania obrazów.© Prawa autorskie 2024 RunComfy. Wszelkie prawa zastrzeżone.