Stability AI představila , open-source multimodální generativní AI model, který zahrnuje několik variant, jako jsou Stable Diffusion 3.5 (SD3.5) Large, Stable Diffusion 3.5 (SD3.5) Large Turbo a Stable Diffusion 3.5 (SD3.5) Medium. Tyto modely jsou vysoce přizpůsobitelné a schopné běžet na spotřebitelském hardwaru. Modely SD3.5 Large a Large Turbo jsou okamžitě dostupné, zatímco verze Medium bude vydána 29. října 2024.
Na technické úrovni bere Stable Diffusion 3.5 (SD3.5) textový prompt jako vstup, zakóduje jej do latentního prostoru pomocí textových enkodérů založených na transformeru a poté dešifruje tuto latentní reprezentaci do výstupního obrázku pomocí dekodéru založeného na difuzi. Textové enkodéry transformátoru, jako je model CLIP (Contrastive Language-Image Pre-training), mapují vstupní prompt do sémanticky významné komprimované reprezentace v latentním prostoru. Tento latentní kód je pak iterativně denoizován dekodérem difuze přes několik časových kroků, aby se vygeneroval konečný výstupní obraz. Proces difuze zahrnuje postupné odstraňování šumu z počátečně šumové latentní reprezentace, kondicionované textovým embedováním, dokud nevznikne čistý obraz.
Různé velikosti modelu ve Stable Diffusion 3.5 (SD3.5) (Large, Medium) se vztahují k počtu trénovatelných parametrů - 8 miliard pro model Large a 2,5 miliardy pro Medium. Více parametrů obecně umožňuje modelu zachytit více znalostí a nuancí z tréninkových dat. Turbo modely jsou destilované verze, které obětují určitou kvalitu pro mnohem rychlejší rychlost inferencí. Destilace zahrnuje trénink menšího "student" modelu, který napodobuje výstupy většího "učitel" modelu, s cílem udržet většinu schopností v efektivnější architektuře.
Modely Stable Diffusion 3.5 (SD3.5) jsou navrženy tak, aby byly snadno doladitelné a rozšiřitelné pro specifické aplikace. Do bloků transformátorů byla integrována normalizace dotaz-klíč, aby stabilizovala trénink a zjednodušila další vývoj. Tato technika normalizuje skóre pozornosti v transformátorových vrstvách, což může učinit model odolnějším a snáze přizpůsobitelným novým datasetům prostřednictvím přenosového učení.
Stable Diffusion 3.5 (SD3.5) si klade za cíl generovat obrázky reprezentující diverzitu světa bez potřeby rozsáhlého promptingu. Může zobrazovat lidi s různými odstíny pleti, rysy a estetikou. To je pravděpodobně díky tomu, že model byl trénován na velkém a rozmanitém datasetu obrázků z celého internetu.
Modely Stable Diffusion 3.5 (SD3.5) jsou schopny generovat obrázky v široké škále stylů, včetně 3D renderů, fotorealismu, maleb, linie art, anime a dalších. Tato všestrannost je činí vhodnými pro mnoho použití. Různorodost stylů vychází ze schopnosti difuzního modelu zachytit mnoho různých vizuálních vzorů a estetik v jeho latentním prostoru.
Zejména pro model Stable Diffusion 3.5 (SD3.5) Large, SD3.5 dobře generuje obrázky, které odpovídají sémantickému významu vstupních textových promptů. Ve srovnání s jinými modely se umisťuje vysoko na metrikách shody promptů. Tato schopnost přesně překládat text do obrázků je poháněna jazykovými porozuměcími textového enkodéru transformátoru.
Podobně jako většina modelů text-to-image má Stable Diffusion 3.5 (SD3.5) stále potíže s vykreslováním realistické lidské anatomie, zejména rukou, nohou a tváří v komplexních pozicích. Interakce mezi objekty a rukama jsou často zkreslené. To je pravděpodobně kvůli výzvě naučit se všechny nuance 3D prostorových vztahů a fyziky pouze z 2D obrázků.
Model Stable Diffusion 3.5 (SD3.5) Large je ideální pro obrázky o velikosti 1 megapixelu (1024x1024), zatímco Medium dosahuje kolem 2 megapixelů. Generování koherentních obrázků ve vyšších rozlišeních je pro SD3.5 náročné. Toto omezení vyplývá z výpočetních a paměťových omezení difuzní architektury.
Vzhledem k tomu, že modely Stable Diffusion 3.5 (SD3.5) umožňují širokou rozmanitost výstupů ze stejného promptu s různými náhodnými semeny, může dojít k určité nepředvídatelnosti. Prompty bez specifikace mohou vést k chybným nebo neočekávaným prvkům. To je inherentní vlastnost procesu vzorkování difuze, který zahrnuje náhodnost.
Podle některých raných testů, co se týče kvality a koherence obrazu, Stable Diffusion 3.5 (SD3.5) aktuálně nedosahuje výkonu nejmodernějších modelů text-to-image, jako je Midjourney. A raná srovnání mezi Stable Diffusion 3.5 (SD3.5) a FLUX.1 ukazují, že každý model vyniká v různých oblastech. Zatímco FLUX.1 se zdá mít výhodu v produkci fotorealistických obrázků, SD3.5 Large má větší schopnost generovat anime-stylovou grafiku bez potřeby dalšího doladění nebo úprav.
V RunComfy jsme to pro vás usnadnili tím, že jsme přednačetli modely Stable Diffusion 3.5 (SD3.5) pro vaše pohodlí. Můžete se okamžitě ponořit a spustit inference pomocí příkladového pracovního postupu
Příkladový pracovní postup začíná uzlem CheckpointLoaderSimple, který načítá předtrénovaný model Stable Diffusion 3.5 Large. A aby vám pomohl přeložit vaše textové prompty do formátu, kterému model rozumí, je použit uzel TripleCLIPLoader k načtení odpovídajících enkodérů. Tyto enkodéry jsou klíčové pro vedení procesu generování obrazu na základě vámi poskytnutého textu.
Uzel EmptySD3LatentImage pak vytváří prázdné plátno o specifikovaných rozměrech, obvykle 1024x1024 pixelů, které slouží jako výchozí bod pro model k vygenerování obrázku. Uzly CLIPTextEncode zpracovávají vámi poskytnuté textové prompty, pomocí načtených enkodérů vytvářejí soubor instrukcí, které má model následovat.
Než jsou tyto instrukce odeslány modelu, procházejí dalším zpřesněním prostřednictvím uzlů ConditioningCombine, ConditioningZeroOut a ConditioningSetTimestepRange. Tyto uzly odstraňují vliv jakýchkoli negativních promptů, určují, kdy by měly být prompty aplikovány během procesu generování, a kombinují instrukce do jednoho, soudržného souboru.
Nakonec můžete doladit proces generování obrazu pomocí uzlu ModelSamplingSD3, který vám umožňuje upravit různé nastavení, jako je režim vzorkování, počet kroků a měřítko výstupu modelu. Nakonec vám uzel KSampler dává kontrolu nad počtem kroků, silou vlivu instrukcí (CFG scale) a konkrétním algoritmem použitým pro generování, což vám umožňuje dosáhnout požadovaných výsledků.
© Autorská práva 2024 RunComfy. Všechna práva vyhrazena.