Tento workflow ComfyUI zahrnuje model CCSR (Content Consistent Super-Resolution), navržený k vylepšení konzistence obsahu v úkolech super-rozlišení. Po aplikaci modelu CCSR je zde volitelný krok, který zahrnuje další zvětšení přidáním šumu a využitím modelu ControlNet pro přebarvení. Toto je experimentální funkce určená k vyzkoušení uživateli.
Ve výchozím nastavení je tento workflow nastaven pro zvětšování obrázků. Pro zvětšování videí jednoduše nahraďte "load image" "load video" a změňte "save image" na "combine video."
Předtrénované latentní difuzní modely byly uznány pro svůj potenciál zlepšit percepční kvalitu výsledků super-rozlišení (SR) obrazů. Tyto modely však často produkují proměnlivé výsledky pro stejné obrazy s nízkým rozlišením za různých šumových podmínek. Tato variabilita, i když je výhodná pro generování textu na obraz, představuje výzvy pro úkoly SR, které vyžadují konzistenci v zachování obsahu.
K vylepšení spolehlivosti SR založeného na difuzním prioru používá CCSR (Content Consistent Super-Resolution) strategii, která kombinuje difuzní modely pro zlepšení struktur obrazu s generativními adversariálními sítěmi (GANs) pro zlepšení jemných detailů. Zavádí strategii učení s neuniformními časovými kroky k tréninku kompaktního difuzního sítě. Tato síť efektivně a stabilně rekonstruuje hlavní struktury obrazu, zatímco předtrénovaný dekodér variačního auto-enkodéru (VAE) je doladěn pomocí adversariálního tréninku pro zlepšení detailů. Tento přístup pomáhá CCSR výrazně snížit stochastičnost spojenou s metodami SR založenými na difuzním prioru, čímž zlepšuje konzistenci obsahu ve výstupech SR a urychluje proces generování obrazu.
real-world_ccsr.ckpt
: Model CCSR pro obnovu obrazu z reálného světa.
bicubic_ccsr.ckpt
: Model CCSR pro bicubickou obnovu obrazu.
-scale_by
: Tento parametr určuje měřítko super-rozlišení, které určuje, jak moc jsou vstupní obrazy nebo videa zvětšeny.
-steps
: Odkazuje na počet kroků v difuzním procesu. Řídí, kolik iterací model prochází k vylepšení detailů a struktur obrazu.
-t_max
a -t_min
: Tyto parametry nastavují maximální a minimální prahové hodnoty pro strategii učení s neuniformními časovými kroky používanou v modelu CCSR.
-sampling_method
:
CCSR (Normal, Untiled):
Tento přístup využívá normální, netiledovaný způsob vzorkování. Je jednoduchý a nedělí obraz na dlaždice pro zpracování. I když to může být účinné pro zajištění konzistence obsahu v celém obraze, je také náročné na VRAM. Tato metoda je nejvhodnější pro scénáře, kde je VRAM dostatek a je vyžadována co nejvyšší možná konzistence v celém obraze.CCSR_Tiled_MixDiff:
Tento tiledovaný přístup zpracovává každou dlaždici obrazu zvlášť, což pomáhá efektivněji spravovat využití VRAM tím, že nevyžaduje, aby byl celý obraz v paměti najednou. Významnou nevýhodou je však potenciál pro viditelné švy, kde se dlaždice setkávají, protože každá dlaždice je zpracována nezávisle, což vede k možným nekonzistencím na hranicích dlaždic.CCSR_Tiled_VAE_Gaussian_Weights
: Tento způsob se snaží opravit problém se švy viděný u přístupu CCSR_Tiled_MixDiff pomocí Gaussovských vah k hladšímu spojení dlaždic. To může výrazně snížit viditelnost švů, poskytující konzistentnější vzhled přes hranice dlaždic. Toto spojení však může být někdy méně přesné a může do super-rozlišeného obrazu zavést další šum, což ovlivňuje celkovou kvalitu obrazu.-tile_size
a -tile_stride
: Tyto parametry jsou součástí tiledovaného difuzního prvku, který je integrován do CCSR pro úsporu paměti GPU během inference. Tiling odkazuje na zpracování obrazu v částech spíše než v celku, což může být efektivnější z hlediska paměti. -tile_size
určuje velikost každé dlaždice a -tile_diffusion_stride
řídí krok nebo překrytí mezi dlaždicemi.
-color_fix_type
: Tento parametr označuje metodu použitou pro korekci nebo úpravu barev v procesu super-rozlišení. adain
je jednou z metod použité pro korekci barev, aby barvy v super-rozlišeném obrazu odpovídaly původnímu obrazu co nejblíže.
Super-rozlišení obrazu, zaměřené na obnovu obrazů s vysokým rozlišením (HR) z protějšků s nízkým rozlišením (LR), řeší výzvu, kterou představuje degradace kvality během zachycení obrazu. Zatímco stávající techniky SR založené na hlubokém učení se primárně zaměřily na optimalizaci architektury neuronových sítí proti jednoduchým, známým degradacím, nedokážou zvládnout složité degradace, se kterými se setkáváme v reálných scénářích. Nedávné pokroky zahrnují vývoj datových sad a metod simulujících složitější degradace obrazu, aby se přiblížily těmto reálným výzvám.
Studie také zdůrazňuje omezení tradičních ztrátových funkcí, jako jsou ℓ1 a MSE, které mají tendenci produkovat příliš hladké detaily ve výstupech SR. I když ztráta SSIM a percepční ztráta tento problém do jisté míry zmírňují, dosažení realistických detailů obrazu zůstává náročné. GANs se ukázaly jako úspěšný přístup pro zlepšení detailů obrazu, ale jejich aplikace na přírodní obrazy často vede k vizuálním artefaktům kvůli rozmanitosti přírodních scén.
Denoising Diffusion Probabilistic Models (DDPMs) a jejich varianty ukázaly významný potenciál, překonávající GANs v generování rozmanitých a vysoce kvalitních priorů pro obnovu obrazu, včetně SR. Tyto modely však měly potíže přizpůsobit se složitým a různorodým degradacím přítomným v reálných aplikacích.
Přístup CCSR se snaží tyto výzvy řešit zajištěním stabilních a konzistentních výsledků super-rozlišení. Využívá difuzní priory pro generování koherentních struktur a používá generativní adversariální trénink pro zlepšení detailů a textur. Přijetím strategie vzorkování s neuniformními časovými kroky a doladěním předtrénovaného dekodéru VAE dosahuje CCSR stabilních, konzistentních výsledků SR obsahu efektivněji než stávající metody SR založené na difuzním prioru.
Pro více informací se podívejte na nebo
© Autorská práva 2024 RunComfy. Všechna práva vyhrazena.