Updated: 5/28/2024
Ahoj! V tomto průvodci se ponoříme do vzrušujícího světa ControlNet v ComfyUI. Pojďme společně prozkoumat, co přináší a jak může okořenit vaše projekty!
Probereme:
Pokud máte zájem prozkoumat workflow ControlNet, použijte následující web ComfyUI. Je plně vybaven všemi nezbytnými zákaznickými uzly a modely, což umožňuje bezproblémovou kreativitu bez nutnosti ručních nastavení. Začněte získávat praktické zkušenosti experimentováním s funkcemi ControlNet okamžitě, nebo pokračujte v tomto tutoriálu, abyste se naučili efektivně používat ControlNet.
ControlNet je transformační technologie, která významně zvyšuje schopnosti modelů difuze textu na obraz, což umožňuje bezprecedentní prostorovou kontrolu při generování obrazu. Jako architektura neuronové sítě se ControlNet bezproblémově integruje s rozsáhlými předtrénovanými modely, jako je Stable Diffusion. Využívá rozsáhlý trénink těchto modelů — postavených na miliardách obrázků k zavedení prostorových podmínek do procesu tvorby obrazu. Tyto podmínky mohou zahrnovat hrany a lidské pózy až po hloubkové a segmentační mapy, což uživatelům umožňuje řídit generování obrazu způsoby, které dříve nebyly možné pouze s textovými výzvami.
Genius ControlNet spočívá v jeho jedinečné metodologii. Nejprve zajistí parametry původního modelu, čímž zajistí, že základní trénink zůstane nezměněn. Následně ControlNet zavede klon kódovacích vrstev modelu pro trénink, využívající "zero convolutions". Tyto speciálně navržené konvoluční vrstvy začínají s nulovými váhami, pečlivě integrující nové prostorové podmínky. Tento přístup zabraňuje jakémukoli rušivému šumu, aby zasahoval, zachovává původní schopnosti modelu a zároveň zahajuje nové učící trajektorie.
Tradičně modely stabilní difuze používají textové výzvy jako mechanismus pro podmínění, aby vedly generování obrazů, sladily výstup s konkrétními specifikacemi textové výzvy. ControlNet zavádí další formu podmínění do tohoto procesu, což zvyšuje schopnost řídit generované obrázky přesněji podle textových i vizuálních vstupů.
Tento krok integruje ControlNet do vašeho workflow ComfyUI, což umožňuje aplikaci dodatečného podmínění na váš proces generování obrázků. Položí základy pro aplikaci vizuálního vedení spolu s textovými výzvami.
Kladné a záporné podmínění: Tyto vstupy jsou klíčové pro definování požadovaných výstupů a aspektů, kterým se chcete vyhnout v generovaném obrázku. Měly by být spojeny s "Positive prompt" a "Negative prompt" a sladěny s textovou částí procesu podmínění.
ControlNet Model: Tento vstup by měl být připojen k výstupu uzlu "Load ControlNet Model". Tento krok je zásadní pro výběr a začlenění buď modelu ControlNet nebo T2IAdaptor do vašeho workflow, čímž se zajistí, že difuzní model bude těžit ze specifického vedení poskytnutého vaším vybraným modelem. Každý model, ať už ControlNet nebo T2IAdaptor, je důkladně trénován, aby ovlivnil proces generování obrazu podle určitých typů dat nebo stylistických preferencí. Vzhledem k tomu, že funkce mnoha modelů T2IAdaptor úzce odpovídají funkcím modelů ControlNet, bude náš hlavní důraz kladen na modely ControlNet v následující diskusi. Nicméně, pro úplnost také zdůrazníme některé z populárnějších T2IAdaptors.
Preprocessor: Vstup "image" musí být připojen k uzlu "ControlNet Preprocessor", což je zásadní pro přizpůsobení vašeho obrazu specifickým požadavkům modelu ControlNet, který používáte. Je nezbytné použít správný preprocessor přizpůsobený vašemu vybranému modelu ControlNet. Tento krok zajišťuje, že původní obraz projde nezbytnými úpravami — jako jsou úpravy formátu, velikosti, barvy nebo aplikace specifických filtrů — aby byl optimalizován pro pokyny ControlNet. Po této fázi předzpracování je původní obraz nahrazen upravenou verzí, kterou pak ControlNet využívá. Tento proces zaručuje, že vaše vstupní obrázky jsou přesně připraveny pro proces ControlNet.
Uzel "Apply ControlNet" generuje dva klíčové výstupy: Kladné a záporné podmínění. Tyto výstupy, naplněné nuancemi ControlNet a vizuálním vedením, hrají klíčovou roli ve vedení chování difuzního modelu v ComfyUI. Následně máte na výběr: pokračovat do KSampler pro fázi vzorkování a dále vylepšit generovaný obraz, nebo, pro ty, kteří usilují o ještě vyšší úroveň detailu a přizpůsobení ve svém díle, pokračovat v vrstvení dalších ControlNets. Tato pokročilá technika integrace více ControlNets umožňuje detailnější manipulaci s atributy obrazu, nabízející rozšířenou sadu nástrojů pro tvůrce, kteří chtějí dosáhnout bezkonkurenční přesnosti a kontroly ve svých vizuálních výstupech.
strength: Tento parametr určuje intenzitu efektu ControlNet na generovaný obraz v ComfyUI. Hodnota 1.0 znamená plnou sílu, což znamená, že vedení ControlNet bude mít maximální vliv na výstup difuzního modelu. Naopak hodnota 0.0 znamená žádný vliv, což v podstatě deaktivuje efekt ControlNet na proces generování obrazu.
start_percent: Tento parametr specifikuje výchozí bod, jako procento difuzního procesu, kde ControlNet začíná ovlivňovat generování. Například nastavení start percent na 20 % znamená, že vedení ControlNet začne ovlivňovat generování obrazu od 20 % difuzního procesu dále.
end_percent: Analogicky k "Start Percent" parametr "End Percent" definuje bod, kdy vliv ControlNet přestává. Například end percent 80 % by znamenalo, že vedení ControlNet přestává ovlivňovat generování obrazu na 80 % dokončení difuzního procesu, což ponechává závěrečné fáze neovlivněné.
Timestep Keyframes v ControlNet nabízejí sofistikovanou kontrolu nad chováním AI-generovaného obsahu, zejména když jsou důležité načasování a postup, jako v animacích nebo vyvíjejících se vizuálech. Zde je podrobný přehled klíčových parametrů, které vám pomohou je efektivně a intuitivně využít:
prev_timestep_kf: Přemýšlejte o prev_timestep_kf jako o spojení rukou s klíčovým snímkem, který přichází před ním v sekvenci. Spojením klíčových snímků vytváříte plynulý přechod nebo storyboard, který vede AI krok za krokem procesem generování, zajišťuje, že každá fáze logicky navazuje na tu předchozí.
cn_weights: cn_weights jsou užitečné pro doladění výstupu úpravou specifických funkcí v rámci ControlNet během různých fází procesu generování.
latent_keyframe: latent_keyframe umožňuje upravit, jak silně každý díl modelu AI ovlivňuje konečný výsledek během konkrétní fáze procesu generování. Například pokud generujete obraz, kde by se měl popředí stát podrobnějším, jak se proces vyvíjí, můžete zvýšit sílu pro aspekty (latenty) modelu odpovědné za detaily popředí v pozdějších klíčových snímcích. Naopak, pokud by některé funkce měly časem ustupovat do pozadí, můžete snížit jejich sílu v následných klíčových snímcích. Tato úroveň kontroly je zvláště užitečná při vytváření dynamických, vyvíjejících se vizuálů nebo v projektech, kde je klíčové přesné načasování a postup.
mask_optional: Použijte masky pozornosti jako reflektory, zaměřující vliv ControlNet na specifické oblasti vašeho obrazu. Ať už jde o zvýraznění postavy ve scéně nebo zdůraznění prvku pozadí, tyto masky mohou být aplikovány jednotně nebo se mohou lišit v intenzitě, směřující pozornost AI přesně tam, kde ji chcete.
start_percent: start_percent označuje moment, kdy váš klíčový snímek vstupuje do hry, měřený jako procento celkového procesu generování. Nastavení tohoto parametru je jako naplánování vstupu herce na scénu, zajišťující, že se objeví ve správný okamžik představení.
strength: strength poskytuje vysokou úroveň kontroly nad celkovým vlivem ControlNet.
null_latent_kf_strength: Pro všechny herce (latenty), které jste v této scéně (klíčový snímek) explicitně nesměřovali, null_latent_kf_strength funguje jako výchozí pokyn, říkající jim, jak se chovat na pozadí. Zajišťuje, že žádná část generování není ponechána bez vedení, udržuje koherentní výstup i v oblastech, které jste konkrétně neadresovali.
inherit_missing: Aktivace inherit_missing umožňuje aktuálnímu klíčovému snímku přijmout jakékoli nespecifikované nastavení od svého předchůdce, jako mladší sourozenec dědící oblečení. Je to užitečná zkratka, která zajišťuje kontinuitu a koherenci bez nutnosti opakovat pokyny.
guarantee_usage: guarantee_usage je vaše záruka, že bez ohledu na co, aktuální klíčový snímek bude mít svůj moment v procesu, i když jen na krátkou chvíli. Zajišťuje, že každý klíčový snímek, který jste nastavili, má vliv, ctí vaše podrobné plánování při vedení kreativního procesu AI.
Timestep Keyframes nabízejí přesnost potřebnou k pečlivému vedení kreativního procesu AI, umožňují vám vytvořit příběh nebo vizuální cestu přesně podle vašeho přání. Slouží jako mocný nástroj k orchestraci evoluce vizuálů, zejména v animaci, od úvodní scény až po závěr. Zde je bližší pohled na to, jak lze Timestep Keyframes strategicky aplikovat k řízení postupu animace, zajišťující plynulý přechod od počátečního snímku k finálnímu, dokonale sladěnému s vašimi uměleckými cíli.
Vzhledem k tomu, že funkce mnoha modelů T2IAdaptor úzce odpovídají funkcím modelů ControlNet, bude náš hlavní důraz kladen na modely ControlNet v následující diskusi. Nicméně, pro úplnost také zdůrazníme některé z populárnějších T2IAdaptors.
Preprocessor: Openpose nebo DWpose
Model Tile Resample se používá k vylepšení detailů v obrázcích. Je zvláště užitečný ve spojení s upscalerem pro zlepšení rozlišení obrazu a přidání jemnějších detailů, často využívaný k ostření a obohacení textur a prvků v obrázku.
Preprocessor: Tile
Model Canny aplikuje algoritmus detekce hran Canny, což je vícestupňový proces k detekci širokého spektra hran v obrázcích. Tento model je užitečný pro zachování strukturálních aspektů obrazu při zjednodušení jeho vizuální kompozice, což je užitečné pro stylizované umění nebo předzpracování před další manipulací s obrázkem.
Preprocessors: Canny
Modely Depth inferují hloubkové informace z 2D obrazu, překládají vnímanou vzdálenost do šedotónové hloubkové mapy. Každá varianta nabízí jinou rovnováhu mezi zachycením detailů a důrazem na pozadí:
Preprocessors: Depth_Midas, Depth_Leres, Depth_Zoe, Depth_Anything, MeshGraphormer_Hand_Refiner. Tento model je vysoce robustní a může pracovat na skutečných hloubkových mapách z renderingových enginů.
Modely Lineart převádějí obrázky do stylizovaných kreslených čar, užitečné pro umělecké ztvárnění nebo jako základ pro další kreativní práci:
Preprocessor může generovat detailní nebo hrubé kreslené čáry z obrázků (Lineart a Lineart_Coarse)
Modely Scribble jsou navrženy k transformaci obrázků do vzhledu čmáranic, simulují vzhled ručně kreslených skic. Jsou zvláště užitečné pro umělecký restyling nebo jako předběžný krok v širším designovém workflow:
Preprocessors: Scribble, Scribble_HED, Scribble_PIDI, a Scribble_XDOG
Modely Segmentation kategorizují pixely obrázku do různých tříd objektů, každá reprezentovaná specifickou barvou. To je neocenitelné pro identifikaci a manipulaci jednotlivých prvků v obrázku, například oddělení popředí od pozadí nebo rozlišení objektů pro detailní úpravy.
Přijatelné preprocessory: Sam, Seg_OFADE20K (Oneformer ADE20K), Seg_UFADE20K (Uniformer ADE20K), Seg_OFCOCO (Oneformer COCO), nebo ručně vytvořené masky.
Model Shuffle zavádí nový přístup tím, že náhodně mění atributy vstupního obrázku, jako jsou barevné schémata nebo textury, aniž by měnil kompozici. Tento model je zvláště efektivní pro kreativní průzkumy a generování variant obrázku se zachovanou strukturální integritou, ale změněnou vizuální estetikou. Jeho náhodná povaha znamená, že každý výstup je unikátní, ovlivněný hodnotou semene použitou v procesu generování.
Preprocessors: Shuffle
Modely Inpainting v rámci ControlNet umožňují jemné úpravy v konkrétních oblastech obrázku, zachovávají celkovou koherenci a zároveň zavádějí významné variace nebo opravy.
Pro využití ControlNet Inpainting začněte izolováním oblasti, kterou chcete znovu generovat, pomocí maskování. To lze provést kliknutím pravým tlačítkem na požadovaný obrázek a výběrem "Open in MaskEditor" pro úpravy.
Na rozdíl od ostatních implementací v rámci ControlNet, Inpainting obchází potřebu preprocessoru kvůli přímým úpravám aplikovaným na obrázek. Nicméně je důležité předat upravený obrázek do latentního prostoru prostřednictvím KSampler. To zajišťuje, že difuzní model se soustředí pouze na regeneraci maskované oblasti, zachovávající integritu nemaskovaných oblastí.
M-LSD (Mobile Line Segment Detection) se zaměřuje na detekci přímých linií, ideální pro obrázky se silnými architektonickými prvky, interiéry a geometrickými tvary. Zjednodušuje scény na jejich strukturální podstatu, usnadňuje kreativní projekty zahrnující lidské prostředí.
Preprocessors: MLSD.
Normalmaps umožňuje simulaci složitých světelných a texturových efektů modelováním orientace povrchů ve vizuální scéně, spíše než spoléhat na barevná data.
Preprocessors: Normal BAE, Normal Midas
ControlNet Soft Edge je navržen k tvorbě obrázků s měkčími hranami, zaměřuje se na kontrolu detailů a přirozený vzhled. Používá pokročilé techniky neuronových sítí pro přesnou manipulaci s obrázky, nabízí větší kreativní svobodu a bezproblémové možnosti míchání.
Robustnost: SoftEdge_PIDI_safe > SoftEdge_HED_safe >> SoftEdge_PIDI > SoftEdge_HED
Maximální kvalita výsledků: SoftEdge_HED > SoftEdge_PIDI > SoftEdge_HED_safe > SoftEdge_PIDI_safe
S ohledem na kompromis doporučujeme používat SoftEdge_PIDI jako výchozí. Ve většině případů funguje velmi dobře.
Preprocessors: SoftEdge_PIDI, SoftEdge_PIDI_safe, SoftEdge_HED, SoftEdge_HED_safe.
Model ControlNet IP2P (Instruct Pix2Pix) vyniká jako unikátní adaptace v rámci frameworku ControlNet, přizpůsobená k využití datasetu Instruct Pix2Pix pro transformace obrázků. Tato varianta ControlNet se odlišuje tím, že vyvažuje mezi instrukčními a popisnými výzvami během své tréninkové fáze. Na rozdíl od konvenčního přístupu v oficiálním Instruct Pix2Pix, ControlNet IP2P zahrnuje 50/50 mix těchto typů výzev, což zvyšuje jeho všestrannost a efektivitu při generování požadovaných výsledků.
t2iadapter color: Model t2iadapter_color je speciálně navržen k vylepšení barevného zobrazení a přesnosti v generovaných obrázcích při použití modelů difuze textu na obraz. Zaměřením na adaptaci barev tento model umožňuje přesnější a živější barevnou paletu, úzce sladěnou s popisy uvedenými v textových výzvách. Je zvláště užitečný pro projekty, kde je klíčová věrnost a specifikace barev, přidává novou vrstvu realismu a detailů do generovaných obrazů.
t2iadapter style: Model t2iadapter_style se zaměřuje na stylistické aspekty generování obrazů, umožňuje modifikaci a kontrolu nad uměleckým stylem výstupních obrazů. Tento adaptér umožňuje uživatelům vést model textu na obraz k generování obrazů, které se drží specifických uměleckých stylů nebo estetických popisů v textových výzvách. Je to neocenitelný nástroj pro kreativní projekty, kde hraje styl obrazu klíčovou roli, nabízí bezproblémový způsob, jak kombinovat tradiční umělecké styly s moderními schopnostmi AI.
Pro tyto segmenty budeme věnovat samostatné články, abychom poskytli důkladné představení každého z nich, vzhledem k obrovskému množství informací, které chceme sdílet.
Použití více ComfyUI ControlNets v ComfyUI zahrnuje proces vrstvení nebo řetězení modelů ControlNet pro zpřesnění generování obrázku s přesnější kontrolou nad různými aspekty, jako jsou póza, tvar, styl a barva.
Tak můžete postavit svůj workflow aplikací ControlNet (např. OpenPose) a pak jeho výstup předat dalšímu ControlNet (např. Canny). Tato vrstevnatá aplikace umožňuje detailní přizpůsobení obrazu, kde každý ControlNet aplikuje své specifické transformace nebo kontroly. Tento proces umožňuje jemnější kontrolu nad konečným výstupem, integrující více aspektů vedených různými ControlNets.
Pokud máte zájem prozkoumat workflow ControlNet, použijte následující web ComfyUI. Je plně vybaven všemi nezbytnými zákaznickými uzly a modely, což umožňuje bezproblémovou kreativitu bez nutnosti ručních nastavení. Získejte praktické zkušenosti a seznamte se s funkcemi ControlNet nyní!
© Autorská práva 2024 RunComfy. Všechna práva vyhrazena.