Tento Unsampling průvodce, napsaný Inner-Reflections, výrazně přispívá k prozkoumání metody Unsampling pro dosažení dramaticky konzistentního přenosu stylu videa.
Latentní šum je základem všeho, co děláme se Stable Diffusion. Je úžasné se na chvíli zastavit a přemýšlet, co jsme schopni s tímto dosáhnout. Obecně řečeno jsme však nuceni používat náhodné číslo k generování šumu. Co kdybychom to mohli kontrolovat?
Nejsem první, kdo používá Unsampling. Existuje již velmi dlouho a byl používán několika různými způsoby. Dosud jsem však obecně nebyl spokojen s výsledky. Strávil jsem několik měsíců hledáním nejlepších nastavení a doufám, že si tento průvodce užijete.
Použitím sampling procesu s AnimateDiff/Hotshot můžeme najít šum, který reprezentuje naše původní video a tím usnadňuje jakýkoli typ přenosu stylu. Je to zvláště užitečné pro udržení konzistence Hotshot vzhledem k jeho 8 rámcovému kontextovému oknu.
Tento Unsampling proces v podstatě převádí naše vstupní video na latentní šum, který udržuje pohyb a kompozici původního videa. Poté můžeme použít tento reprezentativní šum jako výchozí bod pro difuzní proces místo náhodného šumu. To umožňuje AI aplikovat cílový styl při zachování časové konzistence.
Tento průvodce předpokládá, že máte nainstalovaný AnimateDiff a/nebo Hotshot. Pokud jste tak ještě neučinili, průvodce jsou dostupné zde:
AnimateDiff: https://civitai.com/articles/2379
Hotshot XL průvodce: https://civitai.com/articles/2601/
Odkaz na zdroj - Pokud chcete zveřejňovat videa na Civitai pomocí tohoto workflow. https://civitai.com/models/544534
Doporučuje se počítač s Windows a grafickou kartou NVIDIA s alespoň 12GB VRAM. Na platformě RunComfy použijte stroj střední třídy (16GB VRAM) nebo vyšší. Tento proces nevyžaduje více VRAM než standardní AnimateDiff nebo Hotshot workflow, ale trvá téměř dvakrát déle, protože v podstatě provádí difuzní proces dvakrát—jednou pro upsampling a jednou pro resampling s cílovým stylem.
Hlavní částí tohoto je použití Custom Sampler, který rozděluje všechna nastavení, která obvykle vidíte v běžném KSampler, na části:
Toto je hlavní KSampler uzel - pro unsampling přidávání šumu/semene nemá žádný vliv (o kterém bych věděl). CFG je důležité - obecně platí, že čím vyšší je CFG v tomto kroku, tím blíže bude video vypadat vašemu původnímu. Vyšší CFG nutí unsampler, aby se více přiblížil vstupu.
Nejdůležitější je použít sampler, který konverguje! Proto používáme euler místo euler a, protože ten druhý vede k větší náhodnosti/instabilitě. Ancestrální samplery, které přidávají šum v každém kroku, brání unsampling v čisté konvergenci. Pokud si chcete přečíst více o tomto, vždy jsem našel užitečný. @spacepxl na reddit navrhuje, že DPM++ 2M Karras je možná přesnější sampler v závislosti na použití.
Jakýkoli scheduler zde bude fungovat dobře - Align Your Steps (AYS) však dosahuje dobrých výsledků s 16 kroky, takže jsem se rozhodl použít tento pro snížení výpočetního času. Více kroků se konverguje více, ale s klesajícími výnosy.
Flip Sigma je magický uzel, který způsobuje, že unsampling nastane! Otočením sigma plánu obracíme difuzní proces, abychom přešli z čistého vstupního obrazu na reprezentativní šum.
Prompting má v této metodě značný význam z nějakého důvodu. Dobré prompty mohou opravdu zlepšit koherenci videa, zejména čím více chcete tlačit na transformaci. Pro tento příklad jsem použil stejné podmínění jak pro unsampler, tak pro resampler. Zdá se, že to obecně funguje dobře - nic vám však nebrání vložit prázdné podmínění do unsampler - zjistil jsem, že to pomáhá zlepšit přenos stylu, možná s trochou ztráty konzistence.
Pro resampling je důležité mít přidávání šumu vypnuté (i když mít prázdný šum v nastaveních AnimateDiff má stejný efekt - udělal jsem obojí pro svůj workflow). Pokud přidáte šum během resampling, dostanete nekonzistentní, šumový výsledek, alespoň s výchozími nastaveními. Jinak doporučuji začít s poměrně nízkým CFG v kombinaci se slabými nastaveními ControlNet, protože to se zdá dávat nejkonzistentnější výsledky, zatímco stále umožňuje promptu ovlivnit styl.
Zbytek mých nastavení je osobní preference. Tento workflow jsem zjednodušil, jak jen si myslím, že je to možné, a přitom zahrnuje klíčové komponenty a nastavení.
Výchozí workflow používá model SD1.5. Můžete však přepnout na SDXL jednoduše změnou checkpointu, VAE, modelu AnimateDiff, modelu ControlNet a modelu step schedule na SDXL.
Toto vypadá jako zcela nový způsob, jak kontrolovat konzistenci videa, takže je zde mnoho k prozkoumání. Pokud chcete mé návrhy:
Inner-Reflections
© Autorská práva 2024 RunComfy. Všechna práva vyhrazena.