Workflow ComfyUI bezproblémově integruje technologie text-to-image (Stable Diffusion) a image-to-video (Stable Video Diffusion) pro efektivní konverzi textu na video. Tento workflow vám umožňuje generovat videa přímo z textových popisů, počínaje základním obrázkem, který se vyvine do dynamické video sekvence. Tento workflow usnadňuje realizaci animací nebo videí z textu.
Stable Video Diffusion (SVD) je špičková technologie vyvinutá pro převod statických obrázků na dynamický video obsah. Využívající základní model obrázků Stable Diffusion, SVD přináší pohyb do statických obrázků, což usnadňuje tvorbu krátkých video klipů. Tento pokrok v latentních difuzních modelech, původně navržených pro syntézu obrázků, nyní zahrnuje časové dimenze pro animaci statických vizuálů, což vede k tvorbě videí obvykle v rozmezí 2 až 5 sekund.
Stable Video Diffusion je dostupná ve dvou variantách: standardní SVD, schopná generovat videa v rozlišení 576×1024 pixelů přes 14 snímků, a vylepšená SVD-XT, která může produkovat až 25 snímků. Obě varianty podporují nastavitelné snímkové frekvence od 3 do 30 snímků za sekundu, což splňuje různé požadavky na tvorbu digitálního obsahu.
Výcvik modelu SVD zahrnuje třífázový proces: začínající modelem obrázků, přecházející na video model předtrénovaný s rozsáhlou video databází a zdokonalující se s výběrem vysoce kvalitních video klipů. Tento pečlivý proces zdůrazňuje význam kvality datové sady při optimalizaci schopností modelu pro tvorbu videa.
Základem modelu Stable Video Diffusion je obrazový model Stable Diffusion 2.1, který funguje jako základní obrazová páteř. Integrace časových konvolucí a vrstev pozornosti do odhadovače šumu U-Net proměňuje tento model v mocný video model, interpretující latentní tensory jako video sekvence. Tento model používá reverzní difuzi pro simultánní odšumění všech snímků, podobně jako model VideoLDM.
Vybavený 1,5 miliardami parametrů a trénovaný na rozsáhlé video databázi, model prochází dalším doladěním s vysoce kvalitní video databází pro dosažení špičkového výkonu. Dvě sady vah modelu SVD jsou veřejně dostupné, navržené pro generování 14-snímkových a 25-snímkových videí v rozlišení 576×1024 pixelů.
Při použití Stable Video Diffusion v workflowu ComfyUI můžete upravit klíčové parametry pro přizpůsobení výstupu videa, včetně bucket id pohybu, ovládající intenzitu pohybu videa; snímky za sekundu (fps), určující snímkovou frekvenci; a úroveň augmentace, nastavující úroveň šumu počátečního obrázku pro různé stupně transformace.
2.2.1. Motion Bucket ID: Tato funkce nabízí uživatelům možnost ovládat intenzitu pohybu videa. Laděním tohoto parametru můžete určovat množství pohybu pozorovaného ve videu, od jemných gest až po výraznější akce, v závislosti na požadovaném vizuálním efektu.
2.2.2. Frames Per Second (fps): Tento parametr je klíčový pro určení rychlosti přehrávání videa. Nastavením snímků za sekundu můžete vytvářet videa, která buď zachytí rychlou dynamiku scény, nebo představí efekt zpomaleného pohybu, čímž se zvýší narativní aspekt video obsahu. Tato flexibilita je obzvláště užitečná pro tvorbu široké škály typů videí, od rychlých reklam až po kontemplativní, narativně vedené kousky.
2.2.3.Úroveň augmentace: Tento parametr upravuje úroveň šumu počátečního obrázku, což umožňuje různé stupně transformace. Manipulací s tímto parametrem můžete ovládat míru, do jaké je původní obrázek změněn během tvorby videa. Nastavením úrovně augmentace můžete udržovat bližší věrnost původnímu obrázku nebo se pustit do abstraktnějších a uměleckých interpretací, čímž se rozšiřují kreativní možnosti.
© Autorská práva 2024 RunComfy. Všechna práva vyhrazena.