Stability AI har lanserat , en öppen källkods multimodal generativ AI-modell som inkluderar flera varianter såsom Stable Diffusion 3.5 (SD3.5) Large, Stable Diffusion 3.5 (SD3.5) Large Turbo och Stable Diffusion 3.5 (SD3.5) Medium. Dessa modeller är mycket anpassningsbara och kan köras på konsumenthårdvara. SD3.5 Large och Large Turbo-modellerna är omedelbart tillgängliga, medan Medium-versionen släpps den 29 oktober 2024.
På en teknisk nivå tar Stable Diffusion 3.5 (SD3.5) en textuppmaning som indata, kodar den i ett latent utrymme med hjälp av transformerbaserade textkodare och avkodar sedan den latenta representationen till en utdata bild med hjälp av en diffusionsbaserad avkodare. Transformertextkodarna, såsom CLIP (Contrastive Language-Image Pre-training) modell, mappar indatauppmaningen till en semantiskt meningsfull komprimerad representation i det latenta utrymmet. Denna latenta kod avbrusas sedan iterativt av diffusionsavkodaren över flera tidssteg för att generera den slutliga bildutdata. Diffusionsprocessen involverar gradvis borttagning av brus från en initialt brusig latent representation, betingad av textinbäddningen, tills en ren bild framträder.
De olika modellstorlekarna i Stable Diffusion 3.5 (SD3.5) (Large, Medium) hänvisar till antalet träningsbara parametrar - 8 miljarder för Large-modellen och 2,5 miljarder för Medium. Fler parametrar gör det vanligtvis möjligt för modellen att fånga mer kunskap och nyanser från sin träningsdata. Turbo-modellerna är destillerade versioner som offrar viss kvalitet för mycket snabbare inferenshastigheter. Destillation innebär att träna en mindre "student" modell för att efterlikna utdata från en större "lärare" modell, med målet att behålla de flesta av kapaciteterna i en mer effektiv arkitektur.
Stable Diffusion 3.5 (SD3.5) modellerna är designade för att enkelt kunna finjusteras och byggas vidare på för specifika tillämpningar. Query-Key Normalization integrerades i transformerblocken för att stabilisera träningen och förenkla vidareutveckling. Denna teknik normaliserar uppmärksamhetsresultaten i transformerlagren, vilket kan göra modellen mer robust och lättare att anpassa till nya datamängder via transferinlärning.
Stable Diffusion 3.5 (SD3.5) strävar efter att generera bilder som representerar världens mångfald utan behov av omfattande uppmaningar. Den kan avbilda personer med varierande hudtoner, drag och estetik. Detta beror sannolikt på att modellen har tränats på en stor och varierad datamängd av bilder från hela internet.
Stable Diffusion 3.5 (SD3.5) modellerna är kapabla att generera bilder i en mängd olika stilar, inklusive 3D-renderingar, fotorealism, målningar, linjekonst, anime och mer. Denna mångsidighet gör dem lämpliga för många användningsområden. Stilmångfalden uppstår från diffusionsmodellens förmåga att fånga många olika visuella mönster och estetiker i sitt latenta utrymme.
Speciellt för Stable Diffusion 3.5 (SD3.5) Large-modellen, SD3.5 lyckas bra med att generera bilder som överensstämmer med den semantiska betydelsen av indata textuppmaningar. Den rankas högt jämfört med andra modeller på uppmaningsmatchningsmetrik. Denna förmåga att exakt översätta text till bilder drivs av transformertextkodarens språkförståelsekapaciteter.
Liksom de flesta text-till-bild-modeller har Stable Diffusion 3.5 (SD3.5) fortfarande svårigheter att återge realistisk mänsklig anatomi, särskilt händer, fötter och ansikten i komplexa poser. Interaktioner mellan objekt och händer är ofta förvrängda. Detta beror sannolikt på utmaningen att lära sig alla nyanser av 3D-rumsliga relationer och fysik från enbart 2D-bilder.
Stable Diffusion 3.5 (SD3.5) Large-modellen är idealisk för 1 megapixelbilder (1024x1024), medan Medium når upp till cirka 2 megapixlar. Att generera sammanhängande bilder vid högre upplösningar är en utmaning för SD3.5. Denna begränsning härrör från de beräknings- och minnesbegränsningar som diffusionarkitekturen har.
På grund av att Stable Diffusion 3.5 (SD3.5) modellerna tillåter stor mångfald av utdata från samma uppmaning med olika slumpmässiga frön, kan det finnas en viss oförutsägbarhet. Uppmaningar som saknar specifikhet kan leda till glitchiga eller oväntade element. Detta är en inneboende egenskap hos diffusionsprovtagningen, som innebär slumpmässighet.
Enligt några tidiga tester, sett till bildkvalitet och sammanhang, matchar Stable Diffusion 3.5 (SD3.5) för närvarande inte prestandan hos de mest avancerade text-till-bild-modellerna som Midjourney. Och tidiga jämförelser mellan Stable Diffusion 3.5 (SD3.5) och FLUX.1 avslöjar att varje modell utmärker sig på olika områden. Medan FLUX.1 verkar ha en fördel i att producera fotorealistiska bilder, har SD3.5 Large större skicklighet i att generera anime-stil konstverk utan att kräva ytterligare finjusteringar eller modifieringar.
På RunComfy har vi gjort det enkelt för dig att börja använda Stable Diffusion 3.5 (SD3.5) modellerna genom att förladda dem för din bekvämlighet. Du kan hoppa rakt in och köra inferenser med hjälp av det exempelarbetsflöde
Exempelarbetsflödet börjar med CheckpointLoaderSimple-noden, som laddar den förtränade Stable Diffusion 3.5 Large-modellen. Och för att hjälpa till att översätta dina textuppmaningar till ett format som modellen kan förstå, används TripleCLIPLoader-noden för att ladda motsvarande kodare. Dessa kodare är avgörande för att styra bildgenereringsprocessen baserat på den text du tillhandahåller.
EmptySD3LatentImage-noden skapar sedan en tom duk med de angivna dimensionerna, vanligtvis 1024x1024 pixlar, som fungerar som startpunkt för modellen att generera bilden. CLIPTextEncode-noderna bearbetar de textuppmaningar du tillhandahåller, genom att använda de laddade kodarna för att skapa en uppsättning instruktioner för modellen att följa.
Innan dessa instruktioner skickas till modellen genomgår de vidare förfining genom ConditioningCombine, ConditioningZeroOut och ConditioningSetTimestepRange-noderna. Dessa noder tar bort påverkan av eventuella negativa uppmaningar, specificerar när uppmaningarna ska tillämpas under genereringsprocessen och kombinerar instruktionerna till en enda, sammanhängande uppsättning.
Slutligen kan du finjustera bildgenereringsprocessen med hjälp av ModelSamplingSD3-noden, som låter dig justera olika inställningar såsom samplingsläge, antal steg och modellens utgångsskala. Slutligen ger KSampler-noden dig kontroll över antalet steg, styrkan av instruktionernas påverkan (CFG-skala), och den specifika algoritm som används för generering, vilket gör det möjligt för dig att uppnå önskade resultat.
© Copyright 2024 RunComfy. Alla Rättigheter Förbehållna.