Updated: 5/27/2024
Cześć! W tym przewodniku zagłębimy się w ekscytujący świat ControlNet w ComfyUI. Odkryjmy razem, co ma do zaoferowania i jak może urozmaicić Twoje projekty!
Omówimy:
Jeśli jesteś zainteresowany eksploracją workflow ControlNet, skorzystaj z poniższego ComfyUI web. Jest w pełni wyposażony we wszystkie niezbędne węzły i modele, umożliwiając płynną kreatywność bez konieczności ręcznych ustawień. Zacznij zdobywać praktyczne doświadczenie, eksperymentując z funkcjami ControlNet od razu, lub kontynuuj ten tutorial, aby nauczyć się efektywnego korzystania z ControlNet.
ControlNet to transformacyjna technologia, która znacznie zwiększa możliwości modeli dyfuzji tekstu na obraz, pozwalając na bezprecedensową kontrolę przestrzenną w generowaniu obrazów. Jako architektura sieci neuronowej, ControlNet bezproblemowo integruje się z dużymi, wcześniej wytrenowanymi modelami, takimi jak Stable Diffusion. Wykorzystuje szerokie szkolenie tych modeli — zbudowane na miliardach obrazów wprowadza warunki przestrzenne do procesu tworzenia obrazów. Te warunki mogą obejmować krawędzie i ludzkie pozy, głębokość i mapy segmentacji, umożliwiając użytkownikom kierowanie generowaniem obrazów w sposób, który wcześniej nie był możliwy przy użyciu samych tekstowych podpowiedzi.
Geniusz ControlNet tkwi w jego unikalnej metodologii. Początkowo zabezpiecza on parametry oryginalnego modelu, zapewniając, że podstawowe szkolenie pozostaje niezmienione. Następnie ControlNet wprowadza klon warstw kodujących modelu do szkolenia, wykorzystując "zero convolutions". Te specjalnie zaprojektowane warstwy konwolucyjne zaczynają od zerowych wag, starannie integrując nowe warunki przestrzenne. Takie podejście zapobiega zakłóceniom hałasu, zachowując oryginalne umiejętności modelu, jednocześnie inicjując nowe trajektorie uczenia się.
Tradycyjnie modele dyfuzji stabilnej używają tekstowych podpowiedzi jako mechanizmu warunkowania, aby kierować generowaniem obrazów, dopasowując wynik do specyfiki podpowiedzi tekstowej. ControlNet wprowadza dodatkową formę warunkowania do tego procesu, zwiększając zdolność do precyzyjnego kierowania generowanymi obrazami zgodnie zarówno z tekstowymi, jak i wizualnymi wejściami.
Ten krok integruje ControlNet z Twoim workflow ComfyUI, umożliwiając zastosowanie dodatkowego warunkowania do procesu generowania obrazu. Stanowi to podstawę do zastosowania wizualnego przewodnictwa obok tekstowych podpowiedzi.
Pozytywne i negatywne warunkowanie: Te wejścia są kluczowe dla definiowania pożądanych wyników i aspektów, których należy unikać w generowanym obrazie. Powinny być połączone z "Positive prompt" i "Negative prompt", odpowiednio, dopasowując się do tekstowego warunkowania procesu.
Model ControlNet: To wejście powinno być połączone z wyjściem węzła "Load ControlNet Model". Ten krok jest niezbędny do wyboru i włączenia modelu ControlNet lub T2IAdaptor do Twojego workflow, zapewniając, że model dyfuzji korzysta ze specyficznego przewodnictwa dostarczonego przez wybrany model. Każdy model, niezależnie czy jest to ControlNet, czy T2IAdaptor, jest dokładnie wytrenowany, aby wpływać na proces generowania obrazu zgodnie z określonymi typami danych lub preferencjami stylistycznymi. Biorąc pod uwagę, że funkcjonalności wielu modeli T2IAdaptor ściśle odpowiadają funkcjom modeli ControlNet, nasza dalsza dyskusja skupi się głównie na modelach ControlNet. Jednak dla pełności, zwrócimy również uwagę na niektóre z bardziej popularnych modeli T2IAdaptor.
Preprocessor: Wejście "image" musi być połączone z węzłem "ControlNet Preprocessor", który jest kluczowy dla dostosowania Twojego obrazu do konkretnych wymagań modelu ControlNet, którego używasz. Konieczne jest użycie odpowiedniego preprocessora dopasowanego do wybranego modelu ControlNet. Ten krok zapewnia, że oryginalny obraz przechodzi niezbędne modyfikacje — takie jak dostosowanie formatu, rozmiaru, koloru lub zastosowanie określonych filtrów — aby zoptymalizować go dla wytycznych ControlNet. Po tej fazie wstępnego przetwarzania, oryginalny obraz zostaje zastąpiony zmodyfikowaną wersją, którą następnie wykorzystuje ControlNet. Ten proces gwarantuje, że Twoje obrazy wejściowe są dokładnie przygotowane do procesu ControlNet.
Węzeł "Apply ControlNet" generuje dwa kluczowe wyjścia: Pozytywne i negatywne warunkowanie. Te wyjścia, nasycone subtelnymi efektami ControlNet i wizualnym przewodnictwem, odgrywają kluczową rolę w kierowaniu zachowaniem modelu dyfuzji w ComfyUI. Następnie masz wybór: przejść do KSampler na fazę próbkowania, aby dalej doszlifować wygenerowany obraz, lub, dla tych, którzy dążą do jeszcze wyższego poziomu szczegółowości i personalizacji w swoim tworzeniu, kontynuować nakładanie dodatkowych ControlNetów. Ta zaawansowana technika integracji większej liczby ControlNetów pozwala na bardziej szczegółową manipulację atrybutami obrazu, oferując ulepszone narzędzia dla twórców dążących do osiągnięcia niezrównanej precyzji i kontroli w swoich wizualnych wynikach.
strength: Ten parametr określa intensywność efektu ControlNet na wygenerowany obraz w ComfyUI. Wartość 1.0 oznacza pełną siłę, co oznacza, że przewodnictwo ControlNet będzie miało maksymalny wpływ na wynik modelu dyfuzji. Z kolei wartość 0.0 oznacza brak wpływu, w zasadzie wyłączając efekt ControlNet na proces generowania obrazu.
start_percent: Ten parametr określa punkt początkowy, jako procent procesu dyfuzji, w którym ControlNet zaczyna wpływać na generowanie. Na przykład, ustawienie start percent na 20% oznacza, że przewodnictwo ControlNet zacznie wpływać na generowanie obrazu od 20% procesu dyfuzji.
end_percent: Analogicznie do "Start Percent", parametr "End Percent" definiuje punkt, w którym wpływ ControlNet kończy się. Na przykład, end percent na poziomie 80% oznacza, że przewodnictwo ControlNet przestaje wpływać na generowanie obrazu na poziomie 80% ukończenia procesu dyfuzji, pozostawiając końcowe fazy bez wpływu.
Timestep Keyframes w ControlNet oferują zaawansowaną kontrolę nad zachowaniem treści generowanych przez AI, szczególnie gdy czas i progresja są kluczowe, na przykład w animacjach lub ewoluujących wizualizacjach. Oto szczegółowy przegląd kluczowych parametrów, które pomogą Ci efektywnie i intuicyjnie z nich korzystać:
prev_timestep_kf: Pomyśl o prev_timestep_kf jako o łączeniu się z klatką kluczową, która pojawia się wcześniej w sekwencji. Łącząc klatki kluczowe, tworzysz płynne przejście lub storyboard, który prowadzi AI przez proces generowania, krok po kroku, zapewniając, że każda faza płynnie przechodzi w następną.
cn_weights: cn_weights są przydatne do precyzyjnego dostrajania wyniku przez dostosowanie określonych cech w ControlNet podczas różnych faz procesu generowania.
latent_keyframe: latent_keyframe pozwala dostosować, jak silnie każda część modelu AI wpływa na ostateczny wynik podczas określonej fazy procesu generowania. Na przykład, jeśli generujesz obraz, w którym pierwszy plan powinien stawać się bardziej szczegółowy w miarę postępu procesu, możesz zwiększyć siłę dla aspektów (latentów) modelu odpowiedzialnych za szczegóły pierwszego planu w późniejszych klatkach kluczowych. Odwrotnie, jeśli pewne cechy powinny zanikać w tle z czasem, możesz zmniejszyć ich siłę w kolejnych klatkach kluczowych. Ten poziom kontroli jest szczególnie przydatny w tworzeniu dynamicznych, ewoluujących wizualizacji lub w projektach, gdzie precyzyjne czasowanie i progresja są kluczowe.
mask_optional: Używaj masek uwagi jako reflektorów, koncentrując wpływ ControlNet na określonych obszarach obrazu. Niezależnie od tego, czy chodzi o podkreślenie postaci w scenie, czy wyeksponowanie elementu tła, te maski mogą być stosowane jednolicie lub różnić się intensywnością, kierując uwagę AI dokładnie tam, gdzie chcesz.
start_percent: start_percent oznacza moment, w którym Twoja klatka kluczowa wchodzi w grę, mierzony jako procent całkowitego procesu generowania. Ustawienie tego parametru jest jak zaplanowanie wejścia aktora na scenę, zapewniając, że pojawi się w odpowiednim momencie przedstawienia.
strength: strength zapewnia wysokopoziomową kontrolę nad ogólnym wpływem ControlNet.
null_latent_kf_strength: Dla wszelkich aktorów (latentów), których nie wskazałeś explicite w tej scenie (klatka kluczowa), null_latent_kf_strength działa jako domyślna instrukcja, mówiąc im, jak mają się zachować w tle. Zapewnia to, że żadna część generowania nie pozostaje bez przewodnictwa, utrzymując spójny wynik nawet w obszarach, które nie zostały szczególnie uwzględnione.
inherit_missing: Aktywacja inherit_missing pozwala obecnej klatce kluczowej przejąć wszelkie niewskazane ustawienia od swojego poprzednika, jak młodszy brat dziedziczący ubrania. To przydatny skrót, który zapewnia ciągłość i spójność bez konieczności powtarzania instrukcji.
guarantee_usage: guarantee_usage to Twoja gwarancja, że bez względu na wszystko, obecna klatka kluczowa będzie miała swój moment w procesie, nawet jeśli tylko na chwilę. Zapewnia to, że każda klatka kluczowa, którą ustawiłeś, ma wpływ, honorując Twoje szczegółowe planowanie w kierowaniu kreatywnym procesem AI.
Timestep Keyframes oferują precyzję potrzebną do metodycznego kierowania kreatywnym procesem AI, umożliwiając Ci kształtowanie narracji lub wizualnej podróży dokładnie tak, jak to sobie wyobrażasz. Służą jako potężne narzędzie do orkiestracji ewolucji wizualizacji, szczególnie w animacji, od sceny otwierającej aż do zakończenia. Oto bliższe spojrzenie na to, jak Timestep Keyframes mogą być strategicznie zastosowane do zarządzania progresją animacji, zapewniając płynne przejście od pierwszej klatki do ostatniej, idealnie dostosowane do Twoich celów artystycznych.
Biorąc pod uwagę, że funkcjonalności wielu modeli T2IAdaptor ściśle odpowiadają funkcjom modeli ControlNet, nasza dalsza dyskusja skupi się głównie na modelach ControlNet. Jednak dla pełności, zwrócimy również uwagę na niektóre z bardziej popularnych modeli T2IAdaptor.
Preprocessor: Openpose lub DWpose
Model Tile Resample jest używany do poprawy szczegółów w obrazach. Jest szczególnie przydatny w połączeniu z upscalerem, aby poprawić rozdzielczość obrazu, dodając jednocześnie drobniejsze szczegóły, często stosowany do wyostrzania i wzbogacania tekstur i elementów w obrazie.
Preprocessor: Tile
Model Canny stosuje algorytm wykrywania krawędzi Canny, wieloetapowy proces wykrywania szerokiego zakresu krawędzi w obrazach. Ten model jest korzystny dla zachowania strukturalnych aspektów obrazu, jednocześnie upraszczając jego kompozycję wizualną, co czyni go użytecznym dla stylizowanej sztuki lub przetwarzania wstępnego przed dalszą manipulacją obrazem.
Preprocessors: Canny
Modele Depth wnioskują informacje o głębokości z obrazu 2D, przekształcając postrzeganą odległość w mapę głębokości w skali szarości. Każda odmiana oferuje inne zrównoważenie między uchwyceniem szczegółów a wyeksponowaniem tła:
Preprocessors: Depth_Midas, Depth_Leres, Depth_Zoe, Depth_Anything, MeshGraphormer_Hand_Refiner. Ten model jest bardzo odporny i może działać na prawdziwej mapie głębokości z silników renderujących.
Modele Lineart konwertują obrazy na stylizowane rysunki liniowe, przydatne do artystycznych interpretacji lub jako baza do dalszej twórczej pracy:
Preprocessor może generować szczegółowe lub zgrubne rysunki liniowe z obrazów (Lineart i Lineart_Coarse)
Modele Scribble są zaprojektowane do przekształcania obrazów w wygląd przypominający rysunki odręczne, symulując wygląd szkiców ręcznych. Są szczególnie przydatne do artystycznego restylizacji lub jako wstępny krok w większym workflow projektowym:
Preprocessors: Scribble, Scribble_HED, Scribble_PIDI, i Scribble_XDOG
Modele Segmentation kategoryzują piksele obrazu na różne klasy obiektów, z których każda jest reprezentowana przez określony kolor. Jest to nieocenione do identyfikacji i manipulacji poszczególnymi elementami w obrazie, takimi jak oddzielanie pierwszego planu od tła lub różnicowanie obiektów do szczegółowej edycji.
Akceptowalne preprocessory: Sam, Seg_OFADE20K (Oneformer ADE20K), Seg_UFADE20K (Uniformer ADE20K), Seg_OFCOCO (Oneformer COCO), lub ręcznie stworzone maski.
Model Shuffle wprowadza nowatorskie podejście poprzez losowe zmienianie atrybutów wejściowego obrazu, takich jak schematy kolorów czy tekstury, bez zmiany kompozycji. Ten model jest szczególnie skuteczny w kreatywnych eksploracjach i generowaniu wariantów obrazu z zachowaną integralnością strukturalną, ale zmienioną estetyką wizualną. Jego losowy charakter oznacza, że każdy wynik jest unikalny, wpływany przez wartość ziarna używaną w procesie generowania.
Preprocessors: Shuffle
Modele Inpainting w ramach ControlNet pozwalają na precyzyjną edycję w określonych obszarach obrazu, zachowując ogólną spójność przy wprowadzaniu znaczących wariacji lub korekt.
Aby skorzystać z ControlNet Inpainting, zacznij od izolacji obszaru, który chcesz zregenerować, poprzez maskowanie. Można to zrobić, klikając prawym przyciskiem myszy na wybrany obraz i wybierając "Open in MaskEditor" do modyfikacji.
W przeciwieństwie do innych implementacji w ramach ControlNet, Inpainting omija konieczność stosowania preprocessora ze względu na bezpośrednie modyfikacje stosowane do obrazu. Jednakże, kluczowe jest przekazanie edytowanego obrazu do przestrzeni latentnej za pomocą KSampler. To zapewnia, że model dyfuzji koncentruje się wyłącznie na regeneracji zamaskowanego obszaru, zachowując integralność niezamaskowanych obszarów.
M-LSD (Mobile Line Segment Detection) koncentruje się na wykrywaniu prostych linii, idealnych do obrazów z wyraźnymi elementami architektonicznymi, wnętrzami i formami geometrycznymi. Upraszcza sceny do ich strukturalnej esencji, ułatwiając kreatywne projekty obejmujące środowiska stworzone przez człowieka.
Preprocessors: MLSD.
Normalmaps umożliwiają symulację złożonych efektów oświetlenia i tekstury poprzez modelowanie orientacji powierzchni w wizualnej scenie, zamiast polegać wyłącznie na danych kolorystycznych. Jest to kluczowe dla zadań modelowania 3D i symulacji.
Preprocessors: Normal BAE, Normal Midas
ControlNet Soft Edge jest zaprojektowany do generowania obrazów z miękkimi krawędziami, koncentrując się na kontroli szczegółów i naturalnym wyglądzie. Wykorzystuje zaawansowane techniki sieci neuronowych do precyzyjnej manipulacji obrazem, oferując większą swobodę twórczą i bezszwowe możliwości mieszania
Odporność: SoftEdge_PIDI_safe > SoftEdge_HED_safe >> SoftEdge_PIDI > SoftEdge_HED
Maksymalna jakość wyników: SoftEdge_HED > SoftEdge_PIDI > SoftEdge_HED_safe > SoftEdge_PIDI_safe
Biorąc pod uwagę kompromis, zalecamy używanie SoftEdge_PIDI domyślnie. W większości przypadków działa bardzo dobrze.
Preprocessors: SoftEdge_PIDI, SoftEdge_PIDI_safe, SoftEdge_HED, SoftEdge_HED_safe.
Model ControlNet IP2P (Instruct Pix2Pix) wyróżnia się jako unikalna adaptacja w ramach ControlNet, dostosowana do wykorzystania zestawu danych Instruct Pix2Pix do transformacji obrazów. Ta odmiana ControlNet wyróżnia się równoważeniem między promptami instrukcji a promptami opisowymi podczas fazy treningowej. W przeciwieństwie do konwencjonalnego podejścia w oficjalnym Instruct Pix2Pix, ControlNet IP2P zawiera 50/50 mieszankę tych typów promptów, zwiększając swoją wszechstronność i skuteczność w generowaniu pożądanych wyników.
t2iadapter color: Model t2iadapter_color jest specjalnie zaprojektowany do poprawy reprezentacji kolorów i dokładności w generowanych obrazach podczas korzystania z modeli dyfuzji tekstu na obraz. Koncentrując się na adaptacji kolorów, ten model pozwala na bardziej dokładną i żywą paletę kolorów, ściśle dopasowaną do opisów zawartych w promptach tekstowych. Jest szczególnie przydatny w projektach, gdzie wierność i specyficzność kolorów są kluczowe, dodając nową warstwę realizmu i szczegółowości do generowanych obrazów.
t2iadapter style: Model t2iadapter_style koncentruje się na aspektach stylistycznych generowania obrazów, umożliwiając modyfikację i kontrolę nad artystycznym stylem wygenerowanych obrazów. Ten adapter pozwala użytkownikom kierować modelem tekst-na-obraz w kierunku generowania obrazów zgodnych z określonymi stylami artystycznymi lub estetykami opisanymi w prompt tekstowych. Jest to nieocenione narzędzie dla kreatywnych projektów, gdzie styl obrazu odgrywa kluczową rolę, oferując płynny sposób na łączenie tradycyjnych stylów artystycznych z nowoczesnymi możliwościami AI.
Dla tych segmentów poświęcimy osobne artykuły, aby zapewnić szczegółowe wprowadzenie do każdego z nich, biorąc pod uwagę znaczną ilość informacji, które chcemy przekazać.
Używanie wielu ComfyUI ControlNet w ComfyUI polega na procesie warstwowania lub łączenia modeli ControlNet, aby ulepszyć generowanie obrazu za pomocą bardziej precyzyjnej kontroli nad różnymi aspektami, takimi jak poza, kształt, styl i kolor.
W ten sposób możesz zbudować swój workflow, stosując ControlNet (np. OpenPose) i następnie przekazując jego wyjście do innego ControlNet (np. Canny). Ta warstwowa aplikacja pozwala na szczegółową personalizację obrazu, gdzie każdy ControlNet aplikuje swoje specyficzne transformacje lub kontrolki. Proces ten pozwala na precyzyjną kontrolę nad ostatecznym wynikiem, integrując różne aspekty kierowane przez różne ControlNety.
Jeśli jesteś zainteresowany eksploracją workflow ControlNet, skorzystaj z poniższego ComfyUI web. Jest w pełni wyposażony we wszystkie niezbędne węzły i modele, umożliwiając płynną kreatywność bez konieczności ręcznych ustawień. Zacznij zdobywać praktyczne doświadczenie i zapoznaj się z funkcjami ControlNet już teraz!
© Prawa autorskie 2024 RunComfy. Wszelkie prawa zastrzeżone.