Updated: 5/27/2024
Cześć, drodzy artyści AI! 👋 Witamy w naszym przyjaznym dla początkujących tutorialu na temat ComfyUI, niezwykle potężnego i elastycznego narzędzia do tworzenia oszałamiających dzieł sztuki generowanych przez AI. 🎨 W tym przewodniku przeprowadzimy Cię przez podstawy ComfyUI, zbadamy jego funkcje i pomożemy Ci odkryć jego potencjał, aby przenieść Twoją sztukę AI na wyższy poziom. 🚀
Omówimy:
ComfyUI jest jak magiczna różdżka 🪄 do tworzenia oszałamiających dzieł sztuki generowanych przez AI z łatwością. W swoim rdzeniu, ComfyUI jest graficznym interfejsem użytkownika opartym na węzłach (GUI) zbudowanym na Stable Diffusion, nowoczesnym modelu głębokiego uczenia, który generuje obrazy na podstawie opisów tekstowych. 🌟 Ale to, co naprawdę wyróżnia ComfyUI, to sposób, w jaki umożliwia artystom takim jak Ty uwolnienie swojej kreatywności i urzeczywistnienie swoich najdzikszych pomysłów.
Wyobraź sobie cyfrowe płótno, na którym możesz skonstruować swoje unikalne przepływy pracy generowania obrazów, łącząc różne węzły, z których każdy reprezentuje określoną funkcję lub operację. 🧩 To jak budowanie wizualnego przepisu na swoje dzieła sztuki generowane przez AI!
Chcesz wygenerować obraz od podstaw za pomocą tekstowej podpowiedzi? Jest na to węzeł! Potrzebujesz zastosować konkretny sampler lub dostroić poziom szumu? Po prostu dodaj odpowiednie węzły i obserwuj, jak dzieje się magia. ✨
Ale oto najlepsza część: ComfyUI rozbija przepływ pracy na elementy, które można przestawiać, dając Ci wolność tworzenia własnych niestandardowych przepływów pracy dostosowanych do Twojej wizji artystycznej. 🖼️ To jak posiadanie spersonalizowanego zestawu narzędzi, który dostosowuje się do Twojego procesu twórczego.
AUTOMATIC1111 jest domyślnym GUI dla Stable Diffusion. Więc czy powinieneś używać ComfyUI zamiast tego? Porównajmy:
✅ Korzyści z używania ComfyUI:
❌ Wady używania ComfyUI:
Uważamy, że najlepszym sposobem na naukę ComfyUI jest zanurzenie się w przykłady i doświadczenie tego na własnej skórze. 🙌 Dlatego stworzyliśmy ten unikalny tutorial, który wyróżnia się spośród innych. W tym tutorialu znajdziesz szczegółowy, krok po kroku przewodnik, który możesz śledzić.
Ale oto najlepsza część: 🌟 Zintegrowaliśmy ComfyUI bezpośrednio z tą stroną! Będziesz mógł interaktywnie korzystać z przykładów ComfyUI w czasie rzeczywistym, przechodząc przez przewodnik.🌟 Zanurzmy się!
Zacznijmy od najprostszego przypadku: generowania obrazu z tekstu. Kliknij Queue Prompt, aby uruchomić przepływ pracy. Po krótkim oczekiwaniu powinieneś zobaczyć swój pierwszy wygenerowany obraz! Aby sprawdzić swoją kolejkę, kliknij View Queue.
Oto domyślny przepływ pracy tekst-na-obraz, który możesz wypróbować:
Przepływ pracy ComfyUI składa się z dwóch podstawowych elementów budulcowych: Węzły i Krawędzie.
Najpierw wybierz model Checkpoint Stable Diffusion w węźle Load Checkpoint. Kliknij nazwę modelu, aby zobaczyć dostępne modele. Jeśli kliknięcie nazwy modelu nic nie robi, może być konieczne przesłanie niestandardowego modelu.
Zobaczysz dwa węzły oznaczone CLIP Text Encode (Prompt). Górna podpowiedź jest połączona z wejściem positive węzła KSampler, podczas gdy dolna podpowiedź jest połączona z wejściem negative. Wprowadź swoją pozytywną podpowiedź w górnym węźle, a negatywną podpowiedź w dolnym.
Węzeł CLIP Text Encode konwertuje podpowiedź na tokeny i koduje je w embeddingi za pomocą enkodera tekstu.
💡 Wskazówka: Użyj składni (słowo kluczowe:waga), aby kontrolować wagę słowa kluczowego, np. (słowo kluczowe:1.2), aby zwiększyć jego efekt, lub (słowo kluczowe:0.8), aby go zmniejszyć.
Kliknij Queue Prompt, aby uruchomić przepływ pracy. Po krótkim oczekiwaniu Twój pierwszy obraz zostanie wygenerowany!
Moc ComfyUI leży w jego konfigurowalności. Zrozumienie, co robi każdy węzeł, pozwala dostosować je do swoich potrzeb. Ale zanim zagłębimy się w szczegóły, przyjrzyjmy się procesowi Stable Diffusion, aby lepiej zrozumieć, jak działa ComfyUI.
Proces Stable Diffusion można podsumować w trzech głównych krokach:
Teraz, gdy mamy ogólne zrozumienie procesu Stable Diffusion, zanurzmy się w kluczowe komponenty i węzły w ComfyUI, które umożliwiają ten proces.
Węzeł Load Checkpoint w ComfyUI jest kluczowy do wyboru modelu Stable Diffusion. Model Stable Diffusion składa się z trzech głównych komponentów: MODEL, CLIP i VAE. Przyjrzyjmy się każdemu z nich i jego relacji z odpowiednimi węzłami w ComfyUI.
Ważne jest, aby zauważyć, że VAE jest oddzielnym komponentem od modelu językowego CLIP. Podczas gdy CLIP koncentruje się na przetwarzaniu podpowiedzi tekstowych, VAE zajmuje się konwersją między przestrzeniami pikseli i latentnymi.
Węzeł CLIP Text Encode w ComfyUI jest odpowiedzialny za przyjmowanie podpowiedzi dostarczonych przez użytkownika i wprowadzanie ich do modelu językowego CLIP. CLIP jest potężnym modelem językowym, który rozumie znaczenie semantyczne słów i może kojarzyć je z koncepcjami wizualnymi. Kiedy podpowiedź jest wprowadzana do węzła CLIP Text Encode, przechodzi proces transformacji, w którym każde słowo jest przekształcane w embeddingi. Te embeddingi to wektory wielowymiarowe, które uchwytują informacje semantyczne słów. Poprzez przekształcanie podpowiedzi w embeddingi, CLIP umożliwia MODEL generowanie obrazów, które dokładnie odzwierciedlają znaczenie i intencję podanych podpowiedzi.
Optymalne rozmiary obrazów latentnych zależą od konkretnego modelu Stable Diffusion, który jest używany. Dla modeli SD v1.5 zalecane rozmiary to 512x512 lub 768x768, podczas gdy dla modeli SDXL optymalny rozmiar to 1024x1024. ComfyUI oferuje szereg popularnych proporcji do wyboru, takich jak 1:1 (kwadrat), 3:2 (krajobraz), 2:3 (portret), 4:3 (krajobraz), 3:4 (portret), 16:9 (szerokoekranowy) i 9:16 (pionowy). Ważne jest, aby szerokość i wysokość obrazu latentnego były podzielne przez 8, aby zapewnić kompatybilność z architekturą modelu.
VAE (Variational AutoEncoder) jest kluczowym komponentem w modelu Stable Diffusion, który obsługuje konwersję obrazów między przestrzenią pikseli a przestrzenią latentną. Składa się z dwóch głównych części: Enkodera Obrazu i Dekodera Obrazu.
Enkoder Obrazu przyjmuje obraz w przestrzeni pikseli i kompresuje go do niżej wymiarowej reprezentacji latentnej. Ten proces kompresji znacznie zmniejsza rozmiar danych, co umożliwia bardziej efektywne przetwarzanie i przechowywanie. Na przykład, obraz o rozmiarze 512x512 pikseli może być skompresowany do reprezentacji latentnej o rozmiarze 64x64.
Z drugiej strony, Dekoder Obrazu, znany również jako Dekoder VAE, jest odpowiedzialny za rekonstrukcję obrazu z reprezentacji latentnej z powrotem do przestrzeni pikseli. Przyjmuje skompresowaną reprezentację latentną i rozszerza ją, aby wygenerować ostateczny obraz.
Używanie VAE oferuje kilka zalet:
Jednakże, istnieją również pewne wady do rozważenia:
Pomimo tych ograniczeń, VAE odgrywa kluczową rolę w modelu Stable Diffusion, umożliwiając efektywną konwersję między przestrzenią pikseli a przestrzenią latentną, ułatwiając szybsze generowanie i bardziej precyzyjną kontrolę nad wygenerowanymi obrazami.
Węzeł KSampler w ComfyUI jest sercem procesu generowania obrazów w Stable Diffusion. Jest odpowiedzialny za denoising losowego obrazu w przestrzeni latentnej, aby dopasować go do podpowiedzi użytkownika. Węzeł KSampler stosuje technikę zwaną odwrotną dyfuzją, gdzie iteracyjnie poprawia reprezentację latentną, usuwając szum i dodając znaczące szczegóły na podstawie wskazówek z embeddingów CLIP.
Węzeł KSampler oferuje kilka parametrów, które pozwalają użytkownikom dostroić proces generowania obrazów:
Seed: Wartość seed kontroluje początkowy szum i kompozycję ostatecznego obrazu. Ustawiając konkretny seed, użytkownicy mogą osiągnąć powtarzalne wyniki i utrzymać spójność między wieloma generacjami.
Control_after_generation: Ten parametr określa, jak wartość seed zmienia się po każdej generacji. Może być ustawiony na losowanie (generowanie nowego losowego seed dla każdego uruchomienia), inkrementację (zwiększenie wartości seed o 1), dekrementację (zmniejszenie wartości seed o 1) lub stałą (utrzymanie stałej wartości seed).
Step: Liczba kroków próbkowania określa intensywność procesu poprawy. Wyższe wartości skutkują mniejszą liczbą artefaktów i bardziej szczegółowymi obrazami, ale również wydłużają czas generowania.
Sampler_name: Ten parametr pozwala użytkownikom wybrać konkretny algorytm próbkowania używany przez KSampler. Różne algorytmy próbkowania mogą dawać nieco inne wyniki i mają różne prędkości generowania.
Scheduler: Scheduler kontroluje, jak poziom szumu zmienia się na każdym kroku procesu denoisingu. Określa tempo, w jakim szum jest usuwany z reprezentacji latentnej.
Denoise: Parametr denoise ustawia ilość początkowego szumu, który ma zostać usunięty w procesie denoisingu. Wartość 1 oznacza, że cały szum zostanie usunięty, co skutkuje czystym i szczegółowym obrazem.
Dostosowując te parametry, możesz dostroić proces generowania obrazów, aby osiągnąć pożądane wyniki.
W RunComfy stworzyliśmy ostateczne doświadczenie ComfyUI online specjalnie dla Ciebie. Pożegnaj się z skomplikowanymi instalacjami! 🎉 Wypróbuj ComfyUI Online teraz i uwolnij swój artystyczny potencjał jak nigdy dotąd! 🎉
Przepływ pracy Obraz-na-Obraz generuje obraz na podstawie podpowiedzi i obrazu wejściowego. Wypróbuj to sam!
Aby użyć przepływu pracy Obraz-na-Obraz:
Aby uzyskać więcej premiumowych przepływów pracy ComfyUI, odwiedź naszą 🌟Listę Przepływów Pracy ComfyUI🌟
Dzięki swojej ekstremalnej konfigurowalności, ComfyUI jest jednym z pierwszych GUI, które obsługuje model Stable Diffusion XL. Wypróbujmy to!
Aby użyć przepływu pracy ComfyUI SDXL:
Zanurzmy się w coś bardziej skomplikowanego: inpainting! Kiedy masz świetny obraz, ale chcesz zmodyfikować konkretne części, inpainting jest najlepszą metodą. Wypróbuj to tutaj!
Aby użyć przepływu pracy inpainting:
Outpainting to kolejna ekscytująca technika, która pozwala rozszerzać obrazy poza ich oryginalne granice. 🌆 To jak posiadanie nieskończonego płótna do pracy!
Aby użyć przepływu pracy ComfyUI Outpainting:
Aby uzyskać więcej premiumowych przepływów pracy inpainting/outpainting, odwiedź naszą 🌟Listę Przepływów Pracy ComfyUI🌟
Następnie, przyjrzyjmy się ComfyUI upscale. Wprowadzimy trzy podstawowe przepływy pracy, które pomogą Ci efektywnie powiększać obrazy.
Istnieją dwie główne metody powiększania:
Dwa sposoby na osiągnięcie tego:
Inna metoda powiększania to Upscale Latent, znana również jako Hi-res Latent Fix Upscale, która bezpośrednio powiększa w przestrzeni latentnej.
Aby uzyskać więcej premiumowych przepływów pracy restore/upscale, odwiedź naszą 🌟Listę Przepływów Pracy ComfyUI🌟
Przygotuj się na przeniesienie swojej sztuki AI na wyższy poziom z ControlNet, technologią, która rewolucjonizuje generowanie obrazów!
ControlNet jest jak magiczna różdżka 🪄, która daje Ci bezprecedensową kontrolę nad obrazami generowanymi przez AI. Współpracuje z potężnymi modelami, takimi jak Stable Diffusion, zwiększając ich możliwości i pozwalając Ci kierować procesem tworzenia obrazów jak nigdy dotąd!
Wyobraź sobie, że możesz określić krawędzie, pozy ludzkie, głębokość, a nawet mapy segmentacji swojego pożądanego obrazu. 🌠 Z ControlNet możesz to zrobić!
Jeśli chcesz zagłębić się w świat ControlNet i uwolnić jego pełen potencjał, mamy dla Ciebie szczegółowy tutorial na temat opanowania ControlNet w ComfyUI! 📚 Jest pełen przewodników krok po kroku i inspirujących przykładów, które pomogą Ci stać się ekspertem ControlNet. 🏆
ComfyUI Manager to niestandardowy węzeł, który pozwala instalować i aktualizować inne niestandardowe węzły za pośrednictwem interfejsu ComfyUI. Znajdziesz przycisk Manager w menu Queue Prompt.
Jeśli przepływ pracy wymaga niestandardowych węzłów, których nie masz zainstalowanych, wykonaj następujące kroki:
Kliknij dwukrotnie dowolny pusty obszar, aby wywołać menu do wyszukiwania węzłów.
Embeddings, znane również jako textual inversion, to potężna funkcja w ComfyUI, która pozwala wprowadzać niestandardowe koncepcje lub style do obrazów generowanych przez AI. 💡 To jak nauczanie AI nowego słowa lub frazy i kojarzenie go z konkretnymi cechami wizualnymi.
Aby używać embeddings w ComfyUI, po prostu wpisz "embedding:" a następnie nazwę swojego embeddingu w polu pozytywnej lub negatywnej podpowiedzi. Na przykład:
embedding: BadDream
Kiedy używasz tej podpowiedzi, ComfyUI będzie szukać pliku embedding o nazwie "BadDream" w folderze ComfyUI > models > embeddings. 📂 Jeśli znajdzie dopasowanie, zastosuje odpowiadające cechy wizualne do wygenerowanego obrazu.
Embeddings są świetnym sposobem na personalizację swojej sztuki AI i osiągnięcie konkretnych stylów lub estetyki. 🎨 Możesz tworzyć swoje własne embeddings, trenując je na zestawie obrazów, które reprezentują pożądaną koncepcję lub styl.
Zapamiętywanie dokładnych nazw swoich embeddings może być uciążliwe, zwłaszcza jeśli masz dużą kolekcję. 😅 Tutaj z pomocą przychodzi niestandardowy węzeł ComfyUI-Custom-Scripts!
Aby włączyć autouzupełnianie nazw embedding:
Po zainstalowaniu węzła ComfyUI-Custom-Scripts, doświadczysz bardziej przyjaznego sposobu korzystania z embeddings. 😊 Po prostu zacznij wpisywać "embedding:" w polu podpowiedzi, a pojawi się lista dostępnych embeddings. Możesz wtedy wybrać pożądany embedding z listy, oszczędzając czas i wysiłek!
Czy wiesz, że możesz kontrolować siłę swoich embeddings? 💪 Ponieważ embeddings są zasadniczo słowami kluczowymi, możesz stosować do nich wagi, tak jak do zwykłych słów kluczowych w swoich podpowiedziach.
Aby dostosować wagę embedding, użyj następującej składni:
(embedding: BadDream:1.2)
W tym przykładzie waga embedding "BadDream" jest zwiększona o 20%. Wyższe wagi (np. 1.2) sprawią, że embedding będzie bardziej widoczny, podczas gdy niższe wagi (np. 0.8) zmniejszą jego wpływ. 🎚️ To daje Ci jeszcze większą kontrolę nad ostatecznym wynikiem!
LoRA, skrót od Low-rank Adaptation, to kolejna ekscytująca funkcja w ComfyUI, która pozwala modyfikować i dostosowywać modele checkpoint. 🎨 To jak dodanie małego, specjalizowanego modelu na szczyt swojego modelu bazowego, aby osiągnąć konkretne style lub wprowadzić niestandardowe elementy.
Modele LoRA są kompaktowe i wydajne, co sprawia, że są łatwe w użyciu i udostępnianiu. Są powszechnie używane do zadań takich jak modyfikacja stylu artystycznego obrazu lub wprowadzanie konkretnej osoby lub obiektu do wygenerowanego wyniku.
Kiedy stosujesz model LoRA do modelu checkpoint, modyfikuje on komponenty MODEL i CLIP, pozostawiając VAE (Variational Autoencoder) nienaruszony. Oznacza to, że LoRA skupia się na dostosowywaniu treści i stylu obrazu, nie zmieniając jego ogólnej struktury.
Używanie LoRA w ComfyUI jest proste. Przyjrzyjmy się najprostszemu sposobowi:
ComfyUI następnie połączy model checkpoint i model LoRA, aby stworzyć obraz, który odzwierciedla podane podpowiedzi i wprowadza modyfikacje wprowadzone przez LoRA.
Ale co, jeśli chcesz zastosować wiele LoRA do jednego obrazu? Żaden problem! ComfyUI pozwala używać dwóch lub więcej LoRA w tym samym przepływie pracy tekst-na-obraz.
Proces jest podobny do używania jednego LoRA, ale musisz wybrać wiele modeli LoRA zamiast jednego. ComfyUI zastosuje LoRA sekwencyjnie, co oznacza, że każdy LoRA będzie budować na modyfikacjach wprowadzonych przez poprzedni.
To otwiera świat możliwości łączenia różnych stylów, elementów i modyfikacji w swoich obrazach generowanych przez AI. 🌍💡 Eksperymentuj z różnymi kombinacjami LoRA, aby osiągnąć unikalne i kreatywne wyniki!
Gratulacje za ukończenie tego przewodnika dla początkujących po ComfyUI! 🙌 Teraz jesteś gotowy, aby zanurzyć się w ekscytujący świat tworzenia sztuki AI. Ale po co męczyć się z instalacją, skoro można zacząć tworzyć od razu? 🤔
W RunComfy, ułatwiliśmy korzystanie z ComfyUI online bez żadnej konfiguracji. Nasza usługa ComfyUI Online jest wstępnie załadowana ponad 200 popularnymi węzłami i modelami, wraz z ponad 50 oszałamiającymi przepływami pracy, które zainspirują Twoje kreacje.
🌟 Niezależnie od tego, czy jesteś początkującym, czy doświadczonym artystą AI, RunComfy ma wszystko, czego potrzebujesz, aby urzeczywistnić swoje artystyczne wizje. 💡 Nie czekaj dłużej – wypróbuj ComfyUI Online teraz i doświadcz mocy tworzenia sztuki AI na wyciągnięcie ręki! 🚀
© Prawa autorskie 2024 RunComfy. Wszelkie prawa zastrzeżone.