Twórz oszałamiające animacje wideo, przekształcając swój obiekt (np. tancerza) za pomocą dynamicznej aury, która rytmicznie rozszerza się i kurczy w synchronizacji z rytmem. Użyj tego workflow dla pojedynczych obiektów lub wielu obiektów, jak pokazano w przykładach.
Jak używać Workflow Audioreactive Mask Dilation:
- Prześlij wideo z obiektem w sekcji Input
- Wybierz pożądaną szerokość i wysokość końcowego wideo oraz ile klatek z wejściowego wideo powinno być pominiętych za pomocą 'every_nth'. Możesz również ograniczyć całkowitą liczbę klatek do renderowania za pomocą 'frame_load_cap'.
- Wypełnij pozytywne i negatywne prompt. Ustaw czasy batch frame tak, aby pasowały do momentów, w których mają się odbywać przejścia scen.
- Prześlij obrazy dla każdego z domyślnych kolorów maski IP Adapter:
- Czerwony = obiekt (tancerz)
- Czarny = Tło
- Biały = Biała audioreaktywna maska dylatacyjna
- Załaduj dobry punkt kontrolny LCM (używam ParadigmLCM by Machine Delusions) w sekcji 'Models'.
- Dodaj dowolne loras używając Lora stacker poniżej model loader
- Kliknij Queue Prompt
- Prześlij swoje pożądane wideo z obiektem do węzła Load Video (Upload).
- Dostosuj szerokość i wysokość wyjściową za pomocą dwóch górnych lewych wejść.
- every_nth ustawia, czy używać co drugą klatkę, co trzecią klatkę itd. (2 = co druga klatka). Domyślnie ustawione na 1.
- skip_frames jest używane do pomijania klatek na początku wideo. (100 = pomiń pierwsze 100 klatek z wejściowego wideo). Domyślnie ustawione na 0.
- frame_load_cap jest używane do określenia, ile całkowitych klatek z wejściowego wideo powinno być załadowanych. Najlepiej utrzymać niską wartość podczas testowania ustawień (30 - 60 na przykład), a następnie zwiększyć lub ustawić na 0 (bez limitu klatek) podczas renderowania końcowego wideo.
- Pola liczbowych w prawym dolnym rogu wyświetlają informacje o załadowanym wejściowym wideo: całkowita liczba klatek, szerokość, wysokość i FPS od góry do dołu.
- Jeśli masz już wygenerowane wideo z maską obiektu, odcisz sekcję 'Upload Subject Mask' i prześlij wideo z maską. Opcjonalnie wycisz sekcję 'Segment Dancer', aby zaoszczędzić czas przetwarzania.
- Czasami wyodrębniony obiekt nie będzie idealny, wtedy sprawdź jakość maski za pomocą pola podglądu w prawym dolnym rogu widocznym powyżej. Jeśli tak jest, możesz eksperymentować z promptem w węźle 'Florence2Run', aby skierować się na różne części ciała, takie jak 'head', 'chest', 'legs', itp. i sprawdzić, czy uzyskasz lepszy wynik.
Prompt
- Ustaw pozytywny prompt za pomocą formatowania batch:
- np. '0': '4k, masterpiece, 1girl standing on the beach, absurdres', '25': 'HDR, sunset scene, 1girl with black hair and a white jacket, absurdres', …
- Negatywny prompt ma normalny format, dodaj embeddings, jeśli chcesz.
Audio Processing
- Ta sekcja przyjmuje dźwięk z wejściowego wideo, wyodrębnia stemsy (bass, drums, vocals, itp.) i konwertuje je na znormalizowaną amplitudę zsynchronizowaną z klatkami wejściowego wideo.
- amp_control = całkowity zakres, w jakim może poruszać się amplituda.
- amp_offset = minimalna wartość, jaką może przyjąć amplituda.
- Przykład: amp_control = 0.8 i amp_offset = 0.2 oznacza, że sygnał będzie poruszać się między 0.2 a 1.0.
- Czasami stem Drums zawiera rzeczywiste nuty basowe z utworu; przejrzyj każdy, aby określić, który najlepiej nadaje się do twoich masek.
- Użyj wykresów, aby uzyskać jasny obraz, jak sygnał dla danego stemu zmienia się w trakcie trwania wideo.
Dilate Masks
- Każda kolorowa grupa odpowiada kolorowi maski dylatacyjnej, która zostanie przez nią wygenerowana.
- Ustaw minimalny i maksymalny promień dla maski dylatacyjnej oraz jej kształt, używając następującego węzła:
- shape: 'circle' jest najbardziej dokładny, ale dłużej trwa jego generowanie. Ustaw to, gdy jesteś gotowy do wykonania końcowego renderowania. 'square' jest szybki do obliczenia, ale mniej dokładny, najlepszy do testowania workflow i decydowania o obrazach IP adapter.
- max_radius: Promień maski w pikselach, gdy wartość amplitudy jest maksymalna (1.0).
- min_radius: Promień maski w pikselach, gdy wartość amplitudy jest minimalna (0.0).
- Jeśli masz już wygenerowane wideo z maską kompozytową, możesz odciszyć grupę 'Override Composite Mask' i przesłać ją. Zaleca się pominięcie grup masek dylatacyjnych, jeśli nadpisujesz, aby zaoszczędzić czas przetwarzania.
Models
- Użyj dobrego modelu LCM dla punktu kontrolnego. Polecam ParadigmLCM by Machine Delusions.
- Połącz wiele modeli razem, używając Model Merge Stack, aby uzyskać różne interesujące efekty. Upewnij się, że wagi sumują się do 1.0 dla włączonych modeli.
- Opcjonalnie określ AnimateLCM_sd15_t2v_lora.safetensors z niską wagą 0.18, aby dodatkowo poprawić końcowy wynik.
- Dodaj dowolne dodatkowe Loras do modelu, używając Lora stacker poniżej model loader.
AnimateDiff
- Ustaw inny Motion Lora zamiast tego, którego użyłem (LiquidAF-0-1.safetensors)
- Zwiększ/zmniejsz wartości Scale i Effect, aby zwiększyć/zmniejszyć ilość ruchu w wyjściowym wideo.
IP Adapters
- Tutaj możesz określić obrazy referencyjne, które będą używane do renderowania tła dla każdej z masek dylatacyjnych, jak również dla twoich obiektów wideo.
- Kolor każdej grupy reprezentuje maskę, do której się odnosi:
Czerwony, Zielony, Niebieski:
- Obrazy referencyjne maski obiektu.
Czarny:
- Obraz referencyjny maski tła, prześlij obraz referencyjny dla tła.
Biały, Żółty, Magenta, Cyan:
- Obrazy referencyjne maski dylatacyjnej, prześlij obraz referencyjny dla każdej maski dylatacyjnej w użyciu.
ControlNet
- Ten workflow wykorzystuje 5 różnych controlnets, w tym AD, Lineart, QR Code, Depth i OpenPose.
- Wszystkie wejścia do controlnets są generowane automatycznie
- Możesz zdecydować się na nadpisanie wejściowego wideo dla controlnets Lineart, Depth i Openpose, jeśli chcesz, odciszając grupy 'Override ', jak pokazano poniżej:
- Zaleca się również wyciszenie grup 'Generate', jeśli nadpisujesz, aby zaoszczędzić czas przetwarzania.
Wskazówka:
- Pomijaj Ksampler i rozpocznij renderowanie z pełnym wejściowym wideo. Gdy wszystkie wideo z preprocesorów zostaną wygenerowane, zapisz je i prześlij do odpowiednich nadpisów. Od teraz, testując workflow, nie będziesz musiał czekać, aż każde wideo z preprocesorów zostanie wygenerowane indywidualnie.
Sampler
- Domyślnie grupa HiRes Fix sampler będzie wyciszona, aby zaoszczędzić czas przetwarzania podczas testowania
- Zalecam pominięcie grupy Sampler również podczas eksperymentowania z ustawieniami maski dylatacyjnej, aby zaoszczędzić czas.
- Przy końcowych renderach możesz odciszyć grupę HiRes Fix, która zwiększy rozdzielczość i doda szczegóły do końcowego wyniku.
Output
- Istnieją dwie grupy wyjściowe: po lewej stronie dla standardowego wyjścia sampler, a po prawej dla wyjścia HiRes Fix sampler.
O Autorze
Akatz AI:
- Website:
- http://patreon.com/Akatz
- https://civitai.com/user/akatz
- https://www.youtube.com/@akatz_ai
- https://www.instagram.com/akatz.ai/
- https://www.tiktok.com/@akatz_ai
- https://x.com/akatz_ai
- https://github.com/akatz-ai
Kontakty:
- Email: akatz.hello@gmail.com