Co to jest PhotoMakerV2
PhotoMakerV2, ulepszenie PhotoMaker, oferuje efektywną metodę generowania spersonalizowanych obrazów z tekstu. Syntezują realistyczne zdjęcia osób przy użyciu kilku wejściowych obrazów tożsamości i tekstowego promptu.
Kluczowe funkcje PhotoMakerV2 obejmują:
- Wysoka efektywność: Szybko generuje spersonalizowane zdjęcia.
- Doskonałe zachowanie tożsamości: Utrzymuje podobieństwo wejściowych tożsamości.
- Elastyczna kontrola tekstu: Pozwala określić kontekst, styl, atrybuty itp. w promptcie.
- Ulepszona wierność tożsamości: Lepsza w porównaniu do PhotoMaker V1.
PhotoMakerV2 generuje fotorealistyczne obrazy osoby w różnych kontekstach, stylizuje wygląd, zmienia atrybuty takie jak wiek i płeć, łączy tożsamości oraz modernizuje ludzi ze starych zdjęć lub dzieł sztuki. Otwiera liczne twórcze możliwości.
Jak działa PhotoMakerV2
PhotoMakerV2 koduje jeden lub więcej wejściowych obrazów tożsamości w "stacked ID embedding", służącym jako zjednoczona reprezentacja zawierająca informacje o tożsamości.
To embedding, połączone z tekstowym promptem, jest wprowadzane do modelu dyfuzji tekst-obraz. Model następnie produkuje obraz przedstawiający zakodowaną tożsamość w kontekście opisanym w promptcie.
Kluczowe aspekty działania pod maską:
- Używa enkodera tożsamości do wyodrębniania informacji o tożsamości z wejściowych obrazów twarzy
- Poprawia zachowanie tożsamości, wykorzystując zewnętrzny model rozpoznawania twarzy (InsightFace)
- Koduje wiele obrazów tożsamości w stacked embedding, aby kompleksowo uchwycić tożsamość
- Wprowadza stacked ID embedding do warstw cross-attention modelu dyfuzji
- Kieruje generacją za pomocą tekstowego promptu, jednocześnie adaptacyjnie łącząc informacje o tożsamości
- Trenuje z zestawem danych zorientowanym na tożsamość, aby poprawić zdolności identyfikacyjne
Jak używać ComfyUI PhotoMakerV2
Aby używać PhotoMakerV2 w ComfyUI, głównie interaguj z węzłem PhotoMakerEncodePlus. Typowy workflow obejmuje:
- Załaduj model PhotoMakerV2, używając węzła "PhotoMaker Loader Plus".
- Załaduj jeden lub więcej obrazów tożsamości, używając węzła "Prepare Images For CLIP Vision".
- Załaduj model InsightFace wymagany przez PhotoMakerV2, używając węzła "PhotoMaker InsightFace Loader".
- Połącz wyjścia tych węzłów z odpowiednimi wejściami węzła "PhotoMaker Encode Plus".
- W węźle "PhotoMaker Encode Plus" określ prompt opisujący pożądany obraz. Użyj specjalnego słowa wyzwalającego w promptcie, gdzie powinna pojawić się tożsamość.
- Połącz wyjściowe kondycjonowanie z "PhotoMaker Encode Plus" z węzłem "KSampler", aby wygenerować obraz.
Więcej informacji można znaleźć na oraz . Wszelkie uznania należą się ich wkładowi.