Capybara ComfyUI Workflow v0.1: eine einheitliche Vorlage für Bilder und Videos
Capybara ComfyUI Workflow ist ein 4-in-1-Vorlagenpaket, das Text-zu-Bild, anweisungsbasierte Bildbearbeitung, Bild-zu-Video und promptbasierte Videobearbeitung in ComfyUI abdeckt. Es basiert auf dem Capybara v0.1 Diffusionsmodell und einer einzigen, einheitlichen Pipeline, sodass Sie zwischen Bild- und Videoaufgaben mit konsistentem Verhalten und vorhersehbaren Ergebnissen wechseln können.
Dieses Capybara ComfyUI Workflow ist ideal für Kreative, die promptgesteuerte Bearbeitungen, schnelle Iterationen und zuverlässige Seitenverhältnis-Voreinstellungen benötigen. Jeder Pfad verwendet den gleichen Modell-Stack und die gleiche Prompt-Strategie, was Farbwissenschaft, Komposition und Stil über Aufgaben hinweg kohärent hält.
Schlüsselmodelle im Comfyui Capybara ComfyUI Workflow
- Capybara v0.1 (Diffusion UNet). Der Kern, der Bild- und Videoverhalten vereint; es lenkt, wie Inhalte in allen vier Vorlagen komponiert und stilisiert werden. Siehe das Projekt-Repo und die Modellkarte für Details: xgen-universe/Capybara (GitHub) und xgen-universe/Capybara (Hugging Face).
- Qwen2.5-VL-7B Text-Encoder. Bietet starke, anweisungsfreundliche Sprachverständnis für Prompts und Bearbeitungsanweisungen, verbessert die Übereinstimmung zwischen dem, was Sie schreiben, und dem, was generiert wird. Siehe Qwen/Qwen2.5-VL-7B.
- ByT5-small Text-Encoder. Ein Byte-Level-Encoder, der bei robuster Tokenisierung und Texthandhabung innerhalb von Prompts hilft und das primäre Sprachmodell ergänzt. Siehe google/byt5-small.
- HunyuanVideo 1.5 VAE. Handhabt latente Decodierung/Encodierung über Bild- und Videobranchen, sodass beide die gleichen Rekonstruktionsmerkmale teilen. Siehe Tencent/HunyuanVideo (GitHub) und die neu verpackten Assets in Comfy-Org/HunyuanVideo_1.5_repackaged.
- SigCLIP Vision (patch14, 384). Liefert Bildmerkmale, die helfen, Struktur und Identität während der Bearbeitung und beim Umwandeln von Bildern in Videos zu bewahren. Siehe Comfy-Org/sigclip_vision_384.
Nutzung des Comfyui Capybara ComfyUI Workflow
Der Workflow ist in vier Gruppen organisiert, die Sie unabhängig ausführen können. Jede Gruppe teilt den gleichen Capybara-Modell-Stack und die gleiche Prompt-Strategie, sodass Stil und Treue zwischen Bildern und Videos übertragen werden. Verwenden Sie die integrierten Größen- und Verhältnis-Panels, um aus sinnvollen Auflösungsvoreinstellungen zu wählen, bevor Sie generieren.
- Bildbearbeitung
- Laden Sie ein Quellbild mit
LoadImage(#80), dann öffnen SieImage Edit (Capybara v0.1)(#103). Schreiben Sie anweisungsartige Prompts wie "Behalte das Subjekt und Outfit; ersetze die Innenraumszene durch eine sonnenbeschienene Wiese." Verwenden Sie das negative Prompt, um Artefakte wie "Wasserzeichen, Text, niedrige Qualität" zu unterdrücken. - Der Editor verwendet CLIP Vision, um das Subjekt und Layout zu verankern, während Capybara Ihre Anweisung auf den Rest der Szene anwendet. Dies ist großartig für schnelle Hintergrundwechsel oder globale Look-Anpassungen ohne Identitätsverlust.
- Ausgabe wird durch
SaveImage(#102) gespeichert. Wenn Sie ein bestimmtes Verhältnis benötigen, stellen Sie die Breite/Höhe-Kontrollen am Knoten auf eine der enthaltenen Voreinstellungen ein.
- Laden Sie ein Quellbild mit
- Text zu Bild
- Öffnen Sie den
Text to Image (Capybara v0.1)Subgraphen (#143) und schreiben Sie einen beschreibenden Prompt. Dieser Zweig erzeugt ein sauberes Standbild unter Verwendung der gleichen Sprachencoder und Planer wie die anderen Pfade, sodass es dem Look Ihrer Bearbeitungen und Videos entspricht. - Fügen Sie ein kurzes negatives Prompt zur Qualitätskontrolle hinzu. Wenn Sie ein quadratisches, 16:9, 9:16 oder 4:3-Format möchten, wählen Sie die entsprechende Voreinstellung im Größen-Panel, bevor Sie ausführen.
- Bilder werden zur Überprüfung gespeichert und können als Ausgangspunkte in den Bild-zu-Video- oder Bearbeitungspfaden wiederverwendet werden, um die visuelle Kontinuität zu bewahren.
- Öffnen Sie den
- Bild zu Video
- Laden Sie ein Referenzbild mit
LoadImage(#131), dann führen Sie den Generator-Subgraphen (#130) aus. Schreiben Sie einen bewegungsbewussten Prompt (zum Beispiel "langsames Vorwärts-Dolly, warmes cineastisches Grade"), um das Eingabebild zu animieren, während seine Komposition und Identität respektiert werden. - Im Hintergrund verwandelt
HunyuanVideo15ImageToVideo(#115) das Standbild und Ihren Prompt in eine kurze Sequenz latenter Frames, die Capybara verfeinert. Verwenden Sie die enthaltene Längenkontrolle, um zu wählen, wie lang der Clip sein soll. - Frames werden mit
VHS_VideoCombine(#144) in MP4 kodiert, bei einer standardmäßigen cineastischen Bildrate. Verwenden Sie dies, wenn Sie schnelle, social-media-bereite Bewegungen aus einem kunstgeleiteten Schlüsselbild wünschen.
- Laden Sie ein Referenzbild mit
- Videobearbeitung
- Importieren Sie einen Clip mit
VHS_LoadVideo(#146), dann öffnen Sie den Bearbeitungs-Subgraphen (#136). Schreiben Sie eine Anweisung wie "Ändern Sie den Ozeanhintergrund in Grasland; behalten Sie das Pferd und die Bewegung bei." - Der Bearbeitungspfad fusioniert CLIP Vision mit Ihrem Prompt, sodass Subjekte stabil bleiben, während sich Szenen, Beleuchtung oder Wetter im Laufe der Zeit anpassen. Negative Prompts helfen, Flackern oder unerwünschte Überlagerungen zu unterdrücken.
- Das Ergebnis wird mit
VHS_VideoCombine(#145) zu MP4 kompiliert. Wählen Sie eine Auflösungsvoreinstellung, die Ihrer Quelle entspricht, um Streckungen zu vermeiden.
- Importieren Sie einen Clip mit
Schlüsselnoten im Comfyui Capybara ComfyUI Workflow
Image Edit (Capybara v0.1)(#103)- Ein kompakter, anweisungsbasierter Editor, der die Struktur mit Vision-Merkmalen bewahrt, während Ihre Textbearbeitung global angewendet wird. Passen Sie das
textPrompt an, um zu beschreiben, was sich ändern soll und was bleiben muss, dann verwenden Siestepsfür Qualität/Glätte undcfg, um die Prompt-Stärke gegen das Quellbild auszubalancieren. Erhöhen Siestepsfür mehr Details; moderatecfgWerte halten Bearbeitungen in der Regel treu.
- Ein kompakter, anweisungsbasierter Editor, der die Struktur mit Vision-Merkmalen bewahrt, während Ihre Textbearbeitung global angewendet wird. Passen Sie das
HunyuanVideo15ImageToVideo(#115)- Die Brücke von Standbildern zu Bewegung und der Motor hinter promptbasierten Videobearbeitungen. Es erstellt eine kurze latente Sequenz, die auf Ihrem Prompt und, wenn bereitgestellt, einem Startbild basiert. Passen Sie
lengthfür die Dauer undwidth/heightan, um eine Voreinstellung zu wählen; größere Größen erhöhen Detail und Renderzeit. Dieser Knoten ist das Rückgrat sowohl der Bild-zu-Video- als auch der Videobearbeitungsgruppen und nutzt das HunyuanVideo-Design für stabile zeitliche Generierung, während Capybara die Entstörung übernimmt.
- Die Brücke von Standbildern zu Bewegung und der Motor hinter promptbasierten Videobearbeitungen. Es erstellt eine kurze latente Sequenz, die auf Ihrem Prompt und, wenn bereitgestellt, einem Startbild basiert. Passen Sie
VHS_VideoCombine(#145)- Der Finalisierer, der generierte Frames in eine MP4 umwandelt. Verwenden Sie
frame_rate, um die Bewegungskadenz zu steuern, undcrf, um Qualität gegen Dateigröße zu tauschen. Niedrigerecrf-Werte liefern höhere Qualität, aber größere Dateien; halten Sie es über Projekte hinweg konsistent, sodass Ihre Capybara ComfyUI Workflow-Ausgaben ein einheitliches Erscheinungsbild haben.
- Der Finalisierer, der generierte Frames in eine MP4 umwandelt. Verwenden Sie
Optionale Extras für das Capybara ComfyUI Workflow
- Verwenden Sie die Größen- und Verhältnis-Voreinstellungen, um 16:9, 9:16, 1:1 oder 4:3 bei 480p, 720p, 1024 oder 1080p festzulegen. Das Bleiben auf Voreinstellung hilft dem Sampler und VAE, stabil zu bleiben und Randartefakte zu reduzieren.
- Für einen Qualitätsboost erhöhen Sie die Diffusions-
stepsin den Sampler-Panels. Das Rendern dauert länger, aber feine Texturen und saubere Kanten verbessern sich merklich. - Halten Sie Ihr Subjekt in Bearbeitungen stabil, indem Sie Prompts schreiben, die explizit sagen, was beibehalten werden soll (zum Beispiel "Halte Charaktere und Kostüme unverändert") und schieben Sie Szenenänderungen in den Rest des Satzes.
- Negative Prompts sind Ihre Aufräumcrew. Häufige Einträge wie "verschwommen, Wasserzeichen, Text" helfen, Überlagerungen und kompressionsartige Artefakte sowohl in Bildern als auch in Videos zu entfernen.
- Für Videos wählen Sie die Clip-Länge, die zu Ihrer beabsichtigten Bildrate passt. Die Standardeinstellungen sind für kurze Social-Clips abgestimmt; längere Sequenzen profitieren von leicht erhöhten
stepsfür zeitliche Konsistenz.
Dieses Capybara ComfyUI Workflow ist darauf ausgelegt, Einrichtungsreibung zu minimieren: ein Modell-Stack, vier kreative Aufgaben und konsistente Kontrollen. Beginnen Sie mit Text-zu-Bild für Look-Dev, verwenden Sie die Bildbearbeitung zur Verfeinerung, animieren Sie den Schlüsselbild mit Bild-zu-Video, dann beenden Sie mit promptbasierter Videobearbeitung, um das endgültige Briefing zu erfüllen.
Danksagungen
Dieses Workflow implementiert und baut auf den folgenden Arbeiten und Ressourcen auf. Wir danken XGen Universe für das Capybara-Modell und Projekt, Comfy-Org für die Capybara v0.1 Diffusionsmodell-Assets, HunyuanVideo 1.5 VAE und Qwen2.5-VL-7B Text-Encoder-Verpackung, und Comfy.org für die Capybara Workflow-Vorlagen (Text zu Bild, Bildbearbeitung, Bild zu Video und Videobearbeitung) für ihre Beiträge und Wartung. Für autoritative Details, konsultieren Sie bitte die originale Dokumentation und Repositories, die unten verlinkt sind.
Ressourcen
- XGen Universe/Capybara Projekt
- GitHub: xgen-universe/Capybara
- Hugging Face: xgen-universe/Capybara
- Comfy.org/Capybara Vorlage - Text zu Bild
- Docs / Release Notes: Capybara Vorlage - Text zu Bild
- Comfy.org/Capybara Vorlage - Bildbearbeitung
- Docs / Release Notes: Capybara Vorlage - Bildbearbeitung
- Comfy.org/Capybara Vorlage - Bild zu Video
- Docs / Release Notes: Capybara Vorlage - Bild zu Video
- Comfy.org/Capybara Vorlage - Videobearbeitung
- Docs / Release Notes: Capybara Vorlage - Videobearbeitung
Hinweis: Die Nutzung der referenzierten Modelle, Datensätze und Codes unterliegt den jeweiligen Lizenzen und Bedingungen, die von ihren Autoren und Betreuern bereitgestellt werden.
