Capybara ComfyUI Workflow v0.1 | 4-in-1 Bild- und Videogenerator

Capybara ComfyUI Workflow Workflow

Capybara ComfyUI Workflow v0.1 | 4-in-1 Image and Video Generator

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

Capybara ComfyUI Workflow Examples

capybara-comfyui-workflow-v0-1-4-in-1-image-and-video-generator-1368-example_01.webp

capybara-comfyui-workflow-v0-1-4-in-1-image-and-video-generator-1368-example_02.webp

capybara-comfyui-workflow-v0-1-4-in-1-image-and-video-generator-1368-example_03.webp

capybara-comfyui-workflow-v0-1-4-in-1-image-and-video-generator-1368-example_04.webp

capybara-comfyui-workflow-v0-1-4-in-1-image-and-video-generator-1368-example_05.webp

capybara-comfyui-workflow-v0-1-4-in-1-image-and-video-generator-1368-example_06.webp

Capybara ComfyUI Workflow v0.1: eine einheitliche Vorlage für Bilder und Videos#

Capybara ComfyUI Workflow ist ein 4-in-1-Vorlagenpaket, das Text-zu-Bild, anweisungsbasierte Bildbearbeitung, Bild-zu-Video und promptbasierte Videobearbeitung in ComfyUI abdeckt. Es basiert auf dem Capybara v0.1 Diffusionsmodell und einer einzigen, einheitlichen Pipeline, sodass Sie zwischen Bild- und Videoaufgaben mit konsistentem Verhalten und vorhersehbaren Ergebnissen wechseln können.

Dieses Capybara ComfyUI Workflow ist ideal für Kreative, die promptgesteuerte Bearbeitungen, schnelle Iterationen und zuverlässige Seitenverhältnis-Voreinstellungen benötigen. Jeder Pfad verwendet den gleichen Modell-Stack und die gleiche Prompt-Strategie, was Farbwissenschaft, Komposition und Stil über Aufgaben hinweg kohärent hält.

Schlüsselmodelle im Comfyui Capybara ComfyUI Workflow#

Capybara v0.1 (Diffusion UNet). Der Kern, der Bild- und Videoverhalten vereint; es lenkt, wie Inhalte in allen vier Vorlagen komponiert und stilisiert werden. Siehe das Projekt-Repo und die Modellkarte für Details: xgen-universe/Capybara (GitHub) und xgen-universe/Capybara (Hugging Face).
Qwen2.5-VL-7B Text-Encoder. Bietet starke, anweisungsfreundliche Sprachverständnis für Prompts und Bearbeitungsanweisungen, verbessert die Übereinstimmung zwischen dem, was Sie schreiben, und dem, was generiert wird. Siehe Qwen/Qwen2.5-VL-7B.
ByT5-small Text-Encoder. Ein Byte-Level-Encoder, der bei robuster Tokenisierung und Texthandhabung innerhalb von Prompts hilft und das primäre Sprachmodell ergänzt. Siehe google/byt5-small.
HunyuanVideo 1.5 VAE. Handhabt latente Decodierung/Encodierung über Bild- und Videobranchen, sodass beide die gleichen Rekonstruktionsmerkmale teilen. Siehe Tencent/HunyuanVideo (GitHub) und die neu verpackten Assets in Comfy-Org/HunyuanVideo_1.5_repackaged.
SigCLIP Vision (patch14, 384). Liefert Bildmerkmale, die helfen, Struktur und Identität während der Bearbeitung und beim Umwandeln von Bildern in Videos zu bewahren. Siehe Comfy-Org/sigclip_vision_384.

Nutzung des Comfyui Capybara ComfyUI Workflow#

Der Workflow ist in vier Gruppen organisiert, die Sie unabhängig ausführen können. Jede Gruppe teilt den gleichen Capybara-Modell-Stack und die gleiche Prompt-Strategie, sodass Stil und Treue zwischen Bildern und Videos übertragen werden. Verwenden Sie die integrierten Größen- und Verhältnis-Panels, um aus sinnvollen Auflösungsvoreinstellungen zu wählen, bevor Sie generieren.

Bildbearbeitung
- Laden Sie ein Quellbild mit LoadImage (#80), dann öffnen Sie Image Edit (Capybara v0.1) (#103). Schreiben Sie anweisungsartige Prompts wie "Behalte das Subjekt und Outfit; ersetze die Innenraumszene durch eine sonnenbeschienene Wiese." Verwenden Sie das negative Prompt, um Artefakte wie "Wasserzeichen, Text, niedrige Qualität" zu unterdrücken.
- Der Editor verwendet CLIP Vision, um das Subjekt und Layout zu verankern, während Capybara Ihre Anweisung auf den Rest der Szene anwendet. Dies ist großartig für schnelle Hintergrundwechsel oder globale Look-Anpassungen ohne Identitätsverlust.
- Ausgabe wird durch SaveImage (#102) gespeichert. Wenn Sie ein bestimmtes Verhältnis benötigen, stellen Sie die Breite/Höhe-Kontrollen am Knoten auf eine der enthaltenen Voreinstellungen ein.
Text zu Bild
- Öffnen Sie den Text to Image (Capybara v0.1) Subgraphen (#143) und schreiben Sie einen beschreibenden Prompt. Dieser Zweig erzeugt ein sauberes Standbild unter Verwendung der gleichen Sprachencoder und Planer wie die anderen Pfade, sodass es dem Look Ihrer Bearbeitungen und Videos entspricht.
- Fügen Sie ein kurzes negatives Prompt zur Qualitätskontrolle hinzu. Wenn Sie ein quadratisches, 16:9, 9:16 oder 4:3-Format möchten, wählen Sie die entsprechende Voreinstellung im Größen-Panel, bevor Sie ausführen.
- Bilder werden zur Überprüfung gespeichert und können als Ausgangspunkte in den Bild-zu-Video- oder Bearbeitungspfaden wiederverwendet werden, um die visuelle Kontinuität zu bewahren.
Bild zu Video
- Laden Sie ein Referenzbild mit LoadImage (#131), dann führen Sie den Generator-Subgraphen (#130) aus. Schreiben Sie einen bewegungsbewussten Prompt (zum Beispiel "langsames Vorwärts-Dolly, warmes cineastisches Grade"), um das Eingabebild zu animieren, während seine Komposition und Identität respektiert werden.
- Im Hintergrund verwandelt HunyuanVideo15ImageToVideo (#115) das Standbild und Ihren Prompt in eine kurze Sequenz latenter Frames, die Capybara verfeinert. Verwenden Sie die enthaltene Längenkontrolle, um zu wählen, wie lang der Clip sein soll.
- Frames werden mit VHS_VideoCombine (#144) in MP4 kodiert, bei einer standardmäßigen cineastischen Bildrate. Verwenden Sie dies, wenn Sie schnelle, social-media-bereite Bewegungen aus einem kunstgeleiteten Schlüsselbild wünschen.
Videobearbeitung
- Importieren Sie einen Clip mit VHS_LoadVideo (#146), dann öffnen Sie den Bearbeitungs-Subgraphen (#136). Schreiben Sie eine Anweisung wie "Ändern Sie den Ozeanhintergrund in Grasland; behalten Sie das Pferd und die Bewegung bei."
- Der Bearbeitungspfad fusioniert CLIP Vision mit Ihrem Prompt, sodass Subjekte stabil bleiben, während sich Szenen, Beleuchtung oder Wetter im Laufe der Zeit anpassen. Negative Prompts helfen, Flackern oder unerwünschte Überlagerungen zu unterdrücken.
- Das Ergebnis wird mit VHS_VideoCombine (#145) zu MP4 kompiliert. Wählen Sie eine Auflösungsvoreinstellung, die Ihrer Quelle entspricht, um Streckungen zu vermeiden.

Schlüsselnoten im Comfyui Capybara ComfyUI Workflow#

Image Edit (Capybara v0.1) (#103)
- Ein kompakter, anweisungsbasierter Editor, der die Struktur mit Vision-Merkmalen bewahrt, während Ihre Textbearbeitung global angewendet wird. Passen Sie das text Prompt an, um zu beschreiben, was sich ändern soll und was bleiben muss, dann verwenden Sie steps für Qualität/Glätte und cfg, um die Prompt-Stärke gegen das Quellbild auszubalancieren. Erhöhen Sie steps für mehr Details; moderate cfg Werte halten Bearbeitungen in der Regel treu.
HunyuanVideo15ImageToVideo (#115)
- Die Brücke von Standbildern zu Bewegung und der Motor hinter promptbasierten Videobearbeitungen. Es erstellt eine kurze latente Sequenz, die auf Ihrem Prompt und, wenn bereitgestellt, einem Startbild basiert. Passen Sie length für die Dauer und width/height an, um eine Voreinstellung zu wählen; größere Größen erhöhen Detail und Renderzeit. Dieser Knoten ist das Rückgrat sowohl der Bild-zu-Video- als auch der Videobearbeitungsgruppen und nutzt das HunyuanVideo-Design für stabile zeitliche Generierung, während Capybara die Entstörung übernimmt.
VHS_VideoCombine (#145)
- Der Finalisierer, der generierte Frames in eine MP4 umwandelt. Verwenden Sie frame_rate, um die Bewegungskadenz zu steuern, und crf, um Qualität gegen Dateigröße zu tauschen. Niedrigere crf-Werte liefern höhere Qualität, aber größere Dateien; halten Sie es über Projekte hinweg konsistent, sodass Ihre Capybara ComfyUI Workflow-Ausgaben ein einheitliches Erscheinungsbild haben.

Optionale Extras für das Capybara ComfyUI Workflow#

Verwenden Sie die Größen- und Verhältnis-Voreinstellungen, um 16:9, 9:16, 1:1 oder 4:3 bei 480p, 720p, 1024 oder 1080p festzulegen. Das Bleiben auf Voreinstellung hilft dem Sampler und VAE, stabil zu bleiben und Randartefakte zu reduzieren.
Für einen Qualitätsboost erhöhen Sie die Diffusions-steps in den Sampler-Panels. Das Rendern dauert länger, aber feine Texturen und saubere Kanten verbessern sich merklich.
Halten Sie Ihr Subjekt in Bearbeitungen stabil, indem Sie Prompts schreiben, die explizit sagen, was beibehalten werden soll (zum Beispiel "Halte Charaktere und Kostüme unverändert") und schieben Sie Szenenänderungen in den Rest des Satzes.
Negative Prompts sind Ihre Aufräumcrew. Häufige Einträge wie "verschwommen, Wasserzeichen, Text" helfen, Überlagerungen und kompressionsartige Artefakte sowohl in Bildern als auch in Videos zu entfernen.
Für Videos wählen Sie die Clip-Länge, die zu Ihrer beabsichtigten Bildrate passt. Die Standardeinstellungen sind für kurze Social-Clips abgestimmt; längere Sequenzen profitieren von leicht erhöhten steps für zeitliche Konsistenz.

Dieses Capybara ComfyUI Workflow ist darauf ausgelegt, Einrichtungsreibung zu minimieren: ein Modell-Stack, vier kreative Aufgaben und konsistente Kontrollen. Beginnen Sie mit Text-zu-Bild für Look-Dev, verwenden Sie die Bildbearbeitung zur Verfeinerung, animieren Sie den Schlüsselbild mit Bild-zu-Video, dann beenden Sie mit promptbasierter Videobearbeitung, um das endgültige Briefing zu erfüllen.

Danksagungen#

Dieses Workflow implementiert und baut auf den folgenden Arbeiten und Ressourcen auf. Wir danken XGen Universe für das Capybara-Modell und Projekt, Comfy-Org für die Capybara v0.1 Diffusionsmodell-Assets, HunyuanVideo 1.5 VAE und Qwen2.5-VL-7B Text-Encoder-Verpackung, und Comfy.org für die Capybara Workflow-Vorlagen (Text zu Bild, Bildbearbeitung, Bild zu Video und Videobearbeitung) für ihre Beiträge und Wartung. Für autoritative Details, konsultieren Sie bitte die originale Dokumentation und Repositories, die unten verlinkt sind.

Ressourcen#

XGen Universe/Capybara Projekt
- GitHub: xgen-universe/Capybara
- Hugging Face: xgen-universe/Capybara
Comfy.org/Capybara Vorlage - Text zu Bild
- Docs / Release Notes: Capybara Vorlage - Text zu Bild
Comfy.org/Capybara Vorlage - Bildbearbeitung
- Docs / Release Notes: Capybara Vorlage - Bildbearbeitung
Comfy.org/Capybara Vorlage - Bild zu Video
- Docs / Release Notes: Capybara Vorlage - Bild zu Video
Comfy.org/Capybara Vorlage - Videobearbeitung
- Docs / Release Notes: Capybara Vorlage - Videobearbeitung

Hinweis: Die Nutzung der referenzierten Modelle, Datensätze und Codes unterliegt den jeweiligen Lizenzen und Bedingungen, die von ihren Autoren und Betreuern bereitgestellt werden.

Want More ComfyUI Workflows?

Wan 2.1 | Revolutionäre Videogenerierung

Erstellen Sie unglaubliche Videos aus Text oder Bildern mit bahnbrechender KI, die auf alltäglichen CPUs läuft.

Pyramid Flow | Videoerstellung

Einschließlich sowohl Text-zu-Video als auch Bild-zu-Video Modus.

Insert Anything | Referenzbasierte Bildbearbeitung

Fügen Sie beliebige Motive in Bilder mit Masken- oder Textführung ein.

Wan FusionX | T2V+I2V+VACE Komplett

Die bisher leistungsstärkste Videogenerierungslösung! Kinoqualität im Detail, Ihr persönliches Filmstudio.

Consistent Character Creator 3.8 | Hyperrealistische konsistente KI-Charaktere

Erstellen Sie hyperrealistische, identitätskonsistente KI-Charaktere aus einem Referenzbild.

AnimateDiff + ControlNet | Marmorskulpturenstil

Verwandeln Sie Ihre Videos in zeitlose Marmorskulpturen und fangen Sie die Essenz klassischer Kunst ein.

ComfyUI Vid2Vid Dance Transfer

Überträgt die Bewegung und den Stil von einem Quellvideo auf ein Zielbild oder Objekt.

Trellis | Bild zu 3D

Trellis ist ein fortschrittliches Bild-zu-3D-Modell für die Erstellung hochwertiger 3D-Assets.

Support

Ressourcen

Rechtliches

RunComfy

RunComfy ist die führende ComfyUI Plattform, die ComfyUI online Umgebung und Services bietet, zusammen mit ComfyUI Workflows mit atemberaubenden Visualisierungen. RunComfy bietet auch AI Models, Künstlern ermöglichen, die neuesten AI-Tools zu nutzen, um unglaubliche Kunst zu schaffen.

Capybara ComfyUI Workflow | Einheitlicher Bild-Video-Ersteller