Capybara ComfyUI Workflow v0.1 | Générateur d'Images et de Vidéos 4-en-1

Capybara ComfyUI Workflow Workflow

Capybara ComfyUI Workflow v0.1 | 4-in-1 Image and Video Generator

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

Capybara ComfyUI Workflow Examples

capybara-comfyui-workflow-v0-1-4-in-1-image-and-video-generator-1368-example_01.webp

capybara-comfyui-workflow-v0-1-4-in-1-image-and-video-generator-1368-example_02.webp

capybara-comfyui-workflow-v0-1-4-in-1-image-and-video-generator-1368-example_03.webp

capybara-comfyui-workflow-v0-1-4-in-1-image-and-video-generator-1368-example_04.webp

capybara-comfyui-workflow-v0-1-4-in-1-image-and-video-generator-1368-example_05.webp

capybara-comfyui-workflow-v0-1-4-in-1-image-and-video-generator-1368-example_06.webp

Capybara ComfyUI Workflow v0.1 : un modèle unifié pour images et vidéos#

Le Workflow Capybara ComfyUI est un ensemble 4-en-1 qui couvre la génération de texte en image, l'édition d'image basée sur des instructions, l'image en vidéo et l'édition de vidéo basée sur des invites dans ComfyUI. Il est construit autour du modèle de diffusion Capybara v0.1 et d'un pipeline unifié, vous permettant de passer entre les tâches d'image et de vidéo avec un comportement cohérent et des résultats prévisibles.

Ce Workflow Capybara ComfyUI est idéal pour les créateurs qui ont besoin d'éditions pilotées par des invites, d'itération rapide et de préréglages de rapport d'aspect fiables. Chaque chemin réutilise la même pile de modèles et stratégie d'invite, ce qui maintient la science des couleurs, la composition et le style cohérents à travers les tâches.

Modèles clés dans le Workflow Capybara ComfyUI#

Capybara v0.1 (diffusion UNet). Le générateur principal qui unifie le comportement des images et des vidéos ; il dirige la composition et le style du contenu dans les quatre modèles. Voir le dépôt du projet et la carte du modèle pour plus de détails : xgen-universe/Capybara (GitHub) et xgen-universe/Capybara (Hugging Face).
Qwen2.5‑VL‑7B encodeur de texte. Fournit une compréhension linguistique forte et conviviale pour les instructions, améliorant l'alignement entre ce que vous écrivez et ce qui est généré. Voir Qwen/Qwen2.5-VL-7B.
ByT5‑small encodeur de texte. Un encodeur au niveau des octets qui aide à une tokenisation robuste et à la gestion du texte dans les invites, complétant le modèle linguistique principal. Voir google/byt5-small.
HunyuanVideo 1.5 VAE. Gère le décodage/encodage latent à travers les branches image et vidéo afin que les deux partagent les mêmes caractéristiques de reconstruction. Voir Tencent/HunyuanVideo (GitHub) et les actifs reconditionnés dans Comfy-Org/HunyuanVideo_1.5_repackaged.
SigCLIP Vision (patch14, 384). Fournit des fonctionnalités d'image qui aident à préserver la structure et l'identité lors des éditions et lors de la transformation d'images en vidéos. Voir Comfy-Org/sigclip_vision_384.

Comment utiliser le Workflow Capybara ComfyUI#

Le workflow est organisé en quatre groupes que vous pouvez exécuter indépendamment. Chaque groupe partage la même pile de modèles Capybara et stratégie d'invite, de sorte que le style et la fidélité se transmettent entre les images et les vidéos. Utilisez les panneaux intégrés de Taille et de Ratio pour choisir parmi des préréglages de résolution sensés avant de générer.

Édition d'image
- Chargez une image source avec LoadImage (#80), puis ouvrez Image Edit (Capybara v0.1) (#103). Écrivez des invites de style instruction telles que "Conservez le sujet et la tenue ; remplacez la scène intérieure par une prairie ensoleillée." Utilisez l'invite négative pour supprimer des artefacts comme "filigrane, texte, basse qualité."
- L'éditeur utilise la vision CLIP pour ancrer le sujet et la disposition tandis que Capybara applique votre instruction au reste de la scène. C'est idéal pour des échanges rapides d'arrière-plan ou des ajustements globaux de l'aspect sans perdre l'identité.
- La sortie est enregistrée par SaveImage (#102). Si vous avez besoin d'un ratio spécifique, réglez les contrôles de largeur/hauteur exposés sur le nœud à l'un des préréglages inclus.
Texte en image
- Ouvrez le sous-graphe Text to Image (Capybara v0.1) (#143) et écrivez une invite descriptive. Cette branche génère une image fixe propre en utilisant les mêmes encodeurs linguistiques et ordonnanceur que les autres chemins, de sorte qu'elle correspond à l'apparence de vos éditions et vidéos.
- Ajoutez une courte invite négative pour le contrôle de qualité. Si vous voulez un carré, 16:9, 9:16 ou 4:3, choisissez le préréglage correspondant dans le panneau Taille avant de l'exécuter.
- Les images sont enregistrées pour révision et peuvent être réutilisées comme points de départ dans les chemins image-à-vidéo ou édition pour conserver la continuité visuelle.
Image en vidéo
- Chargez une image de référence avec LoadImage (#131), puis exécutez le sous-graphe du générateur (#130). Écrivez une invite consciente du mouvement (par exemple, "lent dolly avant, grade cinématographique chaud") pour animer l'entrée tout en respectant sa composition et son identité.
- Sous le capot, HunyuanVideo15ImageToVideo (#115) transforme l'image fixe et votre invite en une courte séquence de trames latentes que Capybara affine. Utilisez le contrôle de longueur inclus pour choisir la durée du clip.
- Les trames sont encodées en MP4 avec VHS_VideoCombine (#144) à un taux de trame cinématographique par défaut. Utilisez ceci lorsque vous souhaitez un mouvement prêt pour les réseaux sociaux à partir d'une image clé dirigée artistiquement.
Édition de vidéo
- Importez un clip avec VHS_LoadVideo (#146), puis ouvrez le sous-graphe d'édition (#136). Écrivez une instruction telle que "Changez l'arrière-plan océan en prairie ; conservez le cheval et le mouvement."
- Le chemin d'édition fusionne la vision CLIP avec votre invite afin que les sujets restent stables tandis que les scènes, l'éclairage ou le temps s'adaptent au fil du temps. Les invites négatives aident à supprimer le scintillement ou les superpositions indésirables.
- Le résultat est compilé avec VHS_VideoCombine (#145) en MP4. Choisissez un préréglage de résolution qui correspond à votre source pour éviter l'étirement.

Nœuds clés dans le Workflow Capybara ComfyUI#

Image Edit (Capybara v0.1) (#103)
- Un éditeur compact basé sur des instructions qui préserve la structure en utilisant des fonctionnalités de vision tout en appliquant votre édition de texte globalement. Ajustez l'invite text pour décrire ce qui doit changer et ce qui doit rester, puis utilisez steps pour la qualité/la douceur et cfg pour équilibrer la force de l'invite contre l'image source. Augmentez steps pour plus de détails ; des valeurs cfg modérées gardent généralement les éditions fidèles.
HunyuanVideo15ImageToVideo (#115)
- Le pont entre les images fixes et le mouvement et le moteur derrière les éditions de vidéos basées sur des invites. Il crée une courte séquence latente conditionnée sur votre invite et, le cas échéant, une image de départ. Ajustez length pour la durée et width/height pour correspondre à un préréglage ; des tailles plus grandes augmentent le détail et le temps de rendu. Ce nœud est l'épine dorsale des groupes Image-à-vidéo et Édition de vidéo, exploitant la conception HunyuanVideo pour une génération temporelle stable tandis que Capybara gère la débruitage.
VHS_VideoCombine (#145)
- Le finaliseur qui transforme les trames générées en un MP4. Utilisez frame_rate pour contrôler la cadence du mouvement et crf pour échanger la qualité contre la taille du fichier. Un crf plus bas donne une qualité plus élevée mais des fichiers plus gros ; gardez-le cohérent à travers les projets pour que vos sorties du Workflow Capybara ComfyUI aient une apparence uniforme.

Extras optionnels pour le Workflow Capybara ComfyUI#

Utilisez les préréglages de Taille et de Ratio pour verrouiller en 16:9, 9:16, 1:1 ou 4:3 à 480p, 720p, 1024 ou 1080p. Rester sur un préréglage aide le sampler et le VAE à rester stables et réduit les artefacts de bord.
Pour un gain de qualité, augmentez les steps de diffusion dans les panneaux Sampler. Le rendu prend plus de temps, mais les textures fines et les bords nets s'améliorent sensiblement.
Gardez votre sujet stable dans les éditions en écrivant des invites qui disent explicitement ce qu'il faut garder (par exemple, "gardez les personnages et les costumes inchangés") et poussez les changements de scène dans le reste de la phrase.
Les invites négatives sont votre équipe de nettoyage. Les entrées courantes comme "flou, filigrane, texte" aident à supprimer les superpositions et les artefacts de type compression dans les images et les vidéos.
Pour les vidéos, choisissez la longueur du clip pour correspondre à votre taux de trame prévu. Les valeurs par défaut sont réglées pour les courts clips sociaux ; les séquences plus longues bénéficient de steps légèrement plus élevés pour la cohérence temporelle.

Ce Workflow Capybara ComfyUI est conçu pour minimiser les frictions d'installation : une pile de modèles, quatre tâches créatives et des contrôles cohérents. Commencez par le texte en image pour le développement visuel, utilisez l'édition d'image pour affiner, animez l'image clé avec l'image en vidéo, puis terminez avec l'édition de vidéo basée sur des invites pour correspondre au cahier des charges final.

Remerciements#

Ce workflow met en œuvre et s'appuie sur les travaux et ressources suivants. Nous remercions chaleureusement XGen Universe pour le modèle Capybara et le projet, Comfy-Org pour les actifs du modèle de diffusion Capybara v0.1, HunyuanVideo 1.5 VAE, et l'emballage de l'encodeur de texte Qwen2.5-VL-7B, et Comfy.org pour les modèles de workflow Capybara (Texte en Image, Édition d'Image, Image en Vidéo et Édition de Vidéo) pour leurs contributions et leur maintenance. Pour des détails autorisés, veuillez vous référer à la documentation originale et aux dépôts liés ci-dessous.

Ressources#

XGen Universe/Projet Capybara
- GitHub: xgen-universe/Capybara
- Hugging Face: xgen-universe/Capybara
Comfy.org/Modèle Capybara - Texte en Image
- Docs / Notes de version: Modèle Capybara - Texte en Image
Comfy.org/Modèle Capybara - Édition d'Image
- Docs / Notes de version: Modèle Capybara - Édition d'Image
Comfy.org/Modèle Capybara - Image en Vidéo
- Docs / Notes de version: Modèle Capybara - Image en Vidéo
Comfy.org/Modèle Capybara - Édition de Vidéo
- Docs / Notes de version: Modèle Capybara - Édition de Vidéo

Note: L'utilisation des modèles, ensembles de données et codes référencés est soumise aux licences et conditions respectives fournies par leurs auteurs et mainteneurs.

Want More ComfyUI Workflows?

Wan 2.1 | Génération Vidéo Révolutionnaire

Créez des vidéos incroyables à partir de texte ou d'images avec une IA révolutionnaire fonctionnant sur des CPU quotidiens.

Pyramid Flow | Génération de Vidéo

Incluant à la fois le mode texte-à-vidéo et image-à-vidéo.

Insérer N'importe Quoi | Édition d'Image Basée sur la Référence

Insérez n'importe quel sujet dans des images avec un guidage par masque ou texte.

Wan FusionX | T2V+I2V+VACE Complet

La solution de génération vidéo la plus puissante à ce jour ! Détails de qualité cinéma, votre studio de film personnel.

Mochi Edit Suréchantillonnage | Vidéo-à-Vidéo

Mochi Edit : Modifiez des vidéos en utilisant des invites textuelles et le suréchantillonnage.

Wan 2.1 FLF2V | Vidéo Premier-Dernier Cadre

Générez des vidéos fluides à partir d'un cadre de début et de fin en utilisant Wan 2.1 FLF2V.

Wan 2.1 LoRA

Améliorez la génération vidéo Wan 2.1 avec des modèles LoRA pour un style et une personnalisation améliorés.

Audioreactive Dancers Evolved

Transformez votre sujet avec un arrière-plan audioreactif composé de géométries complexes.

Support

Ressources

Légal

RunComfy

RunComfy est la première ComfyUI plateforme, offrant des ComfyUI en ligne environnement et services, ainsi que des workflows ComfyUI proposant des visuels époustouflants. RunComfy propose également AI Models, permettant aux artistes d'utiliser les derniers outils d'IA pour créer des œuvres d'art incroyables.

Workflow Capybara ComfyUI | Créateur Unifié Image-Vidéo