Capybara ComfyUI Workflow v0.1 : un modèle unifié pour images et vidéos
Le Workflow Capybara ComfyUI est un ensemble 4-en-1 qui couvre la génération de texte en image, l'édition d'image basée sur des instructions, l'image en vidéo et l'édition de vidéo basée sur des invites dans ComfyUI. Il est construit autour du modèle de diffusion Capybara v0.1 et d'un pipeline unifié, vous permettant de passer entre les tâches d'image et de vidéo avec un comportement cohérent et des résultats prévisibles.
Ce Workflow Capybara ComfyUI est idéal pour les créateurs qui ont besoin d'éditions pilotées par des invites, d'itération rapide et de préréglages de rapport d'aspect fiables. Chaque chemin réutilise la même pile de modèles et stratégie d'invite, ce qui maintient la science des couleurs, la composition et le style cohérents à travers les tâches.
Modèles clés dans le Workflow Capybara ComfyUI
- Capybara v0.1 (diffusion UNet). Le générateur principal qui unifie le comportement des images et des vidéos ; il dirige la composition et le style du contenu dans les quatre modèles. Voir le dépôt du projet et la carte du modèle pour plus de détails : xgen-universe/Capybara (GitHub) et xgen-universe/Capybara (Hugging Face).
- Qwen2.5‑VL‑7B encodeur de texte. Fournit une compréhension linguistique forte et conviviale pour les instructions, améliorant l'alignement entre ce que vous écrivez et ce qui est généré. Voir Qwen/Qwen2.5-VL-7B.
- ByT5‑small encodeur de texte. Un encodeur au niveau des octets qui aide à une tokenisation robuste et à la gestion du texte dans les invites, complétant le modèle linguistique principal. Voir google/byt5-small.
- HunyuanVideo 1.5 VAE. Gère le décodage/encodage latent à travers les branches image et vidéo afin que les deux partagent les mêmes caractéristiques de reconstruction. Voir Tencent/HunyuanVideo (GitHub) et les actifs reconditionnés dans Comfy-Org/HunyuanVideo_1.5_repackaged.
- SigCLIP Vision (patch14, 384). Fournit des fonctionnalités d'image qui aident à préserver la structure et l'identité lors des éditions et lors de la transformation d'images en vidéos. Voir Comfy-Org/sigclip_vision_384.
Comment utiliser le Workflow Capybara ComfyUI
Le workflow est organisé en quatre groupes que vous pouvez exécuter indépendamment. Chaque groupe partage la même pile de modèles Capybara et stratégie d'invite, de sorte que le style et la fidélité se transmettent entre les images et les vidéos. Utilisez les panneaux intégrés de Taille et de Ratio pour choisir parmi des préréglages de résolution sensés avant de générer.
- Édition d'image
- Chargez une image source avec
LoadImage(#80), puis ouvrezImage Edit (Capybara v0.1)(#103). Écrivez des invites de style instruction telles que "Conservez le sujet et la tenue ; remplacez la scène intérieure par une prairie ensoleillée." Utilisez l'invite négative pour supprimer des artefacts comme "filigrane, texte, basse qualité." - L'éditeur utilise la vision CLIP pour ancrer le sujet et la disposition tandis que Capybara applique votre instruction au reste de la scène. C'est idéal pour des échanges rapides d'arrière-plan ou des ajustements globaux de l'aspect sans perdre l'identité.
- La sortie est enregistrée par
SaveImage(#102). Si vous avez besoin d'un ratio spécifique, réglez les contrôles de largeur/hauteur exposés sur le nœud à l'un des préréglages inclus.
- Chargez une image source avec
- Texte en image
- Ouvrez le sous-graphe
Text to Image (Capybara v0.1)(#143) et écrivez une invite descriptive. Cette branche génère une image fixe propre en utilisant les mêmes encodeurs linguistiques et ordonnanceur que les autres chemins, de sorte qu'elle correspond à l'apparence de vos éditions et vidéos. - Ajoutez une courte invite négative pour le contrôle de qualité. Si vous voulez un carré, 16:9, 9:16 ou 4:3, choisissez le préréglage correspondant dans le panneau Taille avant de l'exécuter.
- Les images sont enregistrées pour révision et peuvent être réutilisées comme points de départ dans les chemins image-à-vidéo ou édition pour conserver la continuité visuelle.
- Ouvrez le sous-graphe
- Image en vidéo
- Chargez une image de référence avec
LoadImage(#131), puis exécutez le sous-graphe du générateur (#130). Écrivez une invite consciente du mouvement (par exemple, "lent dolly avant, grade cinématographique chaud") pour animer l'entrée tout en respectant sa composition et son identité. - Sous le capot,
HunyuanVideo15ImageToVideo(#115) transforme l'image fixe et votre invite en une courte séquence de trames latentes que Capybara affine. Utilisez le contrôle de longueur inclus pour choisir la durée du clip. - Les trames sont encodées en MP4 avec
VHS_VideoCombine(#144) à un taux de trame cinématographique par défaut. Utilisez ceci lorsque vous souhaitez un mouvement prêt pour les réseaux sociaux à partir d'une image clé dirigée artistiquement.
- Chargez une image de référence avec
- Édition de vidéo
- Importez un clip avec
VHS_LoadVideo(#146), puis ouvrez le sous-graphe d'édition (#136). Écrivez une instruction telle que "Changez l'arrière-plan océan en prairie ; conservez le cheval et le mouvement." - Le chemin d'édition fusionne la vision CLIP avec votre invite afin que les sujets restent stables tandis que les scènes, l'éclairage ou le temps s'adaptent au fil du temps. Les invites négatives aident à supprimer le scintillement ou les superpositions indésirables.
- Le résultat est compilé avec
VHS_VideoCombine(#145) en MP4. Choisissez un préréglage de résolution qui correspond à votre source pour éviter l'étirement.
- Importez un clip avec
Nœuds clés dans le Workflow Capybara ComfyUI
Image Edit (Capybara v0.1)(#103)- Un éditeur compact basé sur des instructions qui préserve la structure en utilisant des fonctionnalités de vision tout en appliquant votre édition de texte globalement. Ajustez l'invite
textpour décrire ce qui doit changer et ce qui doit rester, puis utilisezstepspour la qualité/la douceur etcfgpour équilibrer la force de l'invite contre l'image source. Augmentezstepspour plus de détails ; des valeurscfgmodérées gardent généralement les éditions fidèles.
- Un éditeur compact basé sur des instructions qui préserve la structure en utilisant des fonctionnalités de vision tout en appliquant votre édition de texte globalement. Ajustez l'invite
HunyuanVideo15ImageToVideo(#115)- Le pont entre les images fixes et le mouvement et le moteur derrière les éditions de vidéos basées sur des invites. Il crée une courte séquence latente conditionnée sur votre invite et, le cas échéant, une image de départ. Ajustez
lengthpour la durée etwidth/heightpour correspondre à un préréglage ; des tailles plus grandes augmentent le détail et le temps de rendu. Ce nœud est l'épine dorsale des groupes Image-à-vidéo et Édition de vidéo, exploitant la conception HunyuanVideo pour une génération temporelle stable tandis que Capybara gère la débruitage.
- Le pont entre les images fixes et le mouvement et le moteur derrière les éditions de vidéos basées sur des invites. Il crée une courte séquence latente conditionnée sur votre invite et, le cas échéant, une image de départ. Ajustez
VHS_VideoCombine(#145)- Le finaliseur qui transforme les trames générées en un MP4. Utilisez
frame_ratepour contrôler la cadence du mouvement etcrfpour échanger la qualité contre la taille du fichier. Uncrfplus bas donne une qualité plus élevée mais des fichiers plus gros ; gardez-le cohérent à travers les projets pour que vos sorties du Workflow Capybara ComfyUI aient une apparence uniforme.
- Le finaliseur qui transforme les trames générées en un MP4. Utilisez
Extras optionnels pour le Workflow Capybara ComfyUI
- Utilisez les préréglages de Taille et de Ratio pour verrouiller en 16:9, 9:16, 1:1 ou 4:3 à 480p, 720p, 1024 ou 1080p. Rester sur un préréglage aide le sampler et le VAE à rester stables et réduit les artefacts de bord.
- Pour un gain de qualité, augmentez les
stepsde diffusion dans les panneaux Sampler. Le rendu prend plus de temps, mais les textures fines et les bords nets s'améliorent sensiblement. - Gardez votre sujet stable dans les éditions en écrivant des invites qui disent explicitement ce qu'il faut garder (par exemple, "gardez les personnages et les costumes inchangés") et poussez les changements de scène dans le reste de la phrase.
- Les invites négatives sont votre équipe de nettoyage. Les entrées courantes comme "flou, filigrane, texte" aident à supprimer les superpositions et les artefacts de type compression dans les images et les vidéos.
- Pour les vidéos, choisissez la longueur du clip pour correspondre à votre taux de trame prévu. Les valeurs par défaut sont réglées pour les courts clips sociaux ; les séquences plus longues bénéficient de
stepslégèrement plus élevés pour la cohérence temporelle.
Ce Workflow Capybara ComfyUI est conçu pour minimiser les frictions d'installation : une pile de modèles, quatre tâches créatives et des contrôles cohérents. Commencez par le texte en image pour le développement visuel, utilisez l'édition d'image pour affiner, animez l'image clé avec l'image en vidéo, puis terminez avec l'édition de vidéo basée sur des invites pour correspondre au cahier des charges final.
Remerciements
Ce workflow met en œuvre et s'appuie sur les travaux et ressources suivants. Nous remercions chaleureusement XGen Universe pour le modèle Capybara et le projet, Comfy-Org pour les actifs du modèle de diffusion Capybara v0.1, HunyuanVideo 1.5 VAE, et l'emballage de l'encodeur de texte Qwen2.5-VL-7B, et Comfy.org pour les modèles de workflow Capybara (Texte en Image, Édition d'Image, Image en Vidéo et Édition de Vidéo) pour leurs contributions et leur maintenance. Pour des détails autorisés, veuillez vous référer à la documentation originale et aux dépôts liés ci-dessous.
Ressources
- XGen Universe/Projet Capybara
- GitHub: xgen-universe/Capybara
- Hugging Face: xgen-universe/Capybara
- Comfy.org/Modèle Capybara - Texte en Image
- Docs / Notes de version: Modèle Capybara - Texte en Image
- Comfy.org/Modèle Capybara - Édition d'Image
- Docs / Notes de version: Modèle Capybara - Édition d'Image
- Comfy.org/Modèle Capybara - Image en Vidéo
- Docs / Notes de version: Modèle Capybara - Image en Vidéo
- Comfy.org/Modèle Capybara - Édition de Vidéo
- Docs / Notes de version: Modèle Capybara - Édition de Vidéo
Note: L'utilisation des modèles, ensembles de données et codes référencés est soumise aux licences et conditions respectives fournies par leurs auteurs et mainteneurs.
