Capybara ComfyUI Workflow v0.1 | Generatore di Immagini e Video 4-in-1

Capybara ComfyUI Workflow Workflow

Capybara ComfyUI Workflow v0.1 | 4-in-1 Image and Video Generator

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

Capybara ComfyUI Workflow Examples

capybara-comfyui-workflow-v0-1-4-in-1-image-and-video-generator-1368-example_01.webp

capybara-comfyui-workflow-v0-1-4-in-1-image-and-video-generator-1368-example_02.webp

capybara-comfyui-workflow-v0-1-4-in-1-image-and-video-generator-1368-example_03.webp

capybara-comfyui-workflow-v0-1-4-in-1-image-and-video-generator-1368-example_04.webp

capybara-comfyui-workflow-v0-1-4-in-1-image-and-video-generator-1368-example_05.webp

capybara-comfyui-workflow-v0-1-4-in-1-image-and-video-generator-1368-example_06.webp

Capybara ComfyUI Workflow v0.1: un modello unificato per immagini e video#

Capybara ComfyUI Workflow è un pacchetto di modelli 4-in-1 che copre la conversione da testo a immagine, l'editing delle immagini basato su istruzioni, la conversione da immagine a video e l'editing video basato su prompt in ComfyUI. È costruito attorno al modello di diffusione Capybara v0.1 e a un unico flusso unificato che consente di passare tra compiti di immagini e video con comportamento coerente e risultati prevedibili.

Questo Capybara ComfyUI Workflow è ideale per i creatori che necessitano di modifiche guidate da prompt, iterazione rapida e preset di proporzioni affidabili. Ogni percorso riutilizza lo stesso stack di modelli e strategia di prompt, mantenendo la scienza del colore, la composizione e lo stile coerenti tra i compiti.

Modelli chiave nel Comfyui Capybara ComfyUI Workflow#

Capybara v0.1 (diffusione UNet). Il generatore principale che unifica il comportamento di immagini e video; guida come il contenuto è composto e stilizzato in tutti e quattro i modelli. Vedi il repo del progetto e la scheda del modello per i dettagli: xgen-universe/Capybara (GitHub) e xgen-universe/Capybara (Hugging Face).
Qwen2.5‑VL‑7B text encoder. Fornisce una forte comprensione linguistica amichevole per le istruzioni nei prompt e nelle direttive di modifica, migliorando l'allineamento tra ciò che scrivi e ciò che viene generato. Vedi Qwen/Qwen2.5-VL-7B.
ByT5‑small text encoder. Un encoder a livello di byte che aiuta con la tokenizzazione robusta e la gestione del testo all'interno dei prompt, completando il modello linguistico primario. Vedi google/byt5-small.
HunyuanVideo 1.5 VAE. Gestisce la decodifica/codifica latente tra i rami di immagini e video in modo che entrambi condividano le stesse caratteristiche di ricostruzione. Vedi Tencent/HunyuanVideo (GitHub) e gli asset riconfezionati in Comfy-Org/HunyuanVideo_1.5_repackaged.
SigCLIP Vision (patch14, 384). Fornisce caratteristiche delle immagini che aiutano a preservare la struttura e l'identità durante le modifiche e quando si trasformano le immagini in video. Vedi Comfy-Org/sigclip_vision_384.

Come utilizzare il Comfyui Capybara ComfyUI Workflow#

Il workflow è organizzato in quattro gruppi che puoi eseguire indipendentemente. Ogni gruppo condivide lo stesso stack di modelli Capybara e strategia di prompt, quindi stile e fedeltà si trasferiscono tra immagini e video. Usa i pannelli integrati Size e Ratio per scegliere tra preset di risoluzione sensati prima di generare.

Modifica Immagine
- Carica un'immagine di origine con LoadImage (#80), quindi apri Image Edit (Capybara v0.1) (#103). Scrivi prompt in stile istruzione come “Mantieni il soggetto e l'abbigliamento; sostituisci la scena interna con un prato illuminato dal sole.” Usa il prompt negativo per sopprimere artefatti come “watermark, testo, bassa qualità.”
- L'editor utilizza la visione CLIP per ancorare il soggetto e il layout mentre Capybara applica la tua istruzione al resto della scena. Questo è ottimo per rapide sostituzioni di sfondo o modifiche globali dell'aspetto senza perdere l'identità.
- L'output viene salvato da SaveImage (#102). Se hai bisogno di un rapporto specifico, imposta i controlli di larghezza/altezza esposti sul nodo su uno dei preset inclusi.
Da Testo a Immagine
- Apri il sottografo Text to Image (Capybara v0.1) (#143) e scrivi un prompt descrittivo. Questo ramo genera un'immagine fissa pulita utilizzando gli stessi encoder linguistici e scheduler degli altri percorsi, quindi corrisponde all'aspetto delle tue modifiche e video.
- Aggiungi un breve prompt negativo per il controllo di qualità. Se desideri un output quadrato, 16:9, 9:16 o 4:3, scegli il preset corrispondente nel pannello Size prima di eseguire.
- Le immagini sono salvate per la revisione e possono essere riutilizzate come punti di partenza nei percorsi da immagine a video o modifica per mantenere la continuità visiva.
Da Immagine a Video
- Carica un'immagine di riferimento con LoadImage (#131), quindi esegui il sottografo del generatore (#130). Scrivi un prompt consapevole del movimento (per esempio, “lento dolly avanti, grado cinematografico caldo”) per animare l'input rispettando la sua composizione e identità.
- Sotto il cofano, HunyuanVideo15ImageToVideo (#115) trasforma l'immagine fissa e il tuo prompt in una breve sequenza di fotogrammi latenti che Capybara perfeziona. Usa il controllo di lunghezza incluso per scegliere quanto dovrebbe durare la clip.
- I fotogrammi sono codificati in MP4 con VHS_VideoCombine (#144) a un frame rate cinematografico predefinito. Usa questo quando desideri un movimento pronto per i social da un fotogramma chiave diretto artisticamente.
Modifica Video
- Importa una clip con VHS_LoadVideo (#146), quindi apri il sottografo di modifica (#136). Scrivi un'istruzione come “Cambia lo sfondo dell'oceano in prateria; mantieni il cavallo e il movimento.”
- Il percorso di modifica fonde la visione CLIP con il tuo prompt in modo che i soggetti rimangano stabili mentre scene, illuminazione o condizioni meteorologiche si adattano nel tempo. I prompt negativi aiutano a sopprimere il tremolio o sovrapposizioni indesiderate.
- Il risultato è compilato con VHS_VideoCombine (#145) in MP4. Scegli un preset di risoluzione che corrisponda alla tua sorgente per evitare allungamenti.

Nodi chiave nel Comfyui Capybara ComfyUI Workflow#

Image Edit (Capybara v0.1) (#103)
- Un editor compatto basato su istruzioni che preserva la struttura utilizzando le caratteristiche di visione mentre applica la tua modifica testuale globalmente. Regola il prompt text per descrivere cosa dovrebbe cambiare e cosa deve rimanere, quindi usa steps per qualità/scorrevolezza e cfg per bilanciare la forza del prompt contro l'immagine sorgente. Aumenta steps per maggiori dettagli; valori moderati di cfg solitamente mantengono modifiche fedeli.
HunyuanVideo15ImageToVideo (#115)
- Il ponte dalle immagini fisse al movimento e il motore dietro le modifiche video basate su prompt. Crea una breve sequenza latente condizionata sul tuo prompt e, se fornito, un'immagine iniziale. Regola length per la durata e width/height per adattarsi a un preset; dimensioni maggiori aumentano i dettagli e il tempo di rendering. Questo nodo è la spina dorsale di entrambi i gruppi Da Immagine a Video e Modifica Video, sfruttando il design HunyuanVideo per una generazione temporale stabile mentre Capybara gestisce la denoising.
VHS_VideoCombine (#145)
- Il finalizzatore che trasforma i fotogrammi generati in un MP4. Usa frame_rate per controllare la cadenza del movimento e crf per scambiare qualità per dimensione del file. Un crf più basso produce una qualità superiore ma file più grandi; mantienilo coerente tra i progetti in modo che i tuoi output di Capybara ComfyUI Workflow abbiano un aspetto uniforme.

Extra opzionali per il Capybara ComfyUI Workflow#

Usa i preset Size e Ratio per bloccare in 16:9, 9:16, 1:1 o 4:3 a 480p, 720p, 1024 o 1080p. Restare su un preset aiuta il sampler e il VAE a rimanere stabili e riduce gli artefatti ai bordi.
Per un aumento della qualità, aumenta i steps di diffusione nei pannelli Sampler. Il rendering richiede più tempo, ma le trame fini e i bordi puliti migliorano notevolmente.
Mantieni il tuo soggetto stabile nelle modifiche scrivendo prompt che dicono esplicitamente cosa mantenere (per esempio, “mantieni personaggi e costumi invariati”) e spingi i cambiamenti di scena nel resto della frase.
I prompt negativi sono la tua squadra di pulizia. Voci comuni come “sfocato, watermark, testo” aiutano a rimuovere sovrapposizioni e artefatti simili alla compressione sia nelle immagini che nei video.
Per i video, scegli la lunghezza della clip per adattarsi al tuo frame rate previsto. I valori predefiniti sono sintonizzati per clip social brevi; le sequenze più lunghe beneficiano di steps leggermente più alti per la coerenza temporale.

Questo Capybara ComfyUI Workflow è progettato per minimizzare l'attrito di configurazione: uno stack di modelli, quattro compiti creativi e controlli coerenti. Inizia con il testo a immagine per lo sviluppo del look, usa l'edit delle immagini per perfezionare, anima il fotogramma chiave con da immagine a video, quindi termina con l'editing video basato su prompt per adattarsi al brief finale.

Riconoscimenti#

Questo workflow implementa e si basa sui seguenti lavori e risorse. Ringraziamo XGen Universe per il modello e il progetto Capybara, Comfy-Org per gli asset del modello di diffusione Capybara v0.1, HunyuanVideo 1.5 VAE e il confezionamento del text encoder Qwen2.5-VL-7B, e Comfy.org per i modelli di workflow Capybara (Da Testo a Immagine, Modifica Immagine, Da Immagine a Video e Modifica Video) per i loro contributi e manutenzione. Per dettagli autorevoli, si prega di fare riferimento alla documentazione e ai repository originali collegati di seguito.

Risorse#

XGen Universe/Capybara Project
- GitHub: xgen-universe/Capybara
- Hugging Face: xgen-universe/Capybara
Comfy.org/Capybara Template - Text to Image
- Docs / Note di Rilascio: Capybara Template - Text to Image
Comfy.org/Capybara Template - Image Edit
- Docs / Note di Rilascio: Capybara Template - Image Edit
Comfy.org/Capybara Template - Image to Video
- Docs / Note di Rilascio: Capybara Template - Image to Video
Comfy.org/Capybara Template - Video Edit
- Docs / Note di Rilascio: Capybara Template - Video Edit

Nota: L'uso dei modelli, dataset e codice di riferimento è soggetto alle rispettive licenze e termini forniti dai loro autori e manutentori.

Want More ComfyUI Workflows?

Wan 2.1 | Generazione Video Rivoluzionaria

Crea video incredibili da testo o immagini con l'innovativa AI che funziona su CPU di tutti i giorni.

Pyramid Flow | Generazione Video

Include sia la modalità testo-a-video che immagine-a-video.

Inserisci Qualsiasi Cosa | Editing di Immagini Basato su Riferimento

Inserisci qualsiasi soggetto nelle immagini con guida tramite maschera o testo.

Wan FusionX | T2V+I2V+VACE Completo

La soluzione di generazione video più potente di sempre! Dettagli di qualità cinematografica, il tuo studio cinematografico personale.

FireRed Image Edit 1.1 | Trasformatore Foto Intelligente

Modifica le foto rapidamente con precisione ultra-dettagliata basata su prompt.

Janus-Pro | Modello T2I + I2T

Janus-Pro: Generazione avanzata Text-to-Image e Image-to-Text.

IPAdapter V1 + AnimateDiff + ControlNet | Motion Art

Scopri l'uso innovativo di IPAdapter per creare straordinarie opere d'arte in movimento.

CorridorKey ComfyUI | Strumento di Keying Video Guidato

Keying video guidato con controllo per un'estrazione pulita del soggetto.

Supporto

Risorse

Legale

RunComfy

RunComfy è la piattaforma principale ComfyUI che offre ComfyUI online ambiente e servizi, insieme a workflow di ComfyUI con visuali mozzafiato. RunComfy offre anche AI Models, consentire agli artisti di sfruttare gli ultimi strumenti di AI per creare arte incredibile.

Capybara ComfyUI Workflow | Creatore Unificato di Immagini e Video