Capybara ComfyUI Workflow v0.1: un modello unificato per immagini e video
Capybara ComfyUI Workflow è un pacchetto di modelli 4-in-1 che copre la conversione da testo a immagine, l'editing delle immagini basato su istruzioni, la conversione da immagine a video e l'editing video basato su prompt in ComfyUI. È costruito attorno al modello di diffusione Capybara v0.1 e a un unico flusso unificato che consente di passare tra compiti di immagini e video con comportamento coerente e risultati prevedibili.
Questo Capybara ComfyUI Workflow è ideale per i creatori che necessitano di modifiche guidate da prompt, iterazione rapida e preset di proporzioni affidabili. Ogni percorso riutilizza lo stesso stack di modelli e strategia di prompt, mantenendo la scienza del colore, la composizione e lo stile coerenti tra i compiti.
Modelli chiave nel Comfyui Capybara ComfyUI Workflow
- Capybara v0.1 (diffusione UNet). Il generatore principale che unifica il comportamento di immagini e video; guida come il contenuto è composto e stilizzato in tutti e quattro i modelli. Vedi il repo del progetto e la scheda del modello per i dettagli: xgen-universe/Capybara (GitHub) e xgen-universe/Capybara (Hugging Face).
- Qwen2.5‑VL‑7B text encoder. Fornisce una forte comprensione linguistica amichevole per le istruzioni nei prompt e nelle direttive di modifica, migliorando l'allineamento tra ciò che scrivi e ciò che viene generato. Vedi Qwen/Qwen2.5-VL-7B.
- ByT5‑small text encoder. Un encoder a livello di byte che aiuta con la tokenizzazione robusta e la gestione del testo all'interno dei prompt, completando il modello linguistico primario. Vedi google/byt5-small.
- HunyuanVideo 1.5 VAE. Gestisce la decodifica/codifica latente tra i rami di immagini e video in modo che entrambi condividano le stesse caratteristiche di ricostruzione. Vedi Tencent/HunyuanVideo (GitHub) e gli asset riconfezionati in Comfy-Org/HunyuanVideo_1.5_repackaged.
- SigCLIP Vision (patch14, 384). Fornisce caratteristiche delle immagini che aiutano a preservare la struttura e l'identità durante le modifiche e quando si trasformano le immagini in video. Vedi Comfy-Org/sigclip_vision_384.
Come utilizzare il Comfyui Capybara ComfyUI Workflow
Il workflow è organizzato in quattro gruppi che puoi eseguire indipendentemente. Ogni gruppo condivide lo stesso stack di modelli Capybara e strategia di prompt, quindi stile e fedeltà si trasferiscono tra immagini e video. Usa i pannelli integrati Size e Ratio per scegliere tra preset di risoluzione sensati prima di generare.
- Modifica Immagine
- Carica un'immagine di origine con
LoadImage(#80), quindi apriImage Edit (Capybara v0.1)(#103). Scrivi prompt in stile istruzione come “Mantieni il soggetto e l'abbigliamento; sostituisci la scena interna con un prato illuminato dal sole.” Usa il prompt negativo per sopprimere artefatti come “watermark, testo, bassa qualità.” - L'editor utilizza la visione CLIP per ancorare il soggetto e il layout mentre Capybara applica la tua istruzione al resto della scena. Questo è ottimo per rapide sostituzioni di sfondo o modifiche globali dell'aspetto senza perdere l'identità.
- L'output viene salvato da
SaveImage(#102). Se hai bisogno di un rapporto specifico, imposta i controlli di larghezza/altezza esposti sul nodo su uno dei preset inclusi.
- Carica un'immagine di origine con
- Da Testo a Immagine
- Apri il sottografo
Text to Image (Capybara v0.1)(#143) e scrivi un prompt descrittivo. Questo ramo genera un'immagine fissa pulita utilizzando gli stessi encoder linguistici e scheduler degli altri percorsi, quindi corrisponde all'aspetto delle tue modifiche e video. - Aggiungi un breve prompt negativo per il controllo di qualità. Se desideri un output quadrato, 16:9, 9:16 o 4:3, scegli il preset corrispondente nel pannello Size prima di eseguire.
- Le immagini sono salvate per la revisione e possono essere riutilizzate come punti di partenza nei percorsi da immagine a video o modifica per mantenere la continuità visiva.
- Apri il sottografo
- Da Immagine a Video
- Carica un'immagine di riferimento con
LoadImage(#131), quindi esegui il sottografo del generatore (#130). Scrivi un prompt consapevole del movimento (per esempio, “lento dolly avanti, grado cinematografico caldo”) per animare l'input rispettando la sua composizione e identità. - Sotto il cofano,
HunyuanVideo15ImageToVideo(#115) trasforma l'immagine fissa e il tuo prompt in una breve sequenza di fotogrammi latenti che Capybara perfeziona. Usa il controllo di lunghezza incluso per scegliere quanto dovrebbe durare la clip. - I fotogrammi sono codificati in MP4 con
VHS_VideoCombine(#144) a un frame rate cinematografico predefinito. Usa questo quando desideri un movimento pronto per i social da un fotogramma chiave diretto artisticamente.
- Carica un'immagine di riferimento con
- Modifica Video
- Importa una clip con
VHS_LoadVideo(#146), quindi apri il sottografo di modifica (#136). Scrivi un'istruzione come “Cambia lo sfondo dell'oceano in prateria; mantieni il cavallo e il movimento.” - Il percorso di modifica fonde la visione CLIP con il tuo prompt in modo che i soggetti rimangano stabili mentre scene, illuminazione o condizioni meteorologiche si adattano nel tempo. I prompt negativi aiutano a sopprimere il tremolio o sovrapposizioni indesiderate.
- Il risultato è compilato con
VHS_VideoCombine(#145) in MP4. Scegli un preset di risoluzione che corrisponda alla tua sorgente per evitare allungamenti.
- Importa una clip con
Nodi chiave nel Comfyui Capybara ComfyUI Workflow
Image Edit (Capybara v0.1)(#103)- Un editor compatto basato su istruzioni che preserva la struttura utilizzando le caratteristiche di visione mentre applica la tua modifica testuale globalmente. Regola il prompt
textper descrivere cosa dovrebbe cambiare e cosa deve rimanere, quindi usastepsper qualità/scorrevolezza ecfgper bilanciare la forza del prompt contro l'immagine sorgente. Aumentastepsper maggiori dettagli; valori moderati dicfgsolitamente mantengono modifiche fedeli.
- Un editor compatto basato su istruzioni che preserva la struttura utilizzando le caratteristiche di visione mentre applica la tua modifica testuale globalmente. Regola il prompt
HunyuanVideo15ImageToVideo(#115)- Il ponte dalle immagini fisse al movimento e il motore dietro le modifiche video basate su prompt. Crea una breve sequenza latente condizionata sul tuo prompt e, se fornito, un'immagine iniziale. Regola
lengthper la durata ewidth/heightper adattarsi a un preset; dimensioni maggiori aumentano i dettagli e il tempo di rendering. Questo nodo è la spina dorsale di entrambi i gruppi Da Immagine a Video e Modifica Video, sfruttando il design HunyuanVideo per una generazione temporale stabile mentre Capybara gestisce la denoising.
- Il ponte dalle immagini fisse al movimento e il motore dietro le modifiche video basate su prompt. Crea una breve sequenza latente condizionata sul tuo prompt e, se fornito, un'immagine iniziale. Regola
VHS_VideoCombine(#145)- Il finalizzatore che trasforma i fotogrammi generati in un MP4. Usa
frame_rateper controllare la cadenza del movimento ecrfper scambiare qualità per dimensione del file. Uncrfpiù basso produce una qualità superiore ma file più grandi; mantienilo coerente tra i progetti in modo che i tuoi output di Capybara ComfyUI Workflow abbiano un aspetto uniforme.
- Il finalizzatore che trasforma i fotogrammi generati in un MP4. Usa
Extra opzionali per il Capybara ComfyUI Workflow
- Usa i preset Size e Ratio per bloccare in 16:9, 9:16, 1:1 o 4:3 a 480p, 720p, 1024 o 1080p. Restare su un preset aiuta il sampler e il VAE a rimanere stabili e riduce gli artefatti ai bordi.
- Per un aumento della qualità, aumenta i
stepsdi diffusione nei pannelli Sampler. Il rendering richiede più tempo, ma le trame fini e i bordi puliti migliorano notevolmente. - Mantieni il tuo soggetto stabile nelle modifiche scrivendo prompt che dicono esplicitamente cosa mantenere (per esempio, “mantieni personaggi e costumi invariati”) e spingi i cambiamenti di scena nel resto della frase.
- I prompt negativi sono la tua squadra di pulizia. Voci comuni come “sfocato, watermark, testo” aiutano a rimuovere sovrapposizioni e artefatti simili alla compressione sia nelle immagini che nei video.
- Per i video, scegli la lunghezza della clip per adattarsi al tuo frame rate previsto. I valori predefiniti sono sintonizzati per clip social brevi; le sequenze più lunghe beneficiano di
stepsleggermente più alti per la coerenza temporale.
Questo Capybara ComfyUI Workflow è progettato per minimizzare l'attrito di configurazione: uno stack di modelli, quattro compiti creativi e controlli coerenti. Inizia con il testo a immagine per lo sviluppo del look, usa l'edit delle immagini per perfezionare, anima il fotogramma chiave con da immagine a video, quindi termina con l'editing video basato su prompt per adattarsi al brief finale.
Riconoscimenti
Questo workflow implementa e si basa sui seguenti lavori e risorse. Ringraziamo XGen Universe per il modello e il progetto Capybara, Comfy-Org per gli asset del modello di diffusione Capybara v0.1, HunyuanVideo 1.5 VAE e il confezionamento del text encoder Qwen2.5-VL-7B, e Comfy.org per i modelli di workflow Capybara (Da Testo a Immagine, Modifica Immagine, Da Immagine a Video e Modifica Video) per i loro contributi e manutenzione. Per dettagli autorevoli, si prega di fare riferimento alla documentazione e ai repository originali collegati di seguito.
Risorse
- XGen Universe/Capybara Project
- GitHub: xgen-universe/Capybara
- Hugging Face: xgen-universe/Capybara
- Comfy.org/Capybara Template - Text to Image
- Docs / Note di Rilascio: Capybara Template - Text to Image
- Comfy.org/Capybara Template - Image Edit
- Docs / Note di Rilascio: Capybara Template - Image Edit
- Comfy.org/Capybara Template - Image to Video
- Docs / Note di Rilascio: Capybara Template - Image to Video
- Comfy.org/Capybara Template - Video Edit
- Docs / Note di Rilascio: Capybara Template - Video Edit
Nota: L'uso dei modelli, dataset e codice di riferimento è soggetto alle rispettive licenze e termini forniti dai loro autori e manutentori.


