ByteDance USO: Flusso di lavoro unificato di generazione di stile e soggetto per ComfyUI
Questo flusso di lavoro porta ByteDance USO su ComfyUI per i creatori che vogliono personaggi fedeli all'identità e un trasferimento di stile preciso in un unico luogo. Costruito su FLUX.1‑dev, supporta generazione basata sul soggetto, sullo stile e combinata in modo da poter posizionare un personaggio in nuove scene mantenendo la somiglianza, applicare stili da immagini di riferimento o fare entrambe le cose contemporaneamente.
Usa ByteDance USO quando hai bisogno di una forte coerenza del soggetto con un controllo flessibile e di alta qualità dello stile. Il grafico include due rami complementari: un percorso soggetto+stile che si condiziona su un'immagine di identità e un percorso guidato da prompt che può essere utilizzato con o senza riferimenti di stile. Entrambi i percorsi salvano le immagini in modo indipendente in modo da poter confrontare rapidamente i risultati.
Modelli chiave nel flusso di lavoro Comfyui ByteDance USO
- FLUX.1‑dev. Il trasformatore di diffusione di base che alimenta la qualità e la velocità della generazione. Fornisce lo scheletro di campionamento utilizzato da ByteDance USO in questo flusso di lavoro. Model card
- ByteDance USO DiT LoRA v1. Un adattatore a basso rango che inietta capacità di stile e soggetto unificati in FLUX.1‑dev, consentendo la preservazione dell'identità e la guida dello stile in un setup unificato. I file sono forniti nel pacchetto USO 1.0. Repository
- USO FLUX.1 Projector v1. Una patch proiettore che collega le caratteristiche CLIP‑Vision allo scheletro di generazione in modo che suggerimenti di stile e soggetto possano guidare efficacemente il modello. Incluso nel pacchetto USO. Repository
- SigCLIP Vision (patch14, 384). Il codificatore di visione che estrae embedding dalle tue immagini di riferimento di stile e soggetto, utilizzato dai moduli USO per la guida visiva. Repository
Come usare il flusso di lavoro Comfyui ByteDance USO
Il grafico ha due rami che possono funzionare indipendentemente. Il ramo superiore utilizza un'immagine di identità più riferimenti di stile; il ramo inferiore è guidato da prompt e può includere opzionalmente riferimenti di stile. Genera da entrambi i rami o da entrambi.
Passo 1 – Caricare i Modelli
Questo passo inizializza FLUX.1‑dev, il ByteDance USO LoRA, il proiettore USO e il codificatore di visione SigCLIP. Prepara il modello di base per la guida unificata di stile e soggetto. Entrambi i rami caricano lo stesso set in modo da poter eseguire flussi di lavoro soggetto+stile o prompt senza riconfigurare i modelli. Una volta caricato, il flusso di modelli è pronto per i processori di riferimento di USO.
Passo 2 – Immagine Soggetto/Identità
Fornisci un'immagine di identità pulita del tuo personaggio. Il flusso di lavoro la ridimensiona a una dimensione di lavoro adatta e la codifica in un latente che preserva le caratteristiche facciali o del personaggio chiave. Questo latente è fuso con il tuo prompt in modo che ByteDance USO possa posizionare il soggetto in nuove scene mantenendo l'identità. Ometti questo passo se desideri una generazione solo di stile o solo di testo.
Passo 3 – Riferimento di Stile
Aggiungi una o due immagini di stile per guidare la palette, i materiali e la pennellata. Ogni immagine è codificata con il modello di visione e applicata attraverso i nodi di riferimento di stile di USO, che stratificano le influenze di stile sul modello caricato. L'ordine è importante quando si usano due riferimenti, poiché il secondo riferimento è applicato dopo il primo. Puoi bypassare questo gruppo per eseguire un passaggio solo basato sul soggetto o solo testo.
Prompt
Scrivi un prompt guidato dall'intento per composizione, umore e dettagli. Nel ramo soggetto+stile, il tuo prompt è combinato con il latente di identità e la guida di USO in modo che testo, soggetto e stile tirino nella stessa direzione. Nel ramo guidato da prompt, il testo da solo (opzionalmente con riferimenti di stile) guida l'immagine. Mantieni i prompt specifici; evita di contraddire lo stile scelto.
Dimensione Immagine
Scegli la risoluzione target per la generazione. La dimensione scelta influenza la compattezza della composizione e la densità dei dettagli, specialmente per ritratti rispetto a scatti a figura intera. Se la VRAM è limitata, inizia più piccolo e ingrandisci successivamente. Entrambi i rami espongono un nodo di dimensione immagine semplice in modo da poter adattare l'aspetto e la fedeltà al tuo caso d'uso.
Campionamento e Output
Ogni ramo campiona con un campionatore standard, decodifica in RGB e salva nel proprio output. Tipicamente otterrai due immagini per esecuzione: un risultato soggetto stilizzato e un risultato guidato da prompt. Itera regolando il prompt o scambiando i riferimenti; ricampiona per esplorare alternative o fissa il seme per la ripetibilità.
Nodi chiave nel flusso di lavoro Comfyui ByteDance USO
USOStyleReference (#56)
Applica un'immagine di stile al flusso di modelli corrente usando il proiettore USO e le caratteristiche CLIP‑Vision. Usa un riferimento per un aspetto forte e coerente o concatenane due per miscele sfumate; il secondo riferimento affina il primo. Se lo stile domina troppo, prova un riferimento singolo e più pulito o semplifica il suo contenuto.
ReferenceLatent (#44)
Inietta il latente soggetto codificato nel percorso di condizionamento in modo che ByteDance USO preservi l'identità. Funziona meglio con foto d'identità senza ingombri che mostrano chiaramente il volto o le caratteristiche distintive del personaggio. Se l'identità scivola, fornisci un riferimento più completo o riduci i suggerimenti di stile conflittuali.
FluxKontextMultiReferenceLatentMethod (#41)
Combina più segnali di riferimento all'interno del percorso di contesto FLUX. Qui è dove il contesto del soggetto e del prompt sono bilanciati prima del campionamento. Se i risultati sembrano troppo vincolati, rilassa i riferimenti; se si allontanano, rafforza le immagini del soggetto o semplifica il prompt.
FluxGuidance (#35)
Controlla la forza della guida testuale rispetto ai segnali di riferimento. Valori più bassi lasciano che soggetto/stile guidino; valori più alti rafforzano il prompt più fortemente. Regola quando vedi il prompt sottofitto (aumenta la guida) o lo stile/soggetto sovrascritto (diminuisci la guida).
ImageScaleToMaxDimension (#109)
Prepara l'immagine di identità per un'estrazione stabile delle caratteristiche. Dimensioni massime più piccole favoriscono una composizione più ampia; dimensioni maggiori aiutano quando il riferimento è un ritratto stretto e hai bisogno di indizi di identità più nitidi. Regola in base al fatto che il tuo riferimento soggetto sia a figura intera o un primo piano.
EasyCache (#95)
Accelera l'inferenza riutilizzando stati intermedi quando i cambiamenti sono minori. Ottimo per modifiche rapide ai prompt e iterazioni rapide, ma può ridurre leggermente i micro-dettagli. Disabilitalo per rendering finali di altissima qualità.
KSampler (#31)
Esegue i passaggi di diffusione e controlla la casualità tramite scelta di seme e campionatore. Aumenta i passaggi per più dettagli, o blocca il seme per riprodurre un aspetto mentre cambi i riferimenti. Se le texture appaiono rumorose, prova un campionatore diverso o meno passaggi con una guida di stile più forte.
Extra opzionali
- Per il lavoro di identità ByteDance USO, preferisci immagini di soggetti neutrali e uniformemente illuminate; evita trucco pesante o angoli estremi che possono confliggere con i suggerimenti di stile.
- Quando sovrapponi due riferimenti di stile, posiziona prima l'estetica più ampia e il riferimento di texture/dettaglio secondo per affinare senza sovrastare l'identità.
- Mantieni il prompting negativo al minimo; il grafico utilizza intenzionalmente un percorso negativo neutro in modo che i priori appresi da USO e i riferimenti si allineino pulitamente.
- Itera rapidamente a risoluzione più bassa o con cache attivata, poi disattiva la cache e ingrandisci i tuoi semi preferiti per i finali.
- Usa semi riproducibili quando confronti modalità solo soggetto, solo stile e combinate per capire come ByteDance USO bilancia ogni segnale.
Riconoscimenti
Questo flusso di lavoro implementa e si basa sui seguenti lavori e risorse. Ringraziamo ByteDance per il modello USO e il team ComfyUI per il tutorial sul Flusso di Lavoro Nativo ByteDance USO ComfyUI per i loro contributi e manutenzione. Per dettagli autorevoli, si prega di fare riferimento alla documentazione originale e ai repository collegati di seguito.
Risorse
- ByteDance/USO
- GitHub: bytedance/USO
- Hugging Face: bytedance-research/USO
- arXiv: 2508.18966
- Docs / Note di rilascio: Documentazione ByteDance USO
Nota: L'uso dei modelli, dataset e codice di riferimento è soggetto alle rispettive licenze e termini forniti dai loro autori e manutentori.


