ByteDance USO: Flusso di lavoro unificato di generazione di stile e soggetto per ComfyUI#
Questo flusso di lavoro porta ByteDance USO su ComfyUI per i creatori che vogliono personaggi fedeli all'identità e un trasferimento di stile preciso in un unico luogo. Costruito su FLUX.1‑dev, supporta generazione basata sul soggetto, sullo stile e combinata in modo da poter posizionare un personaggio in nuove scene mantenendo la somiglianza, applicare stili da immagini di riferimento o fare entrambe le cose contemporaneamente.
Usa ByteDance USO quando hai bisogno di una forte coerenza del soggetto con un controllo flessibile e di alta qualità dello stile. Il grafico include due rami complementari: un percorso soggetto+stile che si condiziona su un'immagine di identità e un percorso guidato da prompt che può essere utilizzato con o senza riferimenti di stile. Entrambi i percorsi salvano le immagini in modo indipendente in modo da poter confrontare rapidamente i risultati.
Modelli chiave nel flusso di lavoro Comfyui ByteDance USO#
- FLUX.1‑dev. Il trasformatore di diffusione di base che alimenta la qualità e la velocità della generazione. Fornisce lo scheletro di campionamento utilizzato da ByteDance USO in questo flusso di lavoro. Model card
- ByteDance USO DiT LoRA v1. Un adattatore a basso rango che inietta capacità di stile e soggetto unificati in FLUX.1‑dev, consentendo la preservazione dell'identità e la guida dello stile in un setup unificato. I file sono forniti nel pacchetto USO 1.0. Repository
- USO FLUX.1 Projector v1. Una patch proiettore che collega le caratteristiche CLIP‑Vision allo scheletro di generazione in modo che suggerimenti di stile e soggetto possano guidare efficacemente il modello. Incluso nel pacchetto USO. Repository
- SigCLIP Vision (patch14, 384). Il codificatore di visione che estrae embedding dalle tue immagini di riferimento di stile e soggetto, utilizzato dai moduli USO per la guida visiva. Repository
Come usare il flusso di lavoro Comfyui ByteDance USO#
Il grafico ha due rami che possono funzionare indipendentemente. Il ramo superiore utilizza un'immagine di identità più riferimenti di stile; il ramo inferiore è guidato da prompt e può includere opzionalmente riferimenti di stile. Genera da entrambi i rami o da entrambi.
Passo 1 – Caricare i Modelli#
Questo passo inizializza FLUX.1‑dev, il ByteDance USO LoRA, il proiettore USO e il codificatore di visione SigCLIP. Prepara il modello di base per la guida unificata di stile e soggetto. Entrambi i rami caricano lo stesso set in modo da poter eseguire flussi di lavoro soggetto+stile o prompt senza riconfigurare i modelli. Una volta caricato, il flusso di modelli è pronto per i processori di riferimento di USO.
Passo 2 – Immagine Soggetto/Identità#
Fornisci un'immagine di identità pulita del tuo personaggio. Il flusso di lavoro la ridimensiona a una dimensione di lavoro adatta e la codifica in un latente che preserva le caratteristiche facciali o del personaggio chiave. Questo latente è fuso con il tuo prompt in modo che ByteDance USO possa posizionare il soggetto in nuove scene mantenendo l'identità. Ometti questo passo se desideri una generazione solo di stile o solo di testo.
Passo 3 – Riferimento di Stile#
Aggiungi una o due immagini di stile per guidare la palette, i materiali e la pennellata. Ogni immagine è codificata con il modello di visione e applicata attraverso i nodi di riferimento di stile di USO, che stratificano le influenze di stile sul modello caricato. L'ordine è importante quando si usano due riferimenti, poiché il secondo riferimento è applicato dopo il primo. Puoi bypassare questo gruppo per eseguire un passaggio solo basato sul soggetto o solo testo.
Prompt#
Scrivi un prompt guidato dall'intento per composizione, umore e dettagli. Nel ramo soggetto+stile, il tuo prompt è combinato con il latente di identità e la guida di USO in modo che testo, soggetto e stile tirino nella stessa direzione. Nel ramo guidato da prompt, il testo da solo (opzionalmente con riferimenti di stile) guida l'immagine. Mantieni i prompt specifici; evita di contraddire lo stile scelto.
Dimensione Immagine#
Scegli la risoluzione target per la generazione. La dimensione scelta influenza la compattezza della composizione e la densità dei dettagli, specialmente per ritratti rispetto a scatti a figura intera. Se la VRAM è limitata, inizia più piccolo e ingrandisci successivamente. Entrambi i rami espongono un nodo di dimensione immagine semplice in modo da poter adattare l'aspetto e la fedeltà al tuo caso d'uso.
Campionamento e Output#
Ogni ramo campiona con un campionatore standard, decodifica in RGB e salva nel proprio output. Tipicamente otterrai due immagini per esecuzione: un risultato soggetto stilizzato e un risultato guidato da prompt. Itera regolando il prompt o scambiando i riferimenti; ricampiona per esplorare alternative o fissa il seme per la ripetibilità.
Nodi chiave nel flusso di lavoro Comfyui ByteDance USO#
USOStyleReference (#56)#
Applica un'immagine di stile al flusso di modelli corrente usando il proiettore USO e le caratteristiche CLIP‑Vision. Usa un riferimento per un aspetto forte e coerente o concatenane due per miscele sfumate; il secondo riferimento affina il primo. Se lo stile domina troppo, prova un riferimento singolo e più pulito o semplifica il suo contenuto.
ReferenceLatent (#44)#
Inietta il latente soggetto codificato nel percorso di condizionamento in modo che ByteDance USO preservi l'identità. Funziona meglio con foto d'identità senza ingombri che mostrano chiaramente il volto o le caratteristiche distintive del personaggio. Se l'identità scivola, fornisci un riferimento più completo o riduci i suggerimenti di stile conflittuali.
FluxKontextMultiReferenceLatentMethod (#41)#
Combina più segnali di riferimento all'interno del percorso di contesto FLUX. Qui è dove il contesto del soggetto e del prompt sono bilanciati prima del campionamento. Se i risultati sembrano troppo vincolati, rilassa i riferimenti; se si allontanano, rafforza le immagini del soggetto o semplifica il prompt.
FluxGuidance (#35)#
Controlla la forza della guida testuale rispetto ai segnali di riferimento. Valori più bassi lasciano che soggetto/stile guidino; valori più alti rafforzano il prompt più fortemente. Regola quando vedi il prompt sottofitto (aumenta la guida) o lo stile/soggetto sovrascritto (diminuisci la guida).
ImageScaleToMaxDimension (#109)#
Prepara l'immagine di identità per un'estrazione stabile delle caratteristiche. Dimensioni massime più piccole favoriscono una composizione più ampia; dimensioni maggiori aiutano quando il riferimento è un ritratto stretto e hai bisogno di indizi di identità più nitidi. Regola in base al fatto che il tuo riferimento soggetto sia a figura intera o un primo piano.
EasyCache (#95)#
Accelera l'inferenza riutilizzando stati intermedi quando i cambiamenti sono minori. Ottimo per modifiche rapide ai prompt e iterazioni rapide, ma può ridurre leggermente i micro-dettagli. Disabilitalo per rendering finali di altissima qualità.
KSampler (#31)#
Esegue i passaggi di diffusione e controlla la casualità tramite scelta di seme e campionatore. Aumenta i passaggi per più dettagli, o blocca il seme per riprodurre un aspetto mentre cambi i riferimenti. Se le texture appaiono rumorose, prova un campionatore diverso o meno passaggi con una guida di stile più forte.
Extra opzionali#
- Per il lavoro di identità ByteDance USO, preferisci immagini di soggetti neutrali e uniformemente illuminate; evita trucco pesante o angoli estremi che possono confliggere con i suggerimenti di stile.
- Quando sovrapponi due riferimenti di stile, posiziona prima l'estetica più ampia e il riferimento di texture/dettaglio secondo per affinare senza sovrastare l'identità.
- Mantieni il prompting negativo al minimo; il grafico utilizza intenzionalmente un percorso negativo neutro in modo che i priori appresi da USO e i riferimenti si allineino pulitamente.
- Itera rapidamente a risoluzione più bassa o con cache attivata, poi disattiva la cache e ingrandisci i tuoi semi preferiti per i finali.
- Usa semi riproducibili quando confronti modalità solo soggetto, solo stile e combinate per capire come ByteDance USO bilancia ogni segnale.
Riconoscimenti#
Questo flusso di lavoro implementa e si basa sui seguenti lavori e risorse. Ringraziamo ByteDance per il modello USO e il team ComfyUI per il tutorial sul Flusso di Lavoro Nativo ByteDance USO ComfyUI per i loro contributi e manutenzione. Per dettagli autorevoli, si prega di fare riferimento alla documentazione originale e ai repository collegati di seguito.
Risorse#
- ByteDance/USO
- GitHub: bytedance/USO
- Hugging Face: bytedance-research/USO
- arXiv: 2508.18966
- Docs / Note di rilascio: Documentazione ByteDance USO
Nota: L'uso dei modelli, dataset e codice di riferimento è soggetto alle rispettive licenze e termini forniti dai loro autori e manutentori.






