Ce flux de travail apporte ByteDance USO à ComfyUI pour les créateurs qui souhaitent des personnages fidèles à leur identité et un transfert de style précis en un seul endroit. Construit sur FLUX.1‑dev, il prend en charge la génération basée sur le sujet, le style, et combinée, afin que vous puissiez placer un personnage dans de nouvelles scènes tout en conservant sa ressemblance, appliquer des styles à partir d'images de référence, ou faire les deux à la fois.
Utilisez ByteDance USO lorsque vous avez besoin d'une forte cohérence du sujet avec un contrôle de style flexible et de haute qualité. Le graphe comprend deux branches complémentaires : un chemin sujet+style qui se conditionne sur une image d'identité, et un chemin piloté par des invites qui peuvent être utilisés avec ou sans références de style. Les deux chemins enregistrent les images indépendamment afin que vous puissiez comparer rapidement les résultats.
Le graphe a deux branches qui peuvent fonctionner indépendamment. La branche supérieure utilise une image d'identité plus des références de style; la branche inférieure est guidée par des invites et peut inclure des références de style en option. Générez à partir de l'une ou l'autre branche ou des deux.
Cette étape initialise FLUX.1‑dev, le ByteDance USO LoRA, le projecteur USO, et l'encodeur de vision SigCLIP. Elle prépare le modèle de base pour l'orientation unifiée du style et du sujet. Les deux branches chargent le même ensemble afin que vous puissiez exécuter des flux de travail sujet+style ou d'invite sans reconfigurer les modèles. Une fois chargés, le flux de modèle est prêt pour les processeurs de référence de l'USO.
Fournissez une image d'identité propre de votre personnage. Le flux de travail la redimensionne à une taille de travail appropriée et la code en un latent qui préserve les caractéristiques faciales ou de personnage clés. Ce latent est fusionné avec votre invite afin que ByteDance USO puisse placer le sujet dans de nouvelles scènes tout en conservant l'identité. Omettez cette étape si vous souhaitez une génération uniquement de style ou uniquement de texte.
Ajoutez une ou deux images de style pour guider la palette, les matériaux, et le travail au pinceau. Chaque image est codée avec le modèle de vision et appliquée à travers les nœuds de référence de style de l'USO, qui superposent les influences de style sur le modèle chargé. L'ordre est important lors de l'utilisation de deux références, car la deuxième référence est appliquée après la première. Vous pouvez contourner ce groupe pour exécuter un passage purement piloté par le sujet ou uniquement par le texte.
Rédigez une invite axée sur l'intention pour la composition, l'ambiance, et les détails. Dans la branche sujet+style, votre invite est combinée avec le latent d'identité et l'orientation de l'USO afin que le texte, le sujet, et le style aillent dans la même direction. Dans la branche pilotée par l'invite, le texte seul (éventuellement avec des références de style) oriente l'image. Gardez les invites spécifiques; évitez de contredire le style choisi.
Choisissez la résolution cible pour la génération. La taille choisie influence la compacité de la composition et la densité des détails, en particulier pour les portraits par rapport aux plans en pied. Si la VRAM est limitée, commencez plus petit et augmentez plus tard. Les deux branches exposent un nœud de taille d'image simple afin que vous puissiez adapter l'aspect et la fidélité à votre cas d'utilisation.
Chaque branche échantillonne avec un échantillonneur standard, décode en RGB, et enregistre dans sa propre sortie. Vous obtiendrez généralement deux images par exécution : un résultat de sujet stylisé et un résultat guidé par l'invite. Itérez en ajustant l'invite ou en échangeant les références; rééchantillonnez pour explorer des alternatives ou fixez la graine pour la répétabilité.
USOStyleReference
(#56)Applique une image de style au flux de modèle actuel en utilisant le projecteur USO et les caractéristiques CLIP‑Vision. Utilisez une référence pour un look fort et cohérent ou enchaînez-en deux pour des mélanges nuancés; la deuxième référence affine la première. Si le style domine trop, essayez une référence unique et plus propre ou simplifiez son contenu.
ReferenceLatent
(#44)Injecte le latent de sujet encodé dans le chemin de conditionnement afin que ByteDance USO préserve l'identité. Fonctionne mieux avec des photos d'identité non encombrées qui montrent clairement le visage du personnage ou les caractéristiques déterminantes. Si l'identité glisse, fournissez une référence plus complète ou réduisez les indices de style conflictuels.
FluxKontextMultiReferenceLatentMethod
(#41)Combine plusieurs signaux de référence dans le chemin contextuel FLUX. C'est là que le contexte du sujet et de l'invite est équilibré avant l'échantillonnage. Si les résultats semblent trop contraints, relâchez les références; s'ils dérivent, renforcez les images de sujet ou simplifiez l'invite.
FluxGuidance
(#35)Contrôle la force de l'orientation textuelle par rapport aux signaux de référence. Des valeurs plus basses laissent le sujet/style mener; des valeurs plus élevées renforcent davantage l'invite. Ajustez lorsque vous voyez soit une sous-adaptation de l'invite (augmentez l'orientation) soit un dépassement du style/sujet (réduisez l'orientation).
ImageScaleToMaxDimension
(#109)Prépare l'image d'identité pour l'extraction de caractéristiques stables. Les tailles maximales plus petites favorisent une composition plus large; les tailles plus grandes aident lorsque la référence est un portrait serré et que vous avez besoin d'indices d'identité plus nets. Ajustez selon que votre référence de sujet est en pied ou un portrait.
EasyCache
(#95)Accélère l'inférence en réutilisant les états intermédiaires lorsque les changements sont mineurs. Idéal pour les ajustements d'invite et l'itération rapide, mais cela peut légèrement réduire les micro-détails. Désactivez-le pour les rendus finaux de la plus haute qualité.
KSampler
(#31)Exécute les étapes de diffusion et contrôle la stochasticité via le choix de la graine et de l'échantillonneur. Augmentez les étapes pour plus de détails, ou verrouillez la graine pour reproduire un look tout en changeant les références. Si les textures semblent bruyantes, essayez un échantillonneur différent ou moins d'étapes avec une orientation de style plus forte.
Ce flux de travail met en œuvre et s'appuie sur les travaux et ressources suivants. Nous remercions chaleureusement ByteDance pour le modèle USO et l'équipe ComfyUI pour le tutoriel ByteDance USO ComfyUI Native Workflow pour leurs contributions et leur maintenance. Pour des détails autorisés, veuillez consulter la documentation originale et les répertoires liés ci-dessous.
Note: L'utilisation des modèles, ensembles de données, et code référencés est soumise aux licences et conditions respectives fournies par leurs auteurs et mainteneurs.
RunComfy est la première ComfyUI plateforme, offrant des ComfyUI en ligne environnement et services, ainsi que des workflows ComfyUI proposant des visuels époustouflants. RunComfy propose également AI Playground, permettant aux artistes d'utiliser les derniers outils d'IA pour créer des œuvres d'art incroyables.