ByteDance USO:用于 ComfyUI 的统一风格和主题生成工作流
此工作流将 ByteDance USO 带入 ComfyUI,适用于希望在一个地方实现身份忠实角色和精确风格迁移的创作者。基于 FLUX.1-dev 构建,它支持主题驱动、风格驱动和组合生成,因此您可以在保持相似度的同时将角色置于新场景中,应用参考图像中的风格,或同时执行这两项操作。
当您需要强大的主题一致性和灵活的高质量风格控制时,请使用 ByteDance USO。图中包含两个互补分支:一个主题+风格路径,以身份图像为条件,另一个提示驱动路径,可选择使用或不使用风格参考。两个路径独立保存图像,因此您可以快速比较结果。
Comfyui ByteDance USO 工作流中的关键模型
- FLUX.1-dev。提供生成质量和速度的基础扩散变压器。它提供了 ByteDance USO 在此工作流中使用的采样骨干。模型卡
- ByteDance USO DiT LoRA v1。低秩适配器,将统一风格和主题功能注入 FLUX.1-dev,实现身份保留和风格指导的统一设置。文件在 USO 1.0 repack 中提供。存储库
- USO FLUX.1 Projector v1。连接 CLIP-Vision 特征到生成骨干的投影补丁,以便风格和主题线索能够有效引导模型。包含在 USO repack 中。存储库
- SigCLIP Vision (patch14, 384)。视觉编码器,从您的风格和主题参考图像中提取嵌入,用于 USO 模块的视觉指导。存储库
如何使用 Comfyui ByteDance USO 工作流
图中有两个可以独立运行的分支。上分支使用身份图像加风格参考;下分支是提示驱动的,可以选择包括风格参考。从任何一个分支或两个分支生成。
第一步 – 加载模型
此步骤初始化 FLUX.1-dev、ByteDance USO LoRA、USO 投影仪和 SigCLIP 视觉编码器。它为统一风格和主题指导准备基础模型。两个分支加载相同的集合,因此您可以运行主题+风格或提示工作流,而无需重新配置模型。加载后,模型流已准备好用于 USO 的参考处理器。
第二步 – 主题/身份图像
提供您角色的干净身份图像。工作流将其缩放到合适的工作大小,并将其编码为保留关键面部或角色特征的潜在变量。此潜在变量与您的提示相结合,因此 ByteDance USO 可以在保持身份的同时将主题置于新场景中。如果您只想进行风格或文本生成,请跳过此步骤。
第三步 – 风格参考
添加一到两个风格图像以指导调色板、材料和笔触。每个图像都由视觉模型编码,并通过 USO 的风格参考节点应用,这些节点将风格影响层叠到加载的模型上。当使用两个参考时,顺序很重要,因为第二个参考是在第一个参考之后应用的。您可以绕过此组以运行纯主题驱动或文本通道。
提示
为构图、氛围和细节编写意图驱动的提示。在主题+风格分支中,您的提示与身份潜在变量和 USO 的指导相结合,因此文本、主题和风格朝同一方向拉。在提示驱动的分支中,仅文本(可选地与风格参考)引导图像。保持提示具体;避免与所选风格矛盾。
图像大小
选择生成的目标分辨率。选择的大小会影响构图紧密度和细节密度,尤其适用于肖像与全身照。如果 VRAM 有限,请先从较小的开始,然后再放大。两个分支都暴露了一个简单的图像大小节点,以便您可以根据您的用例调整纵横比和保真度。
采样和输出
每个分支使用标准采样器采样,解码为 RGB,并保存到其自己的输出中。通常每次运行会得到两个图像:一个带风格的主题结果和一个提示驱动的结果。通过调整提示或交换参考进行迭代;重新采样以探索替代方案或固定种子以实现可重复性。
Comfyui ByteDance USO 工作流中的关键节点
USOStyleReference (#56)
使用 USO 投影仪和 CLIP-Vision 特征将风格图像应用于当前模型流。使用一个参考获得强烈一致的外观,或链接两个参考以获得细微的混合效果;第二参考完善第一个。如果风格过于主导,请尝试单一的、更干净的参考或简化其内容。
ReferenceLatent (#44)
将编码的主题潜在变量注入条件路径,以便 ByteDance USO 保留身份。最适合使用清晰显示角色面部或定义特征的简洁身份照片。如果身份滑移,请提供更完整的参考或减少冲突的风格线索。
FluxKontextMultiReferenceLatentMethod (#41)
在 FLUX 上下文路径中结合多个参考信号。这是主题和提示上下文在采样前平衡的地方。如果结果感觉过于约束,请放松参考;如果它们漂移,请加强主题图像或简化提示。
FluxGuidance (#35)
控制文本指导相对于参考信号的强度。较低的值让主题/风格引导;较高的值更强烈地执行提示。当您看到提示欠拟合(提高指导)或风格/主题被覆盖(降低指导)时进行调整。
ImageScaleToMaxDimension (#109)
为稳定特征提取准备身份图像。较小的最大尺寸有利于更广泛的构图;较大的尺寸在参考是紧密肖像且需要更清晰的身份线索时有帮助。根据您的主题参考是全身照还是头像进行调整。
EasyCache (#95)
通过在更改较小时重用中间状态来加速推理。适用于提示调整和快速迭代,但可能会略微减少微观细节。对于最终、最高质量的渲染,请禁用它。
KSampler (#31)
运行扩散步骤并通过种子和采样器选择控制随机性。增加步骤以获得更多细节,或锁定种子以在更改参考时复制外观。如果纹理看起来嘈杂,请尝试不同的采样器或更少的步骤与更强的风格指导。
可选附加功能
- 对于 ByteDance USO 身份工作,优先选择中性、光线均匀的主题图像;避免使用重妆或极端角度,这可能与风格线索冲突。
- 当堆叠两个风格参考时,首先放置更广泛的美学,然后放置纹理/细节参考以完善而不压倒身份。
- 保持负面提示最小化;图形故意使用中性负路径,以便 USO 的学习先验和参考能够干净地对齐。
- 在较低分辨率或启用缓存的情况下快速迭代,然后关闭缓存并放大您喜欢的种子以获得最终效果。
- 在比较仅主题、仅风格和组合模式时使用可重复的种子,以了解 ByteDance USO 如何平衡每个信号。
鸣谢
此工作流实现并构建在以下作品和资源之上。我们感谢 ByteDance 提供 USO 模型以及 ComfyUI 团队提供的 ByteDance USO ComfyUI Native Workflow 教程的贡献和维护。有关权威详细信息,请参阅下列链接的原始文档和存储库。
资源
- ByteDance/USO
- GitHub: bytedance/USO
- Hugging Face: bytedance-research/USO
- arXiv: 2508.18966
- 文档 / 发布说明: ByteDance USO Documentation
注意:使用所引用的模型、数据集和代码需遵循其作者和维护者提供的相应许可证和条款。


