ByteDance USO 在 ComfyUI 中 | 统一风格和主题工作流

ByteDance USO：用于 ComfyUI 的统一风格和主题生成工作流

此工作流将 ByteDance USO 带入 ComfyUI，适用于希望在一个地方实现身份忠实角色和精确风格迁移的创作者。基于 FLUX.1-dev 构建，它支持主题驱动、风格驱动和组合生成，因此您可以在保持相似度的同时将角色置于新场景中，应用参考图像中的风格，或同时执行这两项操作。

当您需要强大的主题一致性和灵活的高质量风格控制时，请使用 ByteDance USO。图中包含两个互补分支：一个主题+风格路径，以身份图像为条件，另一个提示驱动路径，可选择使用或不使用风格参考。两个路径独立保存图像，因此您可以快速比较结果。

Comfyui ByteDance USO 工作流中的关键模型

FLUX.1-dev。提供生成质量和速度的基础扩散变压器。它提供了 ByteDance USO 在此工作流中使用的采样骨干。模型卡
ByteDance USO DiT LoRA v1。低秩适配器，将统一风格和主题功能注入 FLUX.1-dev，实现身份保留和风格指导的统一设置。文件在 USO 1.0 repack 中提供。存储库
USO FLUX.1 Projector v1。连接 CLIP-Vision 特征到生成骨干的投影补丁，以便风格和主题线索能够有效引导模型。包含在 USO repack 中。存储库
SigCLIP Vision (patch14, 384)。视觉编码器，从您的风格和主题参考图像中提取嵌入，用于 USO 模块的视觉指导。存储库

如何使用 Comfyui ByteDance USO 工作流

图中有两个可以独立运行的分支。上分支使用身份图像加风格参考；下分支是提示驱动的，可以选择包括风格参考。从任何一个分支或两个分支生成。

第一步 – 加载模型

此步骤初始化 FLUX.1-dev、ByteDance USO LoRA、USO 投影仪和 SigCLIP 视觉编码器。它为统一风格和主题指导准备基础模型。两个分支加载相同的集合，因此您可以运行主题+风格或提示工作流，而无需重新配置模型。加载后，模型流已准备好用于 USO 的参考处理器。

第二步 – 主题/身份图像

提供您角色的干净身份图像。工作流将其缩放到合适的工作大小，并将其编码为保留关键面部或角色特征的潜在变量。此潜在变量与您的提示相结合，因此 ByteDance USO 可以在保持身份的同时将主题置于新场景中。如果您只想进行风格或文本生成，请跳过此步骤。

第三步 – 风格参考

添加一到两个风格图像以指导调色板、材料和笔触。每个图像都由视觉模型编码，并通过 USO 的风格参考节点应用，这些节点将风格影响层叠到加载的模型上。当使用两个参考时，顺序很重要，因为第二个参考是在第一个参考之后应用的。您可以绕过此组以运行纯主题驱动或文本通道。

提示

为构图、氛围和细节编写意图驱动的提示。在主题+风格分支中，您的提示与身份潜在变量和 USO 的指导相结合，因此文本、主题和风格朝同一方向拉。在提示驱动的分支中，仅文本（可选地与风格参考）引导图像。保持提示具体；避免与所选风格矛盾。

图像大小

选择生成的目标分辨率。选择的大小会影响构图紧密度和细节密度，尤其适用于肖像与全身照。如果 VRAM 有限，请先从较小的开始，然后再放大。两个分支都暴露了一个简单的图像大小节点，以便您可以根据您的用例调整纵横比和保真度。

采样和输出

每个分支使用标准采样器采样，解码为 RGB，并保存到其自己的输出中。通常每次运行会得到两个图像：一个带风格的主题结果和一个提示驱动的结果。通过调整提示或交换参考进行迭代；重新采样以探索替代方案或固定种子以实现可重复性。

Comfyui ByteDance USO 工作流中的关键节点

`USOStyleReference` (#56)

使用 USO 投影仪和 CLIP-Vision 特征将风格图像应用于当前模型流。使用一个参考获得强烈一致的外观，或链接两个参考以获得细微的混合效果；第二参考完善第一个。如果风格过于主导，请尝试单一的、更干净的参考或简化其内容。

`ReferenceLatent` (#44)

将编码的主题潜在变量注入条件路径，以便 ByteDance USO 保留身份。最适合使用清晰显示角色面部或定义特征的简洁身份照片。如果身份滑移，请提供更完整的参考或减少冲突的风格线索。

`FluxKontextMultiReferenceLatentMethod` (#41)

在 FLUX 上下文路径中结合多个参考信号。这是主题和提示上下文在采样前平衡的地方。如果结果感觉过于约束，请放松参考；如果它们漂移，请加强主题图像或简化提示。

`FluxGuidance` (#35)

控制文本指导相对于参考信号的强度。较低的值让主题/风格引导；较高的值更强烈地执行提示。当您看到提示欠拟合（提高指导）或风格/主题被覆盖（降低指导）时进行调整。

`ImageScaleToMaxDimension` (#109)

为稳定特征提取准备身份图像。较小的最大尺寸有利于更广泛的构图；较大的尺寸在参考是紧密肖像且需要更清晰的身份线索时有帮助。根据您的主题参考是全身照还是头像进行调整。

`EasyCache` (#95)

通过在更改较小时重用中间状态来加速推理。适用于提示调整和快速迭代，但可能会略微减少微观细节。对于最终、最高质量的渲染，请禁用它。

`KSampler` (#31)

运行扩散步骤并通过种子和采样器选择控制随机性。增加步骤以获得更多细节，或锁定种子以在更改参考时复制外观。如果纹理看起来嘈杂，请尝试不同的采样器或更少的步骤与更强的风格指导。

可选附加功能

对于 ByteDance USO 身份工作，优先选择中性、光线均匀的主题图像；避免使用重妆或极端角度，这可能与风格线索冲突。
当堆叠两个风格参考时，首先放置更广泛的美学，然后放置纹理/细节参考以完善而不压倒身份。
保持负面提示最小化；图形故意使用中性负路径，以便 USO 的学习先验和参考能够干净地对齐。
在较低分辨率或启用缓存的情况下快速迭代，然后关闭缓存并放大您喜欢的种子以获得最终效果。
在比较仅主题、仅风格和组合模式时使用可重复的种子，以了解 ByteDance USO 如何平衡每个信号。

鸣谢

此工作流实现并构建在以下作品和资源之上。我们感谢 ByteDance 提供 USO 模型以及 ComfyUI 团队提供的 ByteDance USO ComfyUI Native Workflow 教程的贡献和维护。有关权威详细信息，请参阅下列链接的原始文档和存储库。

资源

ByteDance/USO
- GitHub: bytedance/USO
- Hugging Face: bytedance-research/USO
- arXiv: 2508.18966
- 文档 / 发布说明: ByteDance USO Documentation

注意：使用所引用的模型、数据集和代码需遵循其作者和维护者提供的相应许可证和条款。

Want More ComfyUI Workflows?

Flux Consistent Characters | Input Image

使用您的图像创建一致的角色，并确保它们看起来统一。

DreamO | 统一多任务图像定制框架

从 1–3 个参考中执行身份、风格、试穿和多条件图像生成

Flux Kontext 360 Degree LoRA

生成具有深度和空间控制的沉浸式 360 风格图像。

Stable Video Infinity 2.0 | 长篇视频生成器

轻松创建长篇、流畅、故事驱动的 AI 视频。

PuLID | 精准的人脸嵌入用于文本到图像生成

使用 PuLID 和 IPAdapter Plus 无缝集成面部特征并控制风格。

Wan 2.2 | 开源视频生成领导者

现已推出！更高精度 + 更流畅的运动。

LBM 重光 | I2I

使用基于图像的光照输入通过 LBM 重光处理主体。

Wan2.2 Fun Camera | 从图像到电影级运动

通过顺畅的摄像机移动，将静态图像变成生动的电影镜头。

关注我们

支持

资源

法律

RunComfy

RunComfy 是首选的 ComfyUI 平台，提供 ComfyUI 在线环境和服务，以及 ComfyUI 工作流具有惊艳的视觉效果。 RunComfy还提供 AI Models, 帮助艺术家利用最新的AI工具创作出令人惊叹的艺术作品。

ByteDance USO | 统一风格与主题生成器