Bernini多模态视频生成在ComfyUI中

ComfyUI Bernini multimodal video generation and editing workflow Workflow

Bernini Multimodal Video Generation in ComfyUI | Video Edit + Identity

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

ComfyUI Bernini multimodal video generation and editing workflow Examples

Bernini多模态视频生成和编辑工作流程#

这个Bernini多模态视频生成和编辑工作流程是一个一站式的ComfyUI管道，用于身份感知、参考引导的视频编辑和视频到视频转换。它结合了源视频、一个或多个参考图像和一个集中的提示，以在替换或重新设计主体的同时保持运动和相机行为。该工作流程将Bernini的高低扩散骨干与Wan风格文本编码、Bernini兼容的VAE、LightX2V LoRAs和Bernini特定的条件结合在一起，以确保结果在每一帧中保持一致。

为在ComfyUI中评估Bernini的创作者和研究人员而构建，该工作流程擅长角色替换、运动保留编辑、模仿和相机感知的短格式生成。它输出一个编辑过的MP4以及一个可选的并排比较，便于查看提示和参考集的影响。整个README中提到的Bernini多模态视频生成和编辑工作流程是指这个端到端的图。

Comfyui中Bernini多模态视频生成和编辑工作流程的关键模型#

ByteDance Bernini扩散模型家族（高和低骨干）。提供在两阶段调度中使用的核心去噪网络：高模型在较强噪声下处理结构，而低模型细化细节和时间一致性。请参阅模型中心以获取参考权重和注释：ByteDance/Bernini。
Wan文本编码器（umT5‑XXL）。一种Wan风格的T5编码器，将你的指令转化为Bernini的条件；通过CLIP兼容接口在ComfyUI中公开。适用于ComfyUI的资产可在此处获取：Kijai/WanVideo_comfy_fp8_scaled。
Wan 2.1 VAE。执行潜在解码，将去噪后的潜在变量转化为具有与Wan/Bernini训练相匹配的色彩保真度的视频帧。一个ComfyUI就绪的VAE包含在同一资产包中：Kijai/WanVideo_comfy_fp8_scaled。
LightX2V LoRA配对（high_noise和low_noise）。轻量级适配器，将Bernini引导到稳定运动，同时在各帧之间保持参考身份。提供的FP8 LoRA权重与此工作流程中使用的两阶段采样对齐，并与上述Bernini资产一起打包：Kijai/WanVideo_comfy_fp8_scaled。

如何使用Comfyui Bernini多模态视频生成和编辑工作流程#

此工作流程有四个协调组。您提供一个源视频和一个或多个参考图像，塑造指令文本，然后执行组运行两阶段Bernini通过，解码为帧并组装输出视频。一个并行实用程序可以生成用于LLM辅助提示写作的脚手架系统和用户提示。

用户输入#

使用VHS_LoadVideo（#90）加载您的源视频。该节点读取剪辑并曝光其元数据，以便最终渲染继承原始帧速率，这有助于保持运动感。使用LoadImage（#31）添加一个或多个身份参考；正面、光线良好的中性表情的面孔效果最佳。使用Width（#109）和Height（#110）设置目标大小，理想情况下匹配源纵横比以避免拉伸。默认的负面提示由CLIPTextEncode（#4）编码，以抑制低质量视频中的常见伪影；如果需要，您可以进行微调。

提示处理#

如果您希望指令与参考身份精准匹配，图表可以使用本地LLM总结您的参考图像中的静态特征。llama_cpp_model_loader（#93）和llama_cpp_instruct_adv（#92）分析由BatchImagesNode（#74）批处理的图像，并返回不变属性的简要描述，如头发、年龄和服装。该描述通过TextConcatenate（#102）与您的任务指令从JjkText（#104）连接。结果流入CLIPTextEncode（#3），成为Bernini的正面条件。预览节点显示组合文本，以便您在运行重阶段之前快速迭代。

提示增强#

BerniniPromptEnhancer（#60）生成结构化的“系统”和“用户”提示，针对所选任务类型和输入量身定制。运行它以获得更强的指令，您可以将其粘贴到您的LLM中以丰富提示扩展；根据设计，它没有连接到主图中。此实用工具来自Bernini自定义节点包：ComfyUI‑RH‑Bernini。将其视为预写工具，以标准化适用于Bernini条件的语言。

执行#

核心路径从加载Bernini的高低UNets并为每个阶段附加LightX2V LoRAs开始。BerniniConditioning（#34）将您的正负编码、VAE、源视频帧和参考图像融合在一起，以构建Bernini特定的条件和一个与您的分辨率和帧数对齐的初始潜在变量。BasicScheduler（#18）创建去噪计划，然后SplitSigmas（#17）将其分为高低范围。高采样器SamplerCustom（#19）在较强噪声下建立结构和身份，将其潜在变量传递给低采样器SamplerCustom（#15）以进行细节和时间抛光。KSamplerSelect（#27）选择采样器算法，VAEDecode（#16）将最终潜在变量转化为帧，VHS_VideoCombine（#87）渲染一个继承源帧速率的MP4。同时，ImageConcanate（#97）和第二个VHS_VideoCombine（#96）生成一个并排比较，便于快速质量检查。视频I/O和组装由视频助手套件提供：ComfyUI‑VideoHelperSuite。

Comfyui中Bernini多模态视频生成和编辑工作流程的关键节点#

BerniniConditioning（#34）通过结合您的文本编码、VAE、源视频和参考图像来构建Bernini本地条件。它还准备了起始潜在体积并处理空间和时间尺寸。调整width和height以匹配您的目标分辨率，并使用length控制生成的帧数。如果参考主体在图像中较小，请增加ref_max_size，以便模型更好地感知身份细节。此节点是Bernini自定义包的一部分：ComfyUI‑RH‑Bernini。

LoraLoaderModelOnly（#11）将LightX2V高噪音LoRA应用于高骨干。提高其strength_model可以在结构阶段增加对参考的依从性，当主体的轮廓或粗略特征与源视频不匹配时很有用。如果编辑变得过于僵硬或抑制自然运动，请降低它。与低阶段LoRA一起使用，以平衡保真度和流动性。

LoraLoaderModelOnly（#29）将LightX2V低噪音LoRA应用于低骨干。此LoRA细化纹理，如头发、皮肤和服装，同时保持高阶段设置的运动。如果身份细节在帧之间漂移，请稍微增加强度；如果纹理过度锐化或看起来过度拟合，请减少它。与高阶段LoRA一起，它形成互补对。

SplitSigmas（#17）将去噪计划分为高低范围。将分割提前可产生更温和的编辑，保留更多原始视频，而将其延后可使高阶段在更强的替换中更具影响力。当您更改提示或LoRA强度时，请调整分割，以便两个阶段保持平衡。此控制对于相机锁定、运动保留编辑尤其有用。

KSamplerSelect（#27）选择两个去噪阶段使用的采样器算法。有些采样器偏向稳定性和时间平滑性，而另一些则强调细节或速度。如果您看到闪烁，请尝试一个以一致性著称的采样器；如果需要额外锐利，请尝试一种注入更多变化的算法。保持两个阶段使用相同的选择，以保持可预测的行为。

VHS_VideoCombine（#87）编码解码后的帧为最终的MP4，同时继承VHS_VideoInfo报告的帧速率，以便播放速度与源剪辑匹配。使用文件名控件组织运行，并在计划审计设置时启用元数据保存。第二个实例（#96）输出一个并排渲染，以便快速视觉比较。由ComfyUI‑VideoHelperSuite提供。

可选额外#

对于身份关键任务，提供两到三张高质量的参考图像，显示一致的头发、光线和表情。使用批量输入将它们一起提供。
将目标纵横比保持在与源视频接近的范围。大的不匹配会拉伸面部并破坏运动。
如果背景或相机漂移，加强指令中的语言以锁定相机位置和场景，并用简洁的负面提示加以强化。
在调整LoRA强度或sigma分割时，使用并排导出。它通过使差异显而易见来缩短迭代时间。
为了更快的试验，限制您加载的帧数，然后在对身份匹配和运动质量满意后再扩展。

这个Bernini多模态视频生成和编辑工作流程设计为可以安全编辑：从默认值开始，迭代指令和参考，然后微调LoRA强度和sigma分割，以适应您的主体和场景。

致谢#

此工作流程实现并基于以下作品和资源。我们非常感谢ByteDance为Bernini，RH-RunningHub为ComfyUI-RH-Bernini，以及Kosinkadink为ComfyUI-VideoHelperSuite所做的贡献和维护。有关权威细节，请参阅下面链接的原始文档和存储库。

资源#

RunningHub/Bernini Multimodal Video Generation and Editing (ComfyUI Workflow)
- 文档/发布说明：RunningHub工作流程参考
RunComfy/Cloud Save workflow
- 文档/发布说明：RunComfy Cloud Save工作流程
ByteDance/Bernini-R
- GitHub: bytedance/Bernini
- Hugging Face: ByteDance/Bernini-R
- arXiv: arXiv:2605.22344
- 文档/发布说明：ByteDance Bernini模型来源
Kijai/WanVideo_comfy_fp8_scaled (Bernini assets)
- Hugging Face: Kijai/WanVideo_comfy_fp8_scaled
- 文档/发布说明：Kijai Bernini ComfyUI fp8模型资产
RH-RunningHub/ComfyUI-RH-Bernini
- GitHub: RH-RunningHub/ComfyUI-RH-Bernini
- 文档/发布说明：RunComfy Bernini自定义节点
Kosinkadink/ComfyUI-VideoHelperSuite
- GitHub: Kosinkadink/ComfyUI-VideoHelperSuite
- 文档/发布说明：ComfyUI视频助手套件

注意：使用引用的模型、数据集和代码需遵循其作者和维护者提供的各自许可证和条款。

Want More ComfyUI Workflows?

Flux 2 Klein 9B KV 图像编辑 | 智能图像变换器

基于提示的图像编辑，保持结构和身份不变。

Flux Upscaler - 终极 32k | 图像放大器

Flux Upscaler – 实现 4k、8k、16k 和终极 32k 分辨率！

FramePack 封装器 | 高效长视频生成

使用最少的云资源创建稳定的、超过 60 秒的长视频。

IC-Light | 图像重光照

轻松编辑背景、增强光照并重新生成新场景。

Flux UltraRealistic LoRA V2

使用Flux UltraRealistic LoRA V2创建令人惊叹的逼真图像

Stable Fast 3D | ComfyUI 3D Pack

使用 Stable Fast 3D 和 ComfyUI 3D Pack 创建令人惊叹的 3D 内容。

Stable Diffusion 3.5 vs FLUX.1

在一个ComfyUI工作流程中比较Stable Diffusion 3.5和FLUX.1。

AnimateDiff + ControlNet | 陶瓷艺术风格

通过将视频转换为独特的陶瓷艺术风格,为其注入创意,提升视频品质。

关注我们

支持

资源

法律

RunComfy

RunComfy 是首选的 ComfyUI 平台，提供 ComfyUI 在线环境和服务，以及 ComfyUI 工作流具有惊艳的视觉效果。 RunComfy还提供 AI Models, 帮助艺术家利用最新的AI工具创作出令人惊叹的艺术作品。

Bernini视频编辑专业版 | 多模态生成器