CCSR | 一致的图像/视频放大器

在此 ComfyUI 放大工作流程中集成 CCSR (内容一致超分辨率) 模型显著增强了图像和视频放大效果。CCSR 结合了扩散模型和 GAN (生成对抗网络) 来优化图像结构并改善精细细节,有效克服了传统放大方法的局限性。通过优先考虑内容一致性,CCSR 最大限度地减少了结果的可变性,提供了一个稳定高效的超分辨率过程。此外,ComfyUI 放大工作流程在应用 CCSR 之后还包含一个可选步骤,涉及通过添加噪声和使用 ControlNet 重新着色模型进一步放大。这是一个供您探索的实验性功能。

ComfyUI 工作流

ComfyUI CCSR | ComfyUI Upscale Workflow
想要运行这个工作流吗?
  • 完全可操作的工作流
  • 没有缺失的节点或模型
  • 无需手动设置
  • 具有惊艳的视觉效果

示例

描述

1. ComfyUI CCSR | ComfyUI 放大工作流程

此 ComfyUI 工作流程集成了 CCSR (内容一致超分辨率) 模型,旨在增强超分辨率任务中的内容一致性。在应用 CCSR 模型之后,还有一个可选步骤,涉及通过添加噪声和利用 ControlNet 重新着色模型再次放大。这是一个供用户探索的实验性功能。

默认情况下,此工作流程设置为图像放大。要放大视频,只需将 "load image" 替换为 "load video",并将 "save image" 更改为 "combine video"。

2. CCSR 简介

预训练潜在扩散模型以其在提高图像超分辨率 (SR) 结果的感知质量方面的潜力而备受认可。然而,这些模型经常在不同噪声条件下为相同的低分辨率图像产生可变结果。虽然这种可变性对于文本到图像的生成很有利,但它给 SR 任务带来了挑战,因为 SR 任务需要在内容保存方面保持一致性。

为了提高基于扩散先验的 SR 的可靠性,CCSR (内容一致超分辨率) 使用了一种策略,结合了用于优化图像结构的扩散模型和用于改进精细细节的生成对抗网络 (GAN)。它引入了一种非均匀时间步学习策略来训练紧凑的扩散网络。该网络能够高效且稳定地重建图像的主要结构,同时通过对抗训练对变分自编码器 (VAE) 的预训练解码器进行微调以增强细节。这种方法有助于 CCSR 显著减少与基于扩散先验的 SR 方法相关的随机性,从而增强 SR 输出中的内容一致性并加速图像生成过程。

3. 如何使用 ComfyUI CCSR 进行图像放大

3.1. CCSR 模型

real-world_ccsr.ckpt: 用于真实世界图像修复的 CCSR 模型。

bicubic_ccsr.ckpt: 用于双三次图像修复的 CCSR 模型。

Prompt Schedule

3.2. CCSR 中的关键参数

-scale_by: 此参数指定超分辨率比例,决定输入图像或视频的放大程度。

-steps: 指扩散过程中的步骤数。它控制模型经历多少次迭代以优化图像细节和结构。

-t_max-t_min: 这些参数设置 CCSR 模型中使用的非均匀时间步学习策略的最大和最小阈值。

-sampling_method:

  • CCSR (Normal, Untiled): 此方法使用正常、非平铺的采样方法。它简单直接,不将图像划分为tiles进行处理。虽然这可以有效地确保整个图像的内容一致性,但它对 VRAM 使用量也很大。此方法最适合 VRAM 充足且需要最高可能的跨图像一致性的情况。
  • CCSR_Tiled_MixDiff: 此平铺方法分别处理图像的每个tile,通过不要求将整个图像一次性保存在内存中来更有效地管理 VRAM 使用。然而,一个明显的缺点是tiles相遇处可能出现可见接缝,因为每个tile都是独立处理的,从而导致tile边界处可能出现不一致。
  • CCSR_Tiled_VAE_Gaussian_Weights: 此方法旨在通过使用高斯权重更平滑地混合tiles来解决 CCSR_Tiled_MixDiff 方法中出现的接缝问题。这可以显著降低接缝的可见性,提供更一致的跨tile边界外观。但是,这种混合有时可能不太准确,并可能在超分辨率图像中引入额外的噪声,从而影响整体图像质量。

-tile_size-tile_stride: 这些参数是平铺扩散特征的一部分,该特征集成到 CCSR 中以在推理期间节省 GPU 内存。平铺是指以分块而不是整体处理图像,这可以更有效地利用内存。-tile_size 指定每个tile的大小,-tile_diffusion_stride 控制tiles之间的跨度或重叠。

-color_fix_type: 此参数表示超分辨率过程中用于色彩校正或调整的方法。adain 是用于色彩校正的方法之一,以确保超分辨率图像中的颜色与原始图像尽可能接近。

Prompt Schedule

4. 关于 CCSR 的更多细节

图像超分辨率旨在从低分辨率 (LR) 对应物中恢复高分辨率 (HR) 图像,解决图像捕获过程中质量下降带来的挑战。虽然现有的基于深度学习的 SR 技术主要专注于针对简单、已知退化的神经网络架构优化,但它们在处理现实场景中遇到的复杂退化方面还有所欠缺。最近的进展包括开发模拟更复杂图像退化的数据集和方法,以接近这些现实世界的挑战。

该研究还强调了传统损失函数的局限性,例如ℓ1和 MSE,它们往往在 SR 输出中产生过于平滑的细节。虽然 SSIM 损失和感知损失在一定程度上缓解了这个问题,但实现真实的图像细节仍然具有挑战性。GAN 已成为增强图像细节的成功方法,但由于自然场景的多样性,将其应用于自然图像经常会导致视觉伪影。

去噪扩散概率模型 (DDPM) 及其变体已显示出显著的前景,在为包括 SR 在内的图像修复生成多样且高质量的先验方面优于 GAN。然而,这些模型在适应现实世界应用中存在的复杂多变退化方面存在困难。

CCSR 方法旨在通过确保稳定和一致的超分辨率结果来应对这些挑战。它利用扩散先验生成连贯的结构,并采用生成对抗训练来增强细节和纹理。通过采用非均匀时间步采样策略和微调预训练的 VAE 解码器,CCSR 比现有的基于扩散先验的 SR 方法更有效地实现稳定、内容一致的 SR 结果。

更多信息请查看 githubpaper

想要更多 ComfyUI 工作流吗?