CCSR | 一貫性のある画像/動画アップスケーラー

このComfyUIアップスケールワークフローにCCSR(Content Consistent Super-Resolution)モデルを統合することで、画像と動画のアップスケールが大幅に向上します。CCSRは、ディフュージョンモデルとGAN(Generative Adversarial Networks)を組み合わせることで、画像構造を洗練し、ディテールを改善し、従来のアップスケール手法の限界を効果的に克服します。CCSRは、コンテンツの一貫性を優先することで、結果のばらつきを最小限に抑え、安定した効率的な超解像処理を提供します。さらに、ComfyUIアップスケールワークフローには、CCSRの適用後にオプションのステップが組み込まれており、ノイズを追加してControlNet再着色モデルを使用することで、さらにアップスケールを行います。この実験的な機能は、ユーザーが自由に探索できるようになっています。

ComfyUIワークフロー

ComfyUI CCSR | ComfyUI Upscale Workflow
このワークフローを実行しますか?
  • 完全に動作するワークフロー
  • 欠落したノードやモデルはありません
  • 手動セットアップは不要
  • 魅力的なビジュアルを特徴としています

説明

1. ComfyUI CCSR | ComfyUI 高品質なアップスケールワークフロー

このComfyUIワークフローには、超解像タスクにおけるコンテンツの一貫性を高めるために設計されたCCSR(Content Consistent Super-Resolution)モデルが組み込まれています。CCSRモデルの適用後、ノイズを追加し、ControlNet再着色モデルを使用して再度アップスケールするオプションのステップがあります。これは、ユーザーが探索できる実験的な機能です。

デフォルトでは、このワークフローは画像のアップスケール用に設定されています。動画をアップスケールするには、"load image"を"load video"に置き換え、"save image"を"combine video"に変更するだけです。

2. CCSRの紹介

事前学習済みの潜在ディフュージョンモデルは、画像の超解像(SR)の結果の知覚品質を向上させる可能性があることが認識されています。しかし、これらのモデルは、同一の低解像度画像に対して、異なるノイズ条件下で変動する結果を生成することが多いのです。この変動性は、テキストから画像への生成には有利ですが、コンテンツの保存性を要求するSRタスクには課題があります。

CCSR(Content Consistent Super-Resolution)は、ディフュージョンモデルを使用して画像構造を洗練し、GAN(Generative Adversarial Networks)を使用して細部を改善するという戦略を用いて、ディフュージョン事前分布ベースのSRの信頼性を向上させます。コンパクトなディフュージョンネットワークを学習するために、非一様なタイムステップ学習戦略を導入しています。このネットワークは、画像の主要な構造を効率的かつ安定的に再構築し、一方で、Variational AutoEncoder(VAE)の事前学習済みデコーダは、敵対的学習によって細部の強調のために微調整されます。このアプローチにより、CCSRはディフュージョン事前分布ベースのSR手法に関連する確率論的な問題を大幅に軽減し、SRの出力におけるコンテンツの一貫性を高め、画像生成プロセスを加速することができます。

3. 画像のアップスケールにComfyUI CCSRを使用する方法

3.1. CCSRモデル

real-world_ccsr.ckpt: 実世界の画像復元用CCSRモデル。

bicubic_ccsr.ckpt: バイキュービック画像復元用CCSRモデル。

Prompt Schedule

3.2. CCSRの主要パラメータ

-scale_by: このパラメータは超解像度スケールを指定し、入力画像や動画がどの程度拡大されるかを決定します。

-steps: ディフュージョンプロセスのステップ数を指します。画像の詳細や構造を洗練するために、モデルが何回反復処理を行うかを制御します。

-t_max-t_min: これらのパラメータは、CCSRモデルで使用される非一様なタイムステップ学習戦略の最大値と最小値のしきい値を設定します。

-sampling_method:

  • CCSR (Normal, Untiled): このアプローチは、通常の非タイル化サンプリング手法を利用します。これは直感的で、処理のために画像をタイルに分割しません。これは、画像全体の内容の一貫性を確保するのに効果的ですが、VRAMの使用量も多くなります。このメソッドは、VRAMが豊富で、画像全体で可能な限り高い一貫性が必要な場合に最適です。
  • CCSR_Tiled_MixDiff: このタイル化されたアプローチは、画像の各タイルを個別に処理します。これにより、画像全体をメモリに保持する必要がないため、VRAMの使用量をより効率的に管理できます。ただし、タイルが独立して処理されるため、タイルの境界で不整合が生じ、タイルの接合部に目に見えるシームが現れる可能性があるという大きな欠点があります。
  • CCSR_Tiled_VAE_Gaussian_Weights: この方法は、ガウス重みを使用してタイルをよりスムーズにブレンドすることで、CCSR_Tiled_MixDiffアプローチで見られるシームの問題を修正することを目的としています。これにより、タイルの境界を越えた一貫性のある外観を実現し、シームの視認性を大幅に低減できます。ただし、このブレンディングは時として精度が低くなり、超解像画像にノイズが余分に入り込み、全体的な画質に影響を与える可能性があります。

-tile_size-tile_stride: これらのパラメータは、推論中のGPUメモリを節約するためにCCSRに統合されているタイルディフュージョン機能の一部です。タイリングとは、画像を全体ではなくパッチ単位で処理することを指し、メモリ効率を高めることができます。-tile_sizeは各タイルのサイズを指定し、-tile_diffusion_strideはタイル間のストライドまたはオーバーラップを制御します。

-color_fix_type: このパラメータは、超解像処理における色補正または色調整の方法を示します。adainは、超解像画像の色を元の画像にできるだけ近づけるために使用される色補正の方法の1つです。

Prompt Schedule

4. CCSRの詳細

低解像度(LR)の画像から高解像度(HR)の画像を復元することを目的とした画像の超解像は、画像撮影時の品質低下という課題に取り組んでいます。既存の深層学習ベースのSR手法は主に、単純で既知の劣化に対するニューラルネットワークアーキテクチャの最適化に重点を置いていますが、現実世界のシナリオで遭遇する複雑な劣化への対処に課題があります。最近の進歩には、これらの現実世界の課題に近似するために、より複雑な画像劣化をシミュレートするデータセットと手法の開発が含まれています。

この研究では、ℓ1やMSEなどの従来の損失関数の限界も指摘しており、これらの関数はSR出力において過度に滑らかなディテールを生成する傾向があります。SSIM損失と知覚損失はこの問題をある程度緩和しますが、現実的な画像の詳細を実現することは依然として困難です。GANは画像の詳細を強調するための有効なアプローチとして浮上していますが、自然シーンの多様性のために、自然画像への適用ではしばしば視覚的なアーティファクトが生じます。

Denoising Diffusion Probabilistic Models(DDPM)とその変種は、SRを含む画像復元のための多様で高品質な事前分布の生成においてGANを上回る大きな可能性を示しています。しかし、これらのモデルは、現実世界のアプリケーションに存在する複雑で多様な劣化に適応することに苦慮しています。

CCSRのアプローチは、安定した一貫性のある超解像の結果を確保することで、これらの課題に取り組むことを目指しています。一貫した構造を生成するためのディフュージョン事前分布を活用し、ディテールとテクスチャの強調のために敵対的生成トレーニングを採用しています。非一様なタイムステップサンプリング戦略を採用し、事前学習済みのVAEデコーダを微調整することで、CCSRは既存のディフュージョン事前分布ベースのSR手法よりも効率的に、安定した内容一貫性のあるSR結果を達成します。

詳細については、githubまたは論文をご覧ください。

より多くのComfyUIワークフローが必要ですか?