ComfyUI Stable Video Diffusion (SVD) ワークフロー

ComfyUI SVD Workflow

ComfyUI Stable Video Diffusion (SVD) Workflow

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

ComfyUI SVD Examples

1. ComfyUI Stable Video Diffusion (SVD) ワークフロー#

ComfyUIワークフローは、テキスト画像変換（Stable Diffusion）と画像動画変換（Stable Video Diffusion）のテクノロジーをシームレスに統合し、効率的なテキスト動画変換を実現します。このワークフローでは、テキストの説明から直接ビデオを生成することができ、ベース画像から始まり、ダイナミックなビデオシーケンスへと進化します。このワークフローは、テキスト動画アニメーションやビデオの実現を促進します。

2. Stable Video Diffusion (SVD) の概要#

2.1. Stable Video Diffusion (SVD) の紹介#

Stable Video Diffusion (SVD) は、静止画を動的なビデオコンテンツに変換するために開発された最先端のテクノロジーです。SVDは、Stable Diffusionの画像モデルを基盤として、静止画にモーションを導入し、短いビデオクリップの作成を可能にします。当初は画像合成用に考案されたlatent diffusionモデルの進化により、静止画にテンポラルな次元を組み込むことで、通常は2〜5秒程度のビデオを生成できるようになりました。

Stable Video Diffusionには2つのバリエーションがあります。標準のSVDは、14フレームで576×1024ピクセルのビデオを生成でき、拡張版のSVD-XTは最大25フレームまで生成できます。どちらのバリエーションも、3〜30フレーム/秒の調整可能なフレームレートをサポートしており、多様なデジタルコンテンツ制作のニーズに対応しています。

SVDモデルのトレーニングは、3段階のプロセスを経ています。画像モデルから始まり、大規模なビデオデータセットで事前学習したビデオモデルへと移行し、高品質のビデオクリップを選択して微調整します。このプロセスは、モデルのビデオ制作能力を最適化するためのデータセット品質の重要性を示しています。

Stable Video Diffusionモデルの中核となるのは、Stable Diffusion 2.1の画像モデルであり、基礎となる画像のバックボーンとして機能します。時間的な畳み込みとアテンション層をU-Netノイズ推定器に統合することで、これを強力なビデオモデルに進化させ、潜在テンソルをビデオシーケンスとして解釈します。このモデルは、VideoLDMモデルと同様に、すべてのフレームを同時にデノイズするためにリバースディフュージョンを採用しています。

15億のパラメータを備え、膨大なビデオデータセットで学習したこのモデルは、最高のパフォーマンスを発揮するために、高品質のビデオデータセットでさらに微調整されます。SVDモデルの重みは2セット公開されており、それぞれ14フレームと25フレームの576×1024解像度のビデオを生成するように設計されています。

2.2. Stable Video Diffusion (SVD) の主な特徴#

ComfyUIワークフローでStable Video Diffusionを使用する際、ビデオ出力をカスタマイズするための主要なパラメータには、ビデオのモーション強度を制御するモーションバケットID、フレームレートを決定するフレーム/秒（fps）、初期画像のノイズレベルを調整して様々な変換の度合いを得るオーギュメンテーションレベルなどがあります。

2.2.1. モーションバケットID: この機能により、ユーザーはビデオのモーション強度を制御できます。このパラメータを調整することで、目的の視覚効果に応じて、微妙なジェスチャーからより顕著なアクションまで、ビデオ内の動きの量を指定できます。

2.2.2. フレーム/秒（fps）: このパラメータは、ビデオの再生速度を決定するために重要です。フレーム/秒を調整することで、シーンの素早いダイナミクスを捉えたり、スローモーション効果を表現したりできるビデオを制作できます。これにより、ビデオコンテンツのストーリーテリング面が強化されます。この柔軟性は、高速なペースの広告から、よりゆっくりとした物語性のあるピースまで、幅広いタイプのビデオを作成するのに特に有益です。

2.2.3.オーギュメンテーションレベルパラメータ: これは、初期画像のノイズレベルを調整し、様々な変換の度合いを可能にします。このパラメータを操作することで、ビデオ作成プロセス中に元の画像がどの程度変化するかを制御できます。オーギュメンテーションレベルを調整することで、元の画像により忠実に近づけたり、より抽象的でアーティスティックな解釈に踏み込んだりできるため、創造的な可能性が広がります。

Want More ComfyUI Workflows?

SVD + FreeU | 画像からビデオへ

FreeUとSVDを組み合わせることで、追加コストなしで画像からビデオへの変換品質を改善します。

SVD + IPAdapter V1 | 画像からビデオへ

静止画像の生成には IPAdapters を、動的なビデオ生成には Stable Video Diffusion を活用します。

Wan 2.1 | 革新的なビデオ生成

画期的なAIを使用して、日常のCPUで動作するテキストまたは画像から信じられないほどのビデオを作成します。

LTX 2.3 Sulphur 画像から動画へのワークフロー | Cinematic Generator

静止画像を素早く滑らかに映画のような動きのあるシーンに変える。

バーチャルトライオン | リアルなファッションフィッティング

自然でぴったりとした服装ビジュアルによる即時アウトフィットプレビュー

Hunyuan Image 2.1 | 高解像度AI画像ジェネレーター

次世代2.1モデルで、鮮明でシャープ、超高精細なAIビジュアルを迅速に生成。

AnimateDiff + IPAdapter V1 | 画像からビデオへ

IPAdapterを使用すると、参照画像を使用してアニメーションの生成を効率的に制御できます。

Qwen Edit 2509 MultipleAngles | マルチビュー画像クリエーター

1枚の写真を瞬時に完全なマルチアングルビジュアルに変換します。

フォローする

サポート

リソース

法的情報

RunComfy

RunComfyは最高の ComfyUI プラットフォームです。次のものを提供しています: ComfyUIオンライン環境とサービス、および ComfyUIワークフロー魅力的なビジュアルが特徴です。 RunComfyはまた提供します AI Models, アーティストが最新のAIツールを活用して素晴らしいアートを作成できるようにする。

SVD (Stable Video Diffusion) + SD | テキストからビデオへ