Capybara ComfyUI Workflow v0.1: 画像と動画のための統一テンプレート
Capybara ComfyUI Workflowは、ComfyUIでのテキストから画像、指示に基づく画像編集、画像から動画、プロンプトベースの動画編集をカバーする4-in-1のテンプレートバンドルです。Capybara v0.1拡散モデルと単一の統一パイプラインに基づいて構築されており、画像と動画タスク間を一貫した動作と予測可能な結果で移動できます。
このCapybara ComfyUI Workflowは、プロンプト駆動の編集、迅速な反復、信頼性のあるアスペクト比プリセットを必要とするクリエイターに最適です。それぞれのパスは同じモデルスタックとプロンプト戦略を再利用し、色彩科学、構図、スタイルをタスク間で一貫性を保ちます。
Comfyui Capybara ComfyUI Workflowの主要モデル
- Capybara v0.1 (拡散UNet)。画像と動画の動作を統一するコアジェネレーターで、すべてのテンプレートでコンテンツの構成とスタイリングを導きます。プロジェクトリポジトリとモデルカードの詳細は以下を参照してください:xgen-universe/Capybara (GitHub) および xgen-universe/Capybara (Hugging Face)。
- Qwen2.5-VL-7Bテキストエンコーダー。プロンプトと編集指示のための強力で指示に優しい言語理解を提供し、書いた内容と生成されたものの整合性を改善します。詳細は Qwen/Qwen2.5-VL-7B を参照してください。
- ByT5-smallテキストエンコーダー。プロンプト内での堅牢なトークナイゼーションとテキスト処理を助けるバイトレベルのエンコーダーで、主要な言語モデルを補完します。詳細は google/byt5-small を参照してください。
- HunyuanVideo 1.5 VAE。画像と動画のブランチ間での潜在デコード/エンコードを処理し、両者が同じ再構築特性を共有します。詳細は Tencent/HunyuanVideo (GitHub) および Comfy-Org/HunyuanVideo_1.5_repackaged にて再パッケージ化されたアセットを参照してください。
- SigCLIP Vision (patch14, 384)。編集中や画像を動画に変換する際に構造とアイデンティティを保持するのに役立つ画像機能を提供します。詳細は Comfy-Org/sigclip_vision_384 を参照してください。
Comfyui Capybara ComfyUI Workflowの使い方
ワークフローは独立して実行できる4つのグループに整理されています。各グループは同じCapybaraモデルスタックとプロンプト戦略を共有しているため、スタイルと忠実度が画像と動画の間で持続します。組み込みのサイズと比率パネルを使用して、生成する前に適切な解像度プリセットを選択してください。
- 画像編集
LoadImage(#80)でソース静止画を読み込み、次にImage Edit (Capybara v0.1)(#103)を開きます。「被写体と衣装を保持し、屋内シーンを陽光の草原に置き換える」といった指示スタイルのプロンプトを書きます。「透かし、テキスト、低品質」のようなアーティファクトを抑制するためのネガティブプロンプトを使用してください。- エディターはCLIPビジョンを使用して被写体とレイアウトを固定し、Capybaraが指示をシーンの残りに適用します。アイデンティティを失うことなく、背景の素早い交換やグローバルなルック調整に最適です。
- 出力は
SaveImage(#102)で保存されます。特定の比率が必要な場合は、ノードに露出した幅/高さコントロールを使用して、含まれているプリセットの1つに設定します。
- テキストから画像
Text to Image (Capybara v0.1)サブグラフ (#143)を開き、説明的なプロンプトを書きます。このブランチは、他のパスと同じ言語エンコーダーとスケジューラーを使用してクリーンな静止画像を生成するため、編集や動画と一致したルックを生み出します。- 品質管理のために短いネガティブプロンプトを追加します。正方形、16:9、9:16、または4:3の出力が必要な場合は、実行前にサイズパネルで一致するプリセットを選択します。
- 画像はレビューのために保存され、画像から動画または編集パスの開始点として再利用できます。
- 画像から動画
LoadImage(#131)で参照静止画を読み込み、次にジェネレーターサブグラフ (#130)を実行します。「スロードリー前進、暖かいシネマティックグレード」のような動きに配慮したプロンプトを書き、入力をアニメーション化し、その構成とアイデンティティを尊重します。- 背後で、
HunyuanVideo15ImageToVideo(#115)が静止画とプロンプトを短い潜在フレームのシーケンスに変換し、Capybaraがそれを精緻化します。クリップの長さを選択するために、含まれている長さコントロールを使用します。 - フレームは
VHS_VideoCombine(#144)でデフォルトのシネマティックフレームレートでMP4にエンコードされます。アートディレクションされたキーフレームからの迅速なソーシャル対応の動きを望む場合に使用してください。
- 動画編集
VHS_LoadVideo(#146)でクリップをインポートし、次に編集サブグラフ (#136)を開きます。「海の背景を草原に変更し、馬と動きを保持する」といった指示を書きます。- 編集パスはCLIPビジョンとプロンプトを融合させ、被写体を安定させつつ、シーン、照明、天候が時間とともに適応します。ネガティブプロンプトはちらつきや不要なオーバーレイを抑制するのに役立ちます。
- 結果は
VHS_VideoCombine(#145)でMP4にコンパイルされます。ソースに一致する解像度プリセットを選択して、引き伸ばしを避けてください。
Comfyui Capybara ComfyUI Workflowの主要ノード
Image Edit (Capybara v0.1)(#103)- 構造を保持しつつ、ビジョン機能を使用して指示に基づくコンパクトなエディター。何が変わるべきか、何が残るべきかを記述するために
textプロンプトを調整し、品質/滑らかさのためにstepsを使用し、プロンプトの強さとソース画像とのバランスを取るためにcfgを使用します。詳細を増やすためにstepsを増やし、通常は中程度のcfg値が編集を忠実に保ちます。
- 構造を保持しつつ、ビジョン機能を使用して指示に基づくコンパクトなエディター。何が変わるべきか、何が残るべきかを記述するために
HunyuanVideo15ImageToVideo(#115)- 静止画から動きへの橋渡しであり、プロンプトベースの動画編集のエンジンです。プロンプトと提供された場合は開始画像に基づいて短い潜在シーケンスを作成します。持続時間には
lengthを調整し、プリセットに一致するようにwidth/heightを調整します。大きなサイズは詳細とレンダリング時間を増やします。このノードはImage-to-VideoとVideo Editグループのバックボーンであり、Capybaraがノイズ除去を担当する一方でHunyuanVideoの設計を活用して安定した時間生成を行います。
- 静止画から動きへの橋渡しであり、プロンプトベースの動画編集のエンジンです。プロンプトと提供された場合は開始画像に基づいて短い潜在シーケンスを作成します。持続時間には
VHS_VideoCombine(#145)- 生成されたフレームをMP4に変換するファイナライザーです。
frame_rateを使用して動きのテンポを制御し、crfを使用して品質とファイルサイズをトレードオフします。低いcrfはより高い品質を提供しますが、ファイルが大きくなります。プロジェクト全体で一貫性を保つために同じcrfを使用してください。Capybara ComfyUI Workflowの出力が一様な見た目になるようにします。
- 生成されたフレームをMP4に変換するファイナライザーです。
Capybara ComfyUI Workflowのオプション追加機能
- サイズと比率のプリセットを使用して、16:9、9:16、1:1、または4:3を480p、720p、1024、または1080pに固定します。プリセットに留まることでサンプラーとVAEが安定し、エッジアーティファクトを減らします。
- 品質を向上させるために、サンプラーパネルで拡散
stepsを増やします。レンダリングは長くなりますが、細かいテクスチャとクリーンなエッジが顕著に改善されます。 - 編集で被写体を安定させるために、「キャラクターとコスチュームを変更せずに保持する」といったように、明示的に何を保持するかを書き、シーンの変更を文の残りに押し込みます。
- ネガティブプロンプトはクリーンアップクルーです。「ぼやけ、透かし、テキスト」のような一般的なエントリは、画像と動画のオーバーレイや圧縮のようなアーティファクトを除去するのに役立ちます。
- 動画の場合、クリップの長さを意図したフレームレートに合わせて選択します。デフォルトは短いソーシャルクリップに調整されていますが、長いシーケンスは時間的一貫性のためにわずかに高い
stepsが利益をもたらします。
このCapybara ComfyUI Workflowはセットアップの摩擦を最小限に抑えるように設計されており、1つのモデルスタック、4つのクリエイティブタスク、一貫したコントロールを提供します。ルックデブにはテキストから画像を開始し、画像編集で洗練し、画像から動画でキーフレームをアニメーション化し、プロンプトベースの動画編集で最終的なブリーフに一致させて仕上げます。
謝辞
このワークフローは、以下の作品とリソースを実装し、それに基づいて構築されています。CapybaraモデルとプロジェクトのためのXGen Universe、Capybara v0.1拡散モデルアセットのためのComfy-Org、HunyuanVideo 1.5 VAE、およびQwen2.5-VL-7Bテキストエンコーダーパッケージング、そして貢献とメンテナンスのためのComfy.orgのCapybaraワークフローテンプレート(テキストから画像、画像編集、画像から動画、動画編集)に感謝を表します。権威ある詳細については、以下にリンクされたオリジナルのドキュメントとリポジトリを参照してください。
リソース
- XGen Universe/Capybara Project
- GitHub: xgen-universe/Capybara
- Hugging Face: xgen-universe/Capybara
- Comfy.org/Capybara Template - Text to Image
- Docs / Release Notes: Capybara Template - Text to Image
- Comfy.org/Capybara Template - Image Edit
- Docs / Release Notes: Capybara Template - Image Edit
- Comfy.org/Capybara Template - Image to Video
- Docs / Release Notes: Capybara Template - Image to Video
- Comfy.org/Capybara Template - Video Edit
- Docs / Release Notes: Capybara Template - Video Edit
注: 参照されたモデル、データセット、およびコードの使用は、それぞれの著者およびメンテナーにより提供されたライセンスおよび条件に従います。


