Hunyuan Video: ビデオ生成

ComfyUI-HunyuanVideoWrapperノードはKijaiによって開発されました。Hunyuan VideoとKijaiのプロジェクトに関する詳細は、GitHubリポジトリをご覧ください。

ComfyUI Hunyuan Video Workflow

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

ComfyUI Hunyuan Video Examples

Hunyuan Videoは、Tencentという先進的な技術企業によって開発された、トップクラスのクローズドソースモデルに匹敵する、またはそれを超える性能を提供する革新的なオープンソースビデオ基盤モデルです。Hunyuan Videoは、データキュレーション、画像とビデオの共同モデルトレーニング、大規模モデルのトレーニングと推論のための効率的なインフラストラクチャなど、最新技術をモデル学習に取り入れています。Hunyuan Videoは、13億を超えるパラメータを持つ最大のオープンソースビデオ生成モデルを誇ります。

Hunyuan Videoの主要な機能には以下が含まれます#

Hunyuan Videoは、画像とビデオの両方を生成するための統一されたアーキテクチャを提供します。それは、「デュアルストリームからシングルストリーム」という特別なTransformerモデルデザインを使用しています。これは、モデルが最初にビデオとテキスト情報を別々に処理し、それから最終的な出力を作成するためにそれらを組み合わせることを意味します。これにより、モデルはビジュアルとテキストの説明の関係をよりよく理解できます。
Hunyuan Videoのテキストエンコーダーは、Multimodal Large Language Model (MLLM)に基づいています。他の人気のあるテキストエンコーダー、例えばCLIPやT5-XXLと比較して、MLLMはテキストと画像の整合性に優れています。また、コンテンツに関するより詳細な説明と推論を提供できます。これにより、Hunyuan Videoは入力テキストにより正確に一致するビデオを生成できます。
高解像度および高フレームレートのビデオを効率的に処理するために、Hunyuan VideoはCausalConv3Dを備えた3D Variational Autoencoder (VAE)を使用します。このコンポーネントは、ビデオと画像を潜在空間と呼ばれる小さな表現に圧縮します。この圧縮空間で作業することで、Hunyuan Videoは、あまり多くの計算リソースを使用せずに、元の解像度とフレームレートでビデオをトレーニングおよび生成できます。
Hunyuan Videoには、ユーザーの入力テキストをモデルの好みにより適合させるプロンプトリライトモデルが含まれています。利用可能なモードは2つあり、NormalとMasterです。Normalモードはユーザーの指示の理解を改善することに焦点を当て、Masterモードはより高い視覚品質のビデオを作成することに重点を置きます。ただし、Masterモードは時折、テキストの特定の詳細よりもビデオをより良く見せることを優先する場合があります。

ComfyUIでHunyuan Videoを使用する#

このComfyUI-HunyuanVideoWrapperノードと関連するワークフローは、Kijaiによって開発されました。この革新的な作品に対し、Kijaiにすべての功績を捧げます。RunComfyプラットフォーム上では、彼の貢献をコミュニティに紹介しています。

テキストプロンプトを入力する: HunyuanVideoTextEncodeノードの"prompt"フィールドに、希望するテキストプロンプトを入力します。こちらに参考用のプロンプト例があります。
HunyuanVideoSamplerノードで出力ビデオ設定を構成します:
- "width"および"height"を希望の解像度に設定します
- "num_frames"を希望するビデオ長にフレーム単位で設定します
- "steps"はノイズ除去/サンプリングステップの数を制御します（デフォルト: 30）
- "embedded_guidance_scale"はプロンプトガイダンスの強さを決定します（デフォルト: 6.0）
- "flow_shift"はビデオの長さに影響します（値が大きいほど短いビデオになります、デフォルト: 9.0）

Want More ComfyUI Workflows?

CogVideoX Tora | 画像から動画へのモデル

CogVideoXのための主題軌道ビデオデモ

LTX Video | 画像+テキストからビデオ

画像+テキストプロンプトからビデオを生成します。

OmniGen | Image-To-Image

OmniGen: 参照画像とプロンプトに基づいて画像を修正

Mochi Edit UnSampling | Video-to-Video

Mochi Edit: テキストベースのプロンプトとアップサンプリングを使用してビデオを修正。

ACE++ 顔交換｜画像編集

自然言語の指示で画像内の顔を交換し、スタイルとコンテキストを保持します。

アンサンプリングを用いた一貫したスタイル転送

アンサンプリングによる潜在ノイズの制御は、ビデオスタイル転送の一貫性を劇的に向上させます。

Face to Many | 3D, Emoji, Pixel, Clay, Toy, Video game

LoRAモデル、ControlNet、InstantIDを利用した高度な顔の多様な変換

FlashVSR | リアルタイム動画アップスケーラー

動画を高速で、滑らかに、超高画質でアップスケール—ディテールを失わずに。

フォローする

サポート

リソース

法的情報

RunComfy

RunComfyは最高の ComfyUI プラットフォームです。次のものを提供しています: ComfyUIオンライン環境とサービス、および ComfyUIワークフロー魅力的なビジュアルが特徴です。 RunComfyはまた提供します AI Models, アーティストが最新のAIツールを活用して素晴らしいアートを作成できるようにする。

Hunyuan Video | テキストからビデオへ