テキストから高品質な映像を生成するWan 2.1。複雑な動きやリアルな表現で創造を形に。
テキストから高品質な映像を生成するWan 2.1。複雑な動きやリアルな表現で創造を形に。
静止画像やテキストをリアルな3D映像に変換する高精細ビデオ生成ツール。
テキスト入力だけで映像を生成。Seedance 1.0が創造力を映像化します。
テキストから自然で高品質な映像を生成。Kling 1.6 Proで創造力を形に。
自然な動きとカメラワークで高品質な映像表現を実現
テキストを自然な動きの10秒AI動画に変換。クリエイティブ制作をサポート。
Wan 2.1は、Alibabaがオープンソースで開発したWan動画生成AIモデルであり、高品質なAI動画を生成するための先進的な手法を取り入れています。このモデルは、リアルな動きを実現する拡散技術を活用し、英語と中国語の両方に対応したテキスト生成が可能です。モデルファミリーは以下の通りです:
Wan 2.1を使う方法は主に3つあります。
RunComfy AI Playgroundを使ってオンラインで利用: RunComfy AI Playgroundにアクセスし、「Wan 2.1」を選びます。テキストプロンプトを入力するか、画像をアップロードして、解像度や再生時間を設定したうえで動画生成を開始してください。簡単な操作で高品質なAI動画を生成できます。
RunComfy ComfyUIを通して利用: ComfyUI Wan 2.1 ワークフローにアクセスすると、事前に設定された環境でWan 2.1をすぐに使うことができます。テキスト入力または画像アップロードで快適に動画を生成できます。
ローカル環境でWan 2.1を実行: GitHubからWan 2.1リポジトリをクローンし、依存パッケージをインストールしたうえで、使用するモデル(T2V-14B、T2V-1.3B、I2V-14B-720P、またはI2V-14B-480P)をダウンロードしてください。その後、generate.pyなどのスクリプトを用いて動画生成が可能です。
Wan 2.1を実行するには、以下の方法があります:
RunComfy AI Playgroundを利用する場合: RunComfy AI Playgroundにログイン後、「Wan 2.1」モデルを選択します。テキスト→動画(T2V)生成にはプロンプトを入力し、画像→動画(I2V)には画像をアップロードします。解像度や時間などの設定を調整して生成を開始すれば、Wan 2.1による高精度動画を簡単にプレビュー・ダウンロードできます。
RunComfy ComfyUIを利用する場合: Wan 2.1 ComfyUI ワークフロー、またはWan 2.1 LoRAワークフローを選びます。インターフェース内でテキストや画像を入力し、LoRAモデルでスタイルを調整することも可能です。設定を終えたら動画生成を実行して最終成果物をダウンロードしてください。
Wan 2.1ではLoRA(低ランク適応)を使うことで、スタイルや動き、アート表現を細かくカスタマイズ可能です。モデル全体を再学習しなくても短時間で微調整できます。
RunComfy AI Playground:現在、Wan 2.1のLoRA対応は近日中に提供予定です。
RunComfy ComfyUI:こちらのページでWan 2.1 LoRAをそのまま利用できます→ Wan 2.1 LoRA カスタマイズAI動画生成。設定済みの環境が用意されており、自分で用意したLoRAモデルのアップロードも可能です。
Wan 2.1向けのLoRAモデルは、他の拡散モデルと同様の手順で学習できます。
データ準備:画像(またはショート動画)と、それを説明するキャプション入りのテキストファイルを揃えます。すべてのキャプションには一貫したトリガーワードを入れることで、モデルが狙い通りの概念を学習しやすくなります。
環境構築と設定:diffusion-pipeなどの学習フレームワークで、"wan_video.toml"のような設定ファイル(学習率、エポック数、ネットワークランクなど)を記述します。
学習実行:設定が整ったら、deepspeedなどを使ってLoRAパラメータをWan 2.1の基盤モデルに上書きする形で学習を進めます。
学習完了後:生成されたLoRAチェックポイント(.safetensorsファイル)は、Wan 2.1の動画生成ワークフローに組み込むことができます。
Wan 2.1向けのLoRAモデルは、Hugging Faceのコミュニティによって共有されています。たとえばこちら:Wan2.1 14B 480p I2V LoRAs。自分のWan 2.1ワークフローに組み入れて、スタイルやディテールの調整ができます。
Wan 2.1には複数のモデルがあり、必要なVRAMはバージョンによって異なります。
T2V-14BやI2V-14Bなどの大型モデルでは、高品質な720p動画(5秒)を生成するために、NVIDIA RTX 4090クラスのハイエンドGPUが推奨されます。標準的な設定で約12GBのVRAMが必要で、最適化を行えば480pの8秒動画まで対応可能です。
一方、低リソースでの運用を想定したT2V-1.3Bは、約8.19GBのVRAMで動作し、コンシューマー向けGPUでも効率的に480pの動画生成が可能です。Wan 2.1を使う目的や環境に応じてモデルを選ぶことが大切です。
NVIDIA RTX 3090は24GBのVRAMを備えており、Wan 2.1のT2V-1.3Bモデルをストレスなく動作させることができます。T2V-1.3Bは推論時に約8.19GBのVRAMを使用するため、RTX 3090との相性は非常に良好です。
一方、より大規模なWan 2.1 T2V-14Bモデルについては、RTX 3090でも動作可能な例がありますが、処理負担は大きく、VRAMの最適利用(例えばモデルオフロードや最適化前提)などが必要になります。そのため、安定稼働を求める場合はT2V-1.3Bがおすすめです。
Wan 2.1を動かすための要件はモデルごとに異なります。T2V-1.3Bは約8GBのVRAMで動作するよう最適化されており、一般的なコンシューマーGPUでも480p動画をスムーズに生成可能です。
対して、より高画質な720p動画を求めるT2V-14Bモデルは、14Bのパラメータを処理するために、高性能GPUが必要です。自宅に高スペックなPCがない場合でも、RunComfy AI Playgroundを使えば、Wan 2.1を無料で試すことができるため、高価なハードウェアなしでも利用できます。
Wan 2.1をクラウド上で安価に実行するには、RunComfyのサービスが最適です。
RunComfy AI Playground:新規ユーザーには無料クレジットが提供され、Wan 2.1を含むさまざまなAIツールを無償で体験できます。
RunComfy ComfyUI:こちらでは、Wan 2.1のワークフローおよびWan 2.1 LoRAが全て事前構成された状態で提供されているため、すぐに作業を開始できます。
さらにT2V-1.3Bのような軽量モデルを選び、モデルの量子化や--offload_model Trueフラグによる最適化を行うことで、VRAM使用量とクラウド費用を大幅に抑えることが可能です。
Wan 2.1は、テキスト→動画だけでなく、画像→動画(I2V)にも対応しています。静止画像とアニメーション内容を説明するプロンプトを入力すれば、モデルが時空間的に自然な動きで画像をアニメーション化してくれます。
ローカルで実行:コマンドラインで-task i2v-14Bを指定し、画像パスとプロンプトを一緒に指定します。(例-image examples/i2v_input.JPG)。
RunComfy ComfyUI:Wan 2.1ワークフローを使えば、画像→動画の生成が直感的に行えます。
RunComfy Playground:画像→動画モードを選択すれば、すぐにスタートできます。Wan 2.1はクリエイティブな表現に柔軟に対応します。
Wan 2.1では、最大で81フレームまでの動画生成に最適化されています。一般的なフレームレート(例:16FPS)で換算すると、約5秒の動画になります。
フレーム数は「4n+1」の法則(例:81フレーム)に従っており、この制約により、品質と時間的整合性のバランスが取れるよう調整されています。一部ユーザーは100フレーム以上を試していますが、標準的な設定では81フレームが最も安定して高品質な出力が得られます。
Wan 2.1は、テキスト→動画、画像→動画、さらには動画編集にも対応しており、非常に幅広いクリエイティブ用途に適しています。ソーシャルメディア投稿、教育資料、広告コンテンツなど、さまざまなシーンで活用できます。
自然な動き、視認性の高いテキスト、柔軟なスタイル調整などが特徴で、特に短編のプロモーションや情報発信に最適です。複雑なセットアップ不要で、Wan 2.1はコンテンツクリエイターにとって非常に実用的なAI動画生成ツールです。
Wan 2.1はComfyUIを通して簡単に利用可能で、テキスト→動画や画像→動画制作がすぐに行えます。
以下が対応するリンクです:
RunComfyが提供するこの環境では、Wan 2.1の必要モデルが全て事前ダウンロードされており、追加設定は不要です。誰でもすぐに高品質なAI動画制作を始められます。
RunComfyは最高の ComfyUI プラットフォームです。次のものを提供しています: ComfyUIオンライン 環境とサービス、および ComfyUIワークフロー 魅力的なビジュアルが特徴です。 RunComfyはまた提供します AI Models, アーティストが最新のAIツールを活用して素晴らしいアートを作成できるようにする。



