wan-2-1/image-to-video
wan-2-1/image-to-video
Wan 2.1 简介与创作方式
Wan 2.1由Wan-AI于2025年2月正式发布,是一款开源视频生成模型。它支持从文本到视频、图像到视频的多模态创作,并具备视频编辑功能,以真实物理规律为基础生成高质量、电影级动态影像。 Wan 2.1面向创作者、设计师与视频内容开发者,提供高自由度的生成工具,能够从文字、图像或现有视频中快速生成具有自然运动与视觉层次的动态画面。其算法确保动作流畅、画面连贯,并结合智能视觉效果引擎,让用户以更少成本创作出具备专业质感的短片、广告或创意视频。
探索 Wan 2.1 的主要特色



Frequently Asked Questions
什么是Wan 2.1?
Wan 2.1 是阿里巴巴开源的视频AI模型,专为生成高质量AI视频内容而设计。它使用先进的扩散技术,实现逼真的动态效果,并支持英文和中文的双语文本生成。Wan 2.1 模型家族包括多个版本:1)T2V-14B:参数量达14B的文字生成视频模型,支持480P和720P高清输出,但对显存要求较高;2)T2V-1.3B:轻量版文字转视频模型,适配约8GB显存的消费级GPU,适合进行高效率的480P视频生成;3)I2V-14B-720P:图像转视频模型,可将静态图生成顺滑专业的720P视频;4)I2V-14B-480P:与720P版本功能类似,但优化为480P输出,可减轻硬件负担的同时保持较高视频质量。
如何使用Wan 2.1?
要使用Wan 2.1,有三种方式可以选择:1)通过 RunComfy AI Playground 在线使用:进入 RunComfy AI Playground,选择Wan 2.1 AI平台,输入文本或上传图片,自定义分辨率和时长,点击生成即可;2)通过RunComfy ComfyUI使用:访问 Wan 2.1 工作流,无需配置环境,即可快速开始生成视频;3)本地部署Wan 2.1:从 GitHub 仓库 克隆Wan 2.1代码,安装依赖,下载对应模型(如T2V-14B、T2V-1.3B、I2V-14B等),通过命令行运行脚本如 generate.py 生成视频。
如何运行Wan 2.1?
运行Wan 2.1可分为以下几种方式:1)在 RunComfy AI Playground 中运行:登录 AI Playground,选择Wan 2.1模型。生成文字转视频时输入描述性文本,图像转视频则上传图片并添加提示词,自定义如分辨率(480P或720P)与时长等配置,即可开始生成视频,完成后可预览和下载;2)通过 ComfyUI 使用Wan 2.1:前往 Wan 2.1 工作流 或 Wan 2.1 LoRA 工作流,根据需求选择合适的工作流,通过ComfyUI界面上传图片或输入文本,并选择LoRA模型来自定义风格,然后生成你所需的视频。Wan 2.1的灵活接口确保操作过程简洁流畅。
如何在Wan 2.1中使用LoRA?
LoRA 是一种轻量化微调技术,可通过额外参数对Wan 2.1模型进行个性化风格、动态或艺术效果的调整,而无需重新训练整套模型。目前可通过以下方式使用Wan 2.1 LoRA:1)RunComfy AI Playground:Wan 2.1的LoRA功能即将上线;2)RunComfy ComfyUI:访问 Wan 2.1 LoRA 自定义生成页,使用预配置环境直接调用现有Wan 2.1 LoRA模型,或上传你自己训练的LoRA模型进行定制化生成。
如何训练Wan 2.1的LoRA模型?
训练Wan 2.1 的LoRA模型方法和其他扩散模型相似,一般步骤为:1)准备数据集:收集高质量图像(或短视频片段),为每张图像编写描述文本,文本中需带统一触发词,便于模型学习;2)设置环境与配置文件:推荐使用如 diffusion-pipe 等训练框架,并配置如“wan_video.toml”文件,包括学习率(通常为3e-05)、训练轮数、网络秩(如32)等参数;3)启动训练:在数据和配置就绪后,使用训练脚本运行训练,如使用deepspeed进行多GPU加速;4)训练完成后生成的LoRA模型将以 .safetensors 格式保存,可在Wan 2.1工作流中加载使用。
哪里可以找到Wan 2.1的LoRA模型?
你可以在 Hugging Face 上找到社区发布的 Wan 2.1 LoRA 模型。例如:Wan 2.1 14B 480P I2V LoRAs 提供了丰富可下载的模型,方便你在不同项目中快速应用Wan 2.1相关风格定制功能。
Wan 2.1需要多少显存?
Wan 2.1的显存需求取决于所使用的模型版本。T2V-14B和I2V-14B等14B大型模型通常建议搭配高端GPU(如NVIDIA RTX 4090)运行,生成5秒720P视频通常需要约12GB显存。若开启模型卸载或量化优化,也可实现8秒480P生成。而T2V-1.3B是更高效的版本,推理时平均只需约8.19GB显存,非常适合消费级GPU。该版本在RTX 4090上生成5秒480P视频仅需约4分钟,虽然在分辨率与速度上略逊14B模型,但在资源占用和效率上有明显优势。
在RTX 3090上可以使用哪种Wan 2.1模型?
RTX 3090配有24 GB显存,可流畅运行 Wan 2.1 的 T2V-1.3B 版本。在推理模式下,该模型仅需约8.19GB显存,完全兼容3090。但运行T2V-14B的14B大型模型可能面临挑战,虽理论上3090显存充足,但模型运行时对内存和算力的要求较高。有部分用户通过优化技术在10GB显存的GPU上运行成功,但可能需牺牲生成速度和稳定性。因此,若使用RTX 3090,建议优先选择Wan 2.1的T2V-1.3B版本。
运行Wan 2.1视频生成需要什么硬件?
Wan 2.1 的硬件需求因不同模型而异。T2V-1.3B优化较好,适配8GB显存的消费级显卡,可快速生成480P视频;而T2V-14B涉及14B参数,输出720P高画质视频时对硬件要求更高。如果你想体验Wan 2.1而又不具备高端硬件,可以直接使用 RunComfy AI Playground,该平台提供免费积分和在线环境,让你便捷访问Wan 2.1等AI工具,无需本地负担。
如何在云端低成本运行Wan 2.1?
若希望以较低成本在云端运行Wan 2.1,可选择以下方式:1)使用RunComfy AI Playground:新用户可获得免费积分,可在平台上免费尝试Wan 2.1及其他AI工具;2)使用RunComfy ComfyUI:平台提供预设的 Wan 2.1 工作流 和 Wan 2.1 LoRA 工作流,环境和模型均已配置,登录即用。你还可通过量化、模型卸载(如使用 --offload_model True)等优化技术搭配Wan 2.1的1.3B高效模型,进一步降低云端运行成本。
如何使用Wan 2.1生成图转视频(Image-to-Video)?
Wan 2.1 支持图像转视频(I2V)功能,只需提供一张静态图像及相应的描述性提示词,模型即可利用时空动态技术生成动画效果。你可以选择以下方式操作:1)本地运行:在命令行中执行指定命令,例如使用 -task i2v-14B 和 -image 指定图像路径,并附带提示词运行生成脚本;2)RunComfy ComfyUI:前往 Wan 2.1 工作流页面,选择图转视频模式;3)AI Playground:直接选择图像转视频模式,即可开始使用Wan 2.1生成动态图像。
Wan 2.1可以生成多长的视频?
Wan 2.1 默认生成的视频长度为81帧,即大约5秒钟,这也是目前最稳定的配置。一般帧率为16FPS时,81帧可保障视觉质量与时间一致性。需要注意的是,Wan 2.1的帧数必须符合“4n+1”的结构(如81帧)。虽然有用户尝试生成100帧长视频,但标准推荐仍为81帧,因为该长度在实际表现中最协调、效果最佳。
Wan 2.1最适合用来做哪些类型的项目?
Wan 2.1 是一款功能全面的视频生成工具,适合多种创意项目。它不仅支持文字生成视频(T2V),还支持图像转视频(I2V)及视频编辑。Wan 2.1 特别适合制作社交媒体短片、教学内容、品牌宣传视频等场景,凭借其动态画面能力和清晰文本生成,助力内容创作者与营销人员高效产出专业级AI视频内容。而且无需复杂配置就能上手,极大提升了创作效率与门槛。
如何在ComfyUI中使用Wan 2.1?
你可以通过以下入口在ComfyUI中使用Wan 2.1快速开始项目:1)Wan 2.1 工作流:用于文字转视频或图像转视频;2)Wan 2.1 LoRA 工作流:加载LoRA模型进行风格调整。RunComfy 所提供的工作流环境完整,模型预装,无需其他配置,即可高效生成高质量Wan 2.1视频内容,节省繁琐准备时间。

