AI Toolkit LoRA Training Guides

使用Ostris AI Toolkit训练Wan 2.2 T2V 14B文生视频LoRA

本文介绍如何用Ostris AI Toolkit训练Wan 2.2 T2V 14B(Text-to-Video)LoRA,从24GB消费级显卡到H100/H200云端服务器都可运行。内容包括Wan的高噪/低噪专家机制、角色/风格/运动T2V数据集设计、多阶段(Multi-stage)与Timestep Type/Bias调参、4-bit ARA量化与帧数设置,帮助你获得更稳定的长序列视频LoRA效果。

Train Diffusion Models with Ostris AI Toolkit

水平滚动查看完整表单

Ostris AI ToolkitOstrisAI-Toolkit

New Training Job

Job

Model

Quantization

Target

Save

Training

Datasets

Dataset 1

Sample

Wan 2.2 T2V 14B 文生视频 LoRA 训练让你能够从简单的文本提示生成具有强大动作、细节和相机控制的丰富5秒视频片段。完成本指南后,你将能够:

  • 使用 AI Toolkit 训练 Wan 2.2 T2V 14B LoRA,实现一致的角色鲜明的风格动作/相机行为
  • 在24GB+ NVIDIA GPU(使用4位ARA量化)的本地训练和H100/H200 GPU的云端训练之间做出选择,并了解每个层级能够实际处理什么。
  • 理解Wan的高噪声和低噪声专家如何与Multi-stageTimestep Type/BiasNum Frames分辨率交互,从而控制LoRA在哪里注入变化。
  • 逐面板配置AI Toolkit(JOB、MODEL、QUANTIZATION、MULTISTAGE、TARGET、SAVE、TRAINING、DATASETS、SAMPLE),以便将相同的配方适应不同的LoRA目标和硬件。
本文是AI Toolkit LoRA训练系列的一部分。如果你是Ostris AI Toolkit的新手,请先阅读AI Toolkit LoRA训练概述,然后再深入本指南。

目录


1. Wan 2.2 T2V 14B LoRA训练概述

Wan 2.2是一个开放的文本/视频模型家族,包含三个主要变体:一个5B文本/图像转视频模型和两个14B模型(T2V和I2V)。(Wan 2.2 GitHub)。本指南针对14B文本转视频模型Wan2.2‑T2V‑A14B

双Transformer"高噪声/低噪声"设计

在底层,Wan 2.2 14B使用混合专家(Mixture-of-Experts)文生视频backbone进行Wan 2.2 T2V 14B 文生视频 LoRA 训练:

  • 高噪声:约14B参数的transformer,处理去噪的早期高噪声部分(粗略构图、全局运动、相机)。
  • 低噪声:约14B参数的transformer,细化接近结束时相对干净的帧(细节、纹理、身份)。

整个模型大约有27B参数,但在每个扩散步骤中只有一个专家(约14B参数)处于活动状态。时间步在噪声调度中大约t ≈ 875(满分1000)处分割:大约1000→875给高噪声专家,875→0给低噪声专家,内部有偏移以保持轨迹上的平衡覆盖。

对于Wan2.2-T2V-A14B LoRA 微调,这意味着:

  • 你通常希望同时训练两个专家,这样你的LoRA就能在整个去噪链上工作——既包括构图/运动,也包括细节/身份。
  • 在较小的GPU上,将两个transformer都保持在VRAM中并在每一步交换它们的代价很高,这就是为什么AI Toolkit提供了Multi-stage面板和Low VRAM + ARA量化 + "Switch Every N steps"选项来以速度换取VRAM。

2. 在哪里训练Wan 2.2 T2V LoRA(本地vs云端)

你可以在两种环境中遵循本教程;AI Toolkit界面是相同的。

选项A – 本地AI Toolkit(你自己的GPU)

  • 从GitHub AI Toolkit仓库安装AI Toolkit并运行web界面。如果你熟悉CUDA/驱动程序并且已经有24GB+ NVIDIA GPU(RTX 4090 / 5090 / A6000等),这是最佳选择。
  • 由于Wan 2.2 14B很重,Mac和24GB以下的GPU通常只适合在512分辨率下的纯图像LoRA(Num Frames = 1)。对于严肃的Wan 2.2 T2V 14B 文生视频 LoRA 训练,你确实需要24GB+和激进的量化。

选项B – RunComfy上的云端AI Toolkit(H100 / H200)

  • 打开RunComfy上的云端AI Toolkit并登录。你会直接进入预装了所有依赖的AI Toolkit界面。
  • 对于Wan 2.2 T2V 14B 文生视频 LoRA 训练,在启动作业时选择H100(80GB)H200(141GB)机器,这样你就可以在更高分辨率下训练长视频。

使用云端的好处:

  • 零配置 – CUDA、驱动程序和模型权重都已配置好。
  • 巨大的VRAM – 你可以在768–1024分辨率下运行33–81帧LoRA,使用合理的batch大小,无需与OOM错误作斗争。
  • 持久工作空间 – 你的数据集、作业和LoRA检查点保存在你的RunComfy账户中,你可以稍后恢复或迭代。

3. Wan 2.2 T2V LoRA的硬件和VRAM预期

Wan 2.2 14B比图像模型或Wan 2.1重得多

  • 1024×102481帧下的官方T2V工作流如果不量化,即使在高端消费级GPU上也可能会OOM。
  • 在1024² / 81帧下的长序列LoRA训练即使在48–96GB服务器卡上也可能需要数小时,尤其是在2–4k步时。
  • 该模型的官方AI Toolkit示例配置(train_lora_wan22_14b_24gb.yaml)针对24GB GPU进行了调优,使用4位ARA量化Num Frames = 1(仅图像)作为安全的默认值。

按VRAM层级的合理心智模型用于Wan 2.2 文本生成视频 LoRA:

层级 示例GPU 舒适范围
24GB"消费级" 4090 / 5090 / A6000 仅图像LoRA(Num Frames = 1)512–768 px,使用4位ARALow VRAM = ON。短视频LoRA(33–41帧 @ 512)可行但缓慢且VRAM紧张。
48–64GB"专业级" 双4090,部分服务器GPU 33–41帧视频LoRA768–1024 px,使用4位ARA和最小卸载。速度、容量和质量的良好平衡。
80–141GB"云端" RunComfy上的H100 / H200 1024²下的81帧训练,Batch Size 1–2,很少或无卸载,使用float8或4位ARA。非常适合严肃的长序列视频LoRA。

4. 构建Wan 2.2 T2V LoRA数据集

Wan T2V LoRA可以在以下内容上训练:

  • 图像 – 作为1帧"视频"处理(Num Frames = 1)。
  • 视频片段 – T2V模型的真正优势;你通常会使用3–8秒的短片段。

4.1 决定你要训练什么类型的LoRA

从三个大类的角度思考,并相应地设计你的数据集:

  1. 角色LoRA(面部/身体/服装)

    目标:保持Wan的通用能力,但注入一个新的人物、头像或服装,你可以通过触发词来调用。使用同一个人的10–30张高质量图像或短片段,具有不同的姿势、背景和光照。避免与基础模型冲突的重滤镜或风格化。在标题中包含一个独特的触发词(例如"zxq-person"),加上对服装、光照和构图的丰富描述,以便LoRA能够干净地学习概念。

  2. 风格LoRA(外观和感觉)

    目标:保持内容灵活,但施加视觉风格(胶片质感、动漫风格、绘画感等)。使用10–40张图像或片段,它们共享相同的外观——一致的颜色、对比度、相机感觉——但主题和场景多样。标题应强调风格词汇,例如"油画,厚重的堆彩,温暖的橙色光照,高对比度",而不是列举具体对象。

  3. 运动/相机LoRA

    目标:教Wan时间行为(环绕、平移、推拉、精灵式循环等)。使用10–30个短片段(约5秒)展示目标运动,理想情况下是在不同主题和环境中的相同类型运动。标题必须明确提到运动关键词,如"环绕主体180度""横向滚动攻击动画""缓慢推镜头聚焦角色",以便模型知道你关心的是什么行为。


4.2 分辨率和宽高比

Wan 2.2 14B T2V是为接近正方形的1024×1024级帧构建的。官方示例使用1024²或接近的变体,具有内部分桶处理较低分辨率。

对于Wan 2.2 T2V 14B 文生视频 LoRA 训练:

  • 24GB GPU上,优先选择512768分辨率桶,并在DATASETS面板中取消勾选1024以节省VRAM。
  • 48GB+ GPU或H100/H200上,你可以同时启用768和1024桶以获得更清晰的结果,特别是对于角色和风格LoRA。

AI Toolkit会将你的视频缩小并分类到所选分辨率中;你主要需要确保源片段是高质量的,没有巨大黑边的信箱化。


4.3 视频片段长度和Num Frames

Wan 2.2在大约16 FPS的5秒片段上进行了预训练,每个训练序列约81帧(遵循4k+1模式)。

DATASETS面板中AI Toolkit的Num Frames字段控制从每个视频中采样多少帧:

  • 对于图像,设置Num Frames = 1 – 每张图像被视为1帧视频。
  • 对于视频,好的选择是:
    • 81 – "完全保真";匹配预训练但非常消耗VRAM。
    • 41 – 大约一半的帧和大约一半的VRAM/时间;对较大GPU是强劲的中间选择。
    • 33 – 一个激进的、对VRAM友好的选项,用于24GB本地训练,结合512 px分辨率。

帧在每个片段中均匀采样,所以你不需要每个视频都正好是5秒。重要的是有用的运动占据片段:修剪掉长的静态开场/结尾,使几乎每个采样帧都包含有意义的运动或身份信号。

帧数通常选择遵循Wan特定的"4n+1"模式(例如9、13、17、21、33、41、81)。坚持这些值往往会产生更稳定的时间行为,因为它与模型的内部窗口化相匹配。


4.4 标题策略

每个片段的标题对于视频LoRA比简单的图像LoRA更重要,特别是对于运动和风格。

  • 对于图像/角色LoRA,目标是10–30张图像或短片段,每个都有包含触发词加描述的标题,例如:

    "[trigger]的肖像,中景,影棚照明,穿皮夹克,35mm镜头"

    在训练时,如果你使用这种模式,AI Toolkit会将[trigger]替换为JOB面板中的实际触发词。

  • 对于运动LoRA,确保运动词出现并在片段之间保持一致,例如:

    "环绕中世纪城堡180度"

    "泰迪熊挥剑的横向滚动攻击动画"

现在,只需确保每个图像或片段要么有一个好的每文件.txt标题,要么你将在DATASETS面板中设置有用的Default Caption。在TRAINING部分,我们将决定是在基于标题的模式(直接使用这些标题)还是在高VRAM设置上的仅触发词模式下运行。


5. 逐步指南:在AI Toolkit中训练Wan 2.2 T2V 14B LoRA

在本节中,我们逐面板浏览AI Toolkit界面,用于Wan 2.2 T2V 14B上的视频LoRA

本指南的基线假设:

  • 你正在以512或768分辨率训练视频LoRA(Num Frames = 33)。
  • 你在24–32GB GPU上,或者在RunComfy上使用Low VRAM技巧运行等效设置。
  • 你的数据集是一个包含视频+标题的Wan T2V数据集文件夹

稍后我们将为H100/H200和更高VRAM层级添加注释。


5.1 JOB面板 – 基本作业元数据

设置高级元数据,以便稍后找到你的作业:

  • Job Name – 简洁的名称,如wan22_t2v_char_zxq_v1wan22_t2v_style_neon_v1。包括模型、任务和简短标识符。
  • Output Directory – AI Toolkit将写入检查点和日志的位置,例如./output/wan22_t2v_char_zxq_v1
  • GPU ID – 在本地安装中,这指向你的物理GPU。在RunComfy云端AI Toolkit上,你可以保留默认值;实际机器类型(H100/H200)稍后在Training Queue中选择。
  • Trigger Word(可选) – 如果你计划使用触发词工作流,将其设置为你的令牌(例如zxqperson)。在标题中你可以写[trigger],AI Toolkit会在加载时将其替换为你的触发词。保持简短和独特,以免与现有令牌冲突。

5.2 MODEL面板 – Wan 2.2 T2V基础模型

为ComfyUI Wan2.2 T2V LoRA 工作流配置基础模型和VRAM相关选项:

  • Model Architecture – 选择Wan 2.2 T2V 14B(或你构建中的等效标签)。
  • Name or Path – 基础检查点的Hugging Face模型ID(repo id),例如:ai-toolkit/Wan2.2-T2V-A14B-Diffusers-bf16

    在大多数AI Toolkit构建中,选择Wan 2.2 T2V 14B自动填充这个值;除非有理由更改,否则保持原样。

    如果你要覆盖,使用Hugging Face repo id格式:org-or-user/model-name(可选org-or-user/model-name@revision)。

  • Low VRAM – 在24–32GB GPU上,设置Low VRAM = ON,以便AI Toolkit可以使用额外的检查点/卸载策略来使训练成为可能。在H100/H200或48GB+上,你可以设置Low VRAM = OFF以获得最大速度。
  • Layer Offloading – 如果你的构建公开了这个选项,你可以在24GB+上保持OFF,除非你仍然遇到OOM。在非常紧张的设置中,它可以将一些层流式传输到CPU RAM,代价是步骤明显变慢。

5.3 QUANTIZATION面板 – 4位ARA + float8文本编码器

量化是使Wan 2.2 T2V 14B 文生视频 LoRA 训练在消费级硬件上变得实用的关键。

  • Transformer – 设置为4bit with ARA。这是带有精度恢复适配器的4位量化;VRAM使用接近纯4位,但质量更接近bf16。
  • Text Encoder – 设置为float8(或qfloat8)。这减少了文本编码器的VRAM和计算,对LoRA训练质量的影响可以忽略不计。

24–32GB GPU上,这种组合是视频LoRA训练能够实现的主要原因。

H100/H200 / 48GB+ GPU上:

  • 你可以保持4bit with ARA,将额外的VRAM用于更高分辨率、更多帧或更高的LoRA rank,这通常会带来更好的回报。
  • 如果你更喜欢更简单的堆栈,你可以将Transformer切换到纯float8选项,同时保持Text Encoder为float8。完全回到bf16通常是不必要的。

5.4 MULTISTAGE面板 – 训练高噪声和低噪声专家

这个面板公开了双专家架构(高噪声vs低噪声transformer)以及训练步骤如何在它们之间分配。

  • Stages to Train – 对于大多数LoRA,设置High Noise = ONLow Noise = ON。这意味着两个专家在训练期间都会更新,因此LoRA会影响早期的构图/运动和后期的细节/身份。
  • Switch Every – 在Low VRAM = ON的24–32GB GPU上,设置Switch Every = 10。这告诉AI Toolkit在切换到另一个专家之前在一个专家上花费多少步。例如,Steps = 3000时:
    • 步骤1–10 → 高噪声专家
    • 步骤11–20 → 低噪声专家
    • …重复直到训练结束。

为什么这很重要:

  • 使用Low VRAM = ON时,AI Toolkit通常一次只在GPU内存中保留一个专家。切换时,它会卸载一个约14B参数的transformer并加载另一个。
  • 如果你设置Switch Every = 1,你会强制每一步都加载/卸载巨大的权重,这非常慢。
  • 使用Switch Every = 10,你仍然能获得大约50/50的高/低噪声覆盖,但只每10步切换一次而不是每步,这样效率高得多。

LoRA类型提示:

  • 对于角色或风格视频LoRA,保持High Noise和Low Noise都ON;构图和细节都很重要。
  • 对于运动/相机LoRA,高噪声对全局运动至关重要。从两个阶段都ON开始,如果你想要非常有针对性的行为,以后再尝试仅高噪声训练。

H100/H200上:

  • 你可以设置Switch Every = 1,因为两个专家都可以驻留在VRAM中,切换开销可以忽略不计。

5.5 TARGET面板 – LoRA rank和容量

这个面板控制你训练什么类型的适配器以及它有多少容量。

  • Target Type – 设置为LoRA
  • Linear Rank – 对于Wan 2.2 T2V,一个好的默认值是16
    • Rank 16保持LoRA小巧,训练快速。
    • 对于512–768分辨率的角色、风格和运动LoRA通常足够。

如果你有一个非常多样化的数据集(许多主题、风格或运动)和足够的VRAM:

  • 你可以将Linear Rank增加到32,给LoRA更多的表达能力。
  • 除非你知道需要那么多容量,否则避免超过64;非常高的rank可能会过拟合,使LoRA更难控制。

H100/H200上,从Rank 16开始,对于复杂的全能LoRA可以增加到32,这是一个合理的范围。


5.6 SAVE面板 – 检查点计划

配置在训练期间保存LoRA检查点的频率:

  • Data Type – 设置为BF16。这与Wan 2.2通常的运行方式匹配,对LoRA权重稳定。
  • Save Every – 设置为250步。对于3000步的运行,这会在整个训练过程中产生12个检查点。
  • Max Step Saves to Keep – 设置为46,这样你不会丢失可能实际上比最后一个看起来更好的早期检查点。

实际上你很少会使用最后一个检查点;许多用户在比较样本后更喜欢2000–3000步范围内的某个检查点。

H100/H200上:

  • 如果你运行很长时间(例如大数据集的5000–6000步),要么保持Save Every = 250并增加Max Step Saves to Keep,要么设置Save Every = 500以限制检查点数量。

5.7 TRAINING面板 – 核心超参数和文本编码器模式

现在我们设置核心训练超参数,然后选择如何处理文本编码器和可选的正则化。

5.7.1 核心训练设置

对于Wan 2.2 T2V上的通用视频LoRA:

  • Batch Size – 在24–32GB上,设置Batch Size = 1。对于T2V,这已经消耗了大量VRAM。在H100/H200上,如果有足够的余量,你可以增加到2
  • Gradient Accumulation – 从1开始。如果VRAM紧张但你想要更大的有效batch,可以设置为2–4;有效batch大小是Batch Size × Gradient Accumulation
  • Steps – 典型范围:
    • 约10–20个片段的小型、聚焦的运动LoRA:1500–2500步
    • 20–50个片段的角色或风格LoRA:2000–3000步
    • 非常大的数据集可以更高,但通常提高数据质量比简单地添加更多步骤更好。
  • Optimizer – 设置Optimizer = AdamW8Bit。8位Adam显著减少VRAM,同时行为类似于标准AdamW。
  • Learning Rate – 设置Learning Rate = 0.0001作为强默认值。如果训练看起来不稳定或样本在步骤之间剧烈振荡,降低到0.00005。如果训练似乎过早平稳,考虑增加步数而不是提高Learning Rate。
  • Loss Type – 保持Mean Squared Error (MSE)。这与Wan的原始训练损失匹配,是标准选择。

Wan 2.2使用flow-matching噪声调度器,AI Toolkit内部处理。在SAMPLE面板中,你也应该使用兼容FlowMatch的采样器,以便预览与训练设置匹配。


5.7.2 Timestep Type和Timestep Bias – LoRA聚焦的位置

这两个字段控制训练期间哪些时间步被强调,以及更新如何在扩散链上分布。

  • Timestep Type – 控制时间步的分布:
    • Linear – 在调度中均匀采样时间步;中立、安全的默认值。
    • Sigmoid / 其他形状模式 – 将训练偏向中/低噪声;有时对角色和详细风格有帮助。
    • Shift / Weighted – 进一步强调噪声调度的特定区域,通常与Timestep Bias结合使用。
  • Timestep Bias – 告诉AI Toolkit强调轨迹的哪个部分:
    • Balanced – 更新大致均匀地分布在高噪声和低噪声之间。
    • Favor High Noise – 偏向早期、噪声大的步骤,强调构图、布局和全局运动。
    • Favor Low Noise – 偏向后期、干净的步骤,强调身份、纹理和微细节。

Wan2.2-T2V-A14B LoRA 微调的推荐组合:

  • 运动/相机LoRA – 设置Timestep Type = LinearTimestep Bias = Balanced作为安全的默认值。

    如果你想要一个真正锁定相机路径的运动LoRA,你可以进一步推向Timestep Bias = Favor High Noise,因为高噪声专家是Wan 2.2决定布局和运动的地方。

  • 风格LoRA – 设置Timestep Type = Linear或ShiftTimestep Bias = Favor High Noise

    风格、调色和"胶片质感"主要存在于轨迹的高噪声/早期部分,因此偏好高噪声让LoRA能够重写全局色调,同时将后期细节主要留给基础模型。

  • 角色LoRA – 设置Timestep Type = Sigmoid(或Linear)Timestep Bias = Balanced

    身份和相似性更多依赖于低噪声专家,但你仍然希望对构图和光照有一些影响。对于非常注重身份的LoRA,你可以尝试稍微偏好低噪声步骤,但Balanced是最安全的默认值。


5.7.3 EMA(指数移动平均)

  • Use EMA – 对于LoRA,EMA是可选的,会增加额外开销。大多数用户对Wan 2.2 LoRA保持OFF,将EMA保留给完整模型训练。除非你知道你想要集成更平滑的权重,否则忽略EMA是安全的。

5.7.4 文本编码器优化 – 标题vs触发词模式

这些开关控制文本编码器是否保持加载以及embedding是否被缓存。

  • Unload TE – 如果设置ON,AI Toolkit会在步骤之间从VRAM中移除文本编码器,依赖于静态embedding(例如触发词),有效地在训练期间关闭动态标题。这节省VRAM但意味着标题不会在每一步重新编码。
  • Cache Text Embeddings – 当设置ON时,AI Toolkit对每个标题运行一次文本编码器,缓存embedding,然后安全地从VRAM中释放文本编码器。这对于在受限VRAM上进行基于标题的训练非常推荐,因为它避免了每步重新编码,但仍然使用你的每个片段的标题。

典型模式:

  • 对于24–32GB基于标题的训练,设置Cache Text Embeddings = ON并保持Unload TE = OFF。这给你提供了带有完整标题信息的高效训练。
  • 对于在非常高VRAM(H100/H200)上的仅触发词训练,你可以设置Unload TE = ON,依赖于单个触发令牌而不是完整标题。

5.7.5 差分输出保持(DOP)

差分输出保持是一种可选的正则化,鼓励LoRA表现得像基础模型的纯残差编辑

  • AI Toolkit渲染两个预测:
    • 一个使用基础模型(无LoRA)
    • 一个使用启用LoRA
  • 它惩罚这些输出之间的差异,除非你明确希望改变(通过你的触发词和标题)。

关键字段:

  • Differential Output Preservation – 主开关。
  • DOP Loss Multiplier – 正则化损失的强度。
  • DOP Preservation Class – 一个类令牌,如personscenelandscape,描述应该保持什么。

用法:

  • 对于风格和角色LoRA,DOP可以帮助保持Wan优秀的基础真实感不变,同时LoRA添加受控的修改。简单配方:
    • Differential Output Preservation = ON
    • DOP Loss Multiplier = 1
    • DOP Preservation Class = 角色LoRA用person,或宽泛风格LoRA用scene / landscape(如果可用)。
  • 对于运动/相机LoRA,你通常需要DOP;行为变化已经是局部的,DOP大约会使计算翻倍。

重要的兼容性说明:

  • DOP通过每步重写提示来工作(在其中一个分支中将你的触发词与保持类交换)。因此,DOP要求文本编码器每步重新编码提示,并且与Cache Text Embeddings不兼容
  • 如果你打开DOP ON:
    • 你必须在JOB面板中设置触发词
    • 你必须保持Cache Text Embeddings = OFF,以便文本编码器保持活动并能够每步重新编码修改后的提示。

H100/H200上,DOP的额外计算成本对于高质量的角色和风格LoRA通常是可以接受的。


5.8 ADVANCED面板 – 差分引导(可选)

如果你的构建公开了带有以下内容的ADVANCED面板:

  • Do Differential Guidance
  • Differential Guidance Scale

你可以将其视为AI-Toolkit特定的额外技巧:

  • 打开Do Differential Guidance = ON并设置Scale = 3告诉模型更多地关注基础和LoRA修改预测之间的差异,在精神上类似于DOP但作为引导项实现。
  • 这可以使有针对性的编辑(例如"霓虹轮廓风格"或"环绕相机行为")更快收敛而不提高Learning Rate
  • 如果样本在训练早期看起来不稳定或太锐利,你可以将scale降低到2。如果学习感觉非常慢,你可以尝试4。

大多数用户可以安全地为他们的第一个Wan 2.2 LoRA保持OFF,熟悉后再进行实验。


5.9 DATASETS面板 – 连接你的Wan T2V数据集

每个Dataset块对应内部datasets:列表中的一个条目。

对于单个Wan T2V数据集:

  • Target Dataset – 选择包含视频和标题的Wan T2V数据集文件夹(例如wan_orbit_clipswan_char_zxq_clips)。
  • LoRA Weight – 设置为1,除非你混合多个数据集并想重新平衡它们。
  • Default Caption – 仅在单个片段没有.txt标题时使用。例如:
    • 角色/风格:"zxqperson的肖像,zxqstyle,电影感光照"
    • 运动:"环绕主体360度,zxq_orbit"
  • Caption Dropout Rate – 像0.05这样的值会为5%的样本丢弃标题,使模型也关注视觉而不是过拟合措辞。

    如果你严重依赖Cache Text Embeddings,这里要保守;当文本编码器活跃且标题可以变化时,caption dropout最有效。

  • Settings → Cache Latents – 对于视频LoRA,这通常是OFF,因为为许多帧缓存VAE latents在磁盘和RAM上很重。保持你的源视频高质量。
  • Settings → Is Regularization – 保持OFF,除非你有专门的正则化数据集。
  • Flipping(Flip X / Flip Y) – 对于大多数视频LoRA,保持两者都OFF
    • 水平翻转可能会破坏左/右运动语义和角色不对称性,
    • 垂直翻转很少适合真实世界的镜头。
  • Resolutions – 启用你希望AI Toolkit分桶的分辨率:
    • 24–32GB上,启用512,如果VRAM允许可选768,并禁用1024+。
    • H100/H200上,你可以启用768和1024以匹配模型的首选工作点。
  • Num Frames – 为基准24–32GB视频LoRA配方设置Num Frames = 33

    33遵循4n+1规则(4·8+1),大约将成本减半(相比完整的81帧训练),同时仍然给出清晰的时间模式。

AI Toolkit将在每个片段的持续时间内均匀采样33帧;你只需要修剪片段,使你关心的运动占据片段的大部分。

H100/H200上,你可以将Num Frames增加到41或81,并将其与768–1024 px桶和Rank 16–32结合,以获得非常强大的长序列LoRA。


5.10 SAMPLE面板 – 预览你的LoRA

SAMPLE面板用于在训练期间或之后生成预览视频。

有用的设置:

  • Num Frames – 大致匹配训练值(例如33或41),以便行为可预测。
  • Sampler / Scheduler – 使用与模型的噪声调度匹配的兼容FlowMatch的采样器
  • Prompt / Negative Prompt – 使用你训练时相同的触发词和概念,这样你可以快速判断LoRA是否在做正确的事情。
  • Guidance Scale – 在训练预览期间,适中的值(例如2–4)是可以的;记住你可能在以后的正常推理工作流中使用不同的值。

在多个检查点(例如每250–500步)生成样本,并保留那些在视觉上平衡强度和稳定性的样本。


6. Wan 2.2 T2V 14B LoRA训练设置

本节总结了三种主要LoRA类型的实用配方

6.1 角色视频LoRA(身份/头像)

目标:在许多提示和场景中保持角色的面部、身体和一般身份

数据集:

  • 角色的10–30个短片段或图像,具有不同的姿势、背景和光照。
  • 标题包含触发词和类别,例如:

    "[trigger]的肖像,年轻女性,休闲服装,影棚照明"

Wan 2.2 T2V 14B 文生视频 LoRA 训练的关键设置:

  • Num Frames – 24GB上为33;H100/H200上为41或81。
  • Resolutions – 512或768;高VRAM上添加1024。
  • Multi-stage – High Noise = ON,Low Noise = ON,Switch Every = 10(本地)或1(云端)。
  • Timestep Type / Bias – Linear(或Sigmoid)与Balanced bias,以捕获构图和低噪声身份细节。
  • Linear Rank – 16(24GB)或16–32(H100/H200)以获得更细微的身份。
  • DOP – 当你想保持基础真实感时,可选择为角色LoRA启用:
    • Differential Output Preservation = ON
    • DOP Loss Multiplier = 1
    • DOP Preservation Class = person
    • Cache Text Embeddings = OFF(DOP工作所需)
  • Steps – 2000–3000,每250–500步检查样本。

6.2 风格视频LoRA(电影感/动漫/调色)

目标:在保持内容灵活的同时施加强烈的视觉风格

数据集:

  • 10–40张图像或片段,在不同主题和场景中共享相同的风格。
  • 标题描述外观(例如胶片质感、笔触、调色板)而不是确切的对象。

Wan 2.2 文本生成视频 LoRA的关键设置:

  • Num Frames – 大多数用例为33–41;大GPU上的5秒片段为81。
  • Resolutions – 24GB上为512–768;高VRAM上为768–1024。
  • Multi-stage – High Noise = ON,Low Noise = ON,Switch Every = 10(本地)或1(云端)。
  • Timestep Type / Bias – Linear或Shift与Timestep Bias = Favor High Noise,以便LoRA可以在构图仍然流动的地方重写全局颜色和对比度。
  • Linear Rank – 简单风格为16;复杂、电影感外观为16–32。
  • DOP – 当你想保持基础真实感时,推荐用于风格LoRA:
    • Differential Output Preservation = ON
    • DOP Loss Multiplier = 1
    • DOP Preservation Class = scene / landscape或类似
    • Cache Text Embeddings = OFF
  • Steps – 1500–2500,当风格看起来强烈但不过度时停止。

6.3 运动/相机LoRA(环绕、平移、推拉移动)

目标:学习可以应用于许多主题的新相机移动或运动模式

数据集:

  • 10–30个3–8秒的片段,每个展示目标运动。
  • 保持运动一致(例如都是环绕180或都是横向滚动),但变化主题和场景。
  • 标题明确说明运动关键词("环绕主体180度""横向滚动攻击动画")。

ComfyUI Wan2.2 T2V LoRA 工作流的关键设置:

  • Num Frames – 24GB上为33,更大GPU上为41–81。
  • Resolutions – 512(如果VRAM允许则768)。
  • Multi-stage – High Noise = ON,Low Noise = ON,Switch Every = 10(本地)或1(云端)。
  • Timestep Type / Bias – Linear与Timestep Bias = Balanced,以便早期构图和后期细化都能看到更新;运动本质上依赖于高噪声。
  • Linear Rank – Rank 16通常足够;运动更多关于行为而不是微小细节。
  • DOP – 通常保持OFF;运动已经是局部的,DOP会使前向传递翻倍。
  • Steps – 1500–2500;观察预览以确保运动能够泛化到你的训练片段之外。

7. 导出和使用你的Wan T2V LoRA

训练完成后,你可以通过两种简单方式使用你的Wan 2.2 T2V 14B LoRA:

  • 模型playground – 打开Wan 2.2 T2V 14B LoRA playground并粘贴你训练的LoRA的URL,快速查看它在基础模型上的表现。
  • ComfyUI工作流 – 启动一个ComfyUI实例并构建你自己的工作流,添加你的LoRA并微调LoRA权重和其他设置以获得更详细的控制。

更多AI Toolkit LoRA训练指南

Ready to start training?