Wan 2.2 T2V 14B LoRA训练指南（文生视频）：Ostris AI Toolkit

Wan 2.2 T2V 14B 文生视频 LoRA 训练让你能够从简单的文本提示生成具有强大动作、细节和相机控制的丰富5秒视频片段。完成本指南后，你将能够：

使用 AI Toolkit 训练 Wan 2.2 T2V 14B LoRA，实现一致的角色、鲜明的风格和动作/相机行为。
在24GB+ NVIDIA GPU（使用4位ARA量化）的本地训练和H100/H200 GPU的云端训练之间做出选择，并了解每个层级能够实际处理什么。
理解Wan的高噪声和低噪声专家如何与Multi-stage、Timestep Type/Bias、Num Frames和分辨率交互，从而控制LoRA在哪里注入变化。
逐面板配置AI Toolkit（JOB、MODEL、QUANTIZATION、MULTISTAGE、TARGET、SAVE、TRAINING、DATASETS、SAMPLE），以便将相同的配方适应不同的LoRA目标和硬件。

本文是AI Toolkit LoRA训练系列的一部分。如果你是Ostris AI Toolkit的新手，请先阅读AI Toolkit LoRA训练概述，然后再深入本指南。

1. Wan 2.2 T2V 14B LoRA训练概述

Wan 2.2是一个开放的文本/视频模型家族，包含三个主要变体：一个5B文本/图像转视频模型和两个14B模型（T2V和I2V）。（Wan 2.2 GitHub）。本指南针对14B文本转视频模型Wan2.2‑T2V‑A14B。

双Transformer"高噪声/低噪声"设计

在底层，Wan 2.2 14B使用混合专家（Mixture-of-Experts）文生视频backbone进行Wan 2.2 T2V 14B 文生视频 LoRA 训练：

高噪声：约14B参数的transformer，处理去噪的早期高噪声部分（粗略构图、全局运动、相机）。
低噪声：约14B参数的transformer，细化接近结束时相对干净的帧（细节、纹理、身份）。

整个模型大约有27B参数，但在每个扩散步骤中只有一个专家（约14B参数）处于活动状态。时间步在噪声调度中大约t ≈ 875（满分1000）处分割：大约1000→875给高噪声专家，875→0给低噪声专家，内部有偏移以保持轨迹上的平衡覆盖。

对于Wan2.2-T2V-A14B LoRA 微调，这意味着：

你通常希望同时训练两个专家，这样你的LoRA就能在整个去噪链上工作——既包括构图/运动，也包括细节/身份。
在较小的GPU上，将两个transformer都保持在VRAM中并在每一步交换它们的代价很高，这就是为什么AI Toolkit提供了Multi-stage面板和Low VRAM + ARA量化 + "Switch Every N steps"选项来以速度换取VRAM。

2. 在哪里训练Wan 2.2 T2V LoRA（本地vs云端）

你可以在两种环境中遵循本教程；AI Toolkit界面是相同的。

选项A – 本地AI Toolkit（你自己的GPU）

从GitHub AI Toolkit仓库安装AI Toolkit并运行web界面。如果你熟悉CUDA/驱动程序并且已经有24GB+ NVIDIA GPU（RTX 4090 / 5090 / A6000等），这是最佳选择。
由于Wan 2.2 14B很重，Mac和24GB以下的GPU通常只适合在512分辨率下的纯图像LoRA（Num Frames = 1）。对于严肃的Wan 2.2 T2V 14B 文生视频 LoRA 训练，你确实需要24GB+和激进的量化。

选项B – RunComfy上的云端AI Toolkit（H100 / H200）

打开RunComfy上的云端AI Toolkit并登录。你会直接进入预装了所有依赖的AI Toolkit界面。
对于Wan 2.2 T2V 14B 文生视频 LoRA 训练，在启动作业时选择H100（80GB）或H200（141GB）机器，这样你就可以在更高分辨率下训练长视频。

使用云端的好处：

零配置 – CUDA、驱动程序和模型权重都已配置好。
巨大的VRAM – 你可以在768–1024分辨率下运行33–81帧LoRA，使用合理的batch大小，无需与OOM错误作斗争。
持久工作空间 – 你的数据集、作业和LoRA检查点保存在你的RunComfy账户中，你可以稍后恢复或迭代。

3. Wan 2.2 T2V LoRA的硬件和VRAM预期

Wan 2.2 14B比图像模型或Wan 2.1重得多：

在1024×1024和81帧下的官方T2V工作流如果不量化，即使在高端消费级GPU上也可能会OOM。
在1024² / 81帧下的长序列LoRA训练即使在48–96GB服务器卡上也可能需要数小时，尤其是在2–4k步时。
该模型的官方AI Toolkit示例配置（train_lora_wan22_14b_24gb.yaml）针对24GB GPU进行了调优，使用4位ARA量化和Num Frames = 1（仅图像）作为安全的默认值。

按VRAM层级的合理心智模型用于Wan 2.2 文本生成视频 LoRA：

层级	示例GPU	舒适范围
24GB"消费级"	4090 / 5090 / A6000	仅图像LoRA（Num Frames = 1）在512–768 px，使用4位ARA和Low VRAM = ON。短视频LoRA（33–41帧 @ 512）可行但缓慢且VRAM紧张。
48–64GB"专业级"	双4090，部分服务器GPU	33–41帧视频LoRA在768–1024 px，使用4位ARA和最小卸载。速度、容量和质量的良好平衡。
80–141GB"云端"	RunComfy上的H100 / H200	1024²下的81帧训练，Batch Size 1–2，很少或无卸载，使用float8或4位ARA。非常适合严肃的长序列视频LoRA。

4. 构建Wan 2.2 T2V LoRA数据集

Wan T2V LoRA可以在以下内容上训练：

图像 – 作为1帧"视频"处理（Num Frames = 1）。
视频片段 – T2V模型的真正优势；你通常会使用3–8秒的短片段。

4.1 决定你要训练什么类型的LoRA

从三个大类的角度思考，并相应地设计你的数据集：

角色LoRA（面部/身体/服装）
目标：保持Wan的通用能力，但注入一个新的人物、头像或服装，你可以通过触发词来调用。使用同一个人的10–30张高质量图像或短片段，具有不同的姿势、背景和光照。避免与基础模型冲突的重滤镜或风格化。在标题中包含一个独特的触发词（例如"zxq-person"），加上对服装、光照和构图的丰富描述，以便LoRA能够干净地学习概念。
风格LoRA（外观和感觉）
目标：保持内容灵活，但施加视觉风格（胶片质感、动漫风格、绘画感等）。使用10–40张图像或片段，它们共享相同的外观——一致的颜色、对比度、相机感觉——但主题和场景多样。标题应强调风格词汇，例如"油画，厚重的堆彩，温暖的橙色光照，高对比度"，而不是列举具体对象。
运动/相机LoRA
目标：教Wan时间行为（环绕、平移、推拉、精灵式循环等）。使用10–30个短片段（约5秒）展示目标运动，理想情况下是在不同主题和环境中的相同类型运动。标题必须明确提到运动关键词，如"环绕主体180度"、"横向滚动攻击动画"或"缓慢推镜头聚焦角色"，以便模型知道你关心的是什么行为。

4.2 分辨率和宽高比

Wan 2.2 14B T2V是为接近正方形的1024×1024级帧构建的。官方示例使用1024²或接近的变体，具有内部分桶处理较低分辨率。

对于Wan 2.2 T2V 14B 文生视频 LoRA 训练：

在24GB GPU上，优先选择512或768分辨率桶，并在DATASETS面板中取消勾选1024以节省VRAM。
在48GB+ GPU或H100/H200上，你可以同时启用768和1024桶以获得更清晰的结果，特别是对于角色和风格LoRA。

AI Toolkit会将你的视频缩小并分类到所选分辨率中；你主要需要确保源片段是高质量的，没有巨大黑边的信箱化。

4.3 视频片段长度和Num Frames

Wan 2.2在大约16 FPS的5秒片段上进行了预训练，每个训练序列约81帧（遵循4k+1模式）。

DATASETS面板中AI Toolkit的Num Frames字段控制从每个视频中采样多少帧：

对于图像，设置Num Frames = 1 – 每张图像被视为1帧视频。
对于视频，好的选择是：

81 – "完全保真"；匹配预训练但非常消耗VRAM。
41 – 大约一半的帧和大约一半的VRAM/时间；对较大GPU是强劲的中间选择。
33 – 一个激进的、对VRAM友好的选项，用于24GB本地训练，结合512 px分辨率。

帧在每个片段中均匀采样，所以你不需要每个视频都正好是5秒。重要的是有用的运动占据片段：修剪掉长的静态开场/结尾，使几乎每个采样帧都包含有意义的运动或身份信号。

帧数通常选择遵循Wan特定的"4n+1"模式（例如9、13、17、21、33、41、81）。坚持这些值往往会产生更稳定的时间行为，因为它与模型的内部窗口化相匹配。

4.4 标题策略

每个片段的标题对于视频LoRA比简单的图像LoRA更重要，特别是对于运动和风格。

对于图像/角色LoRA，目标是10–30张图像或短片段，每个都有包含触发词加描述的标题，例如：
"[trigger]的肖像，中景，影棚照明，穿皮夹克，35mm镜头"。

在训练时，如果你使用这种模式，AI Toolkit会将[trigger]替换为JOB面板中的实际触发词。
对于运动LoRA，确保运动词出现并在片段之间保持一致，例如：
"环绕中世纪城堡180度"，

"泰迪熊挥剑的横向滚动攻击动画"。

现在，只需确保每个图像或片段要么有一个好的每文件.txt标题，要么你将在DATASETS面板中设置有用的Default Caption。在TRAINING部分，我们将决定是在基于标题的模式（直接使用这些标题）还是在高VRAM设置上的仅触发词模式下运行。

5. 逐步指南：在AI Toolkit中训练Wan 2.2 T2V 14B LoRA

在本节中，我们逐面板浏览AI Toolkit界面，用于Wan 2.2 T2V 14B上的视频LoRA。

本指南的基线假设：

你正在以512或768分辨率训练视频LoRA（Num Frames = 33）。
你在24–32GB GPU上，或者在RunComfy上使用Low VRAM技巧运行等效设置。
你的数据集是一个包含视频+标题的Wan T2V数据集文件夹。

稍后我们将为H100/H200和更高VRAM层级添加注释。

5.1 JOB面板 – 基本作业元数据

设置高级元数据，以便稍后找到你的作业：

Job Name – 简洁的名称，如wan22_t2v_char_zxq_v1或wan22_t2v_style_neon_v1。包括模型、任务和简短标识符。
Output Directory – AI Toolkit将写入检查点和日志的位置，例如./output/wan22_t2v_char_zxq_v1。
GPU ID – 在本地安装中，这指向你的物理GPU。在RunComfy云端AI Toolkit上，你可以保留默认值；实际机器类型（H100/H200）稍后在Training Queue中选择。
Trigger Word（可选） – 如果你计划使用触发词工作流，将其设置为你的令牌（例如zxqperson）。在标题中你可以写[trigger]，AI Toolkit会在加载时将其替换为你的触发词。保持简短和独特，以免与现有令牌冲突。

5.2 MODEL面板 – Wan 2.2 T2V基础模型

为ComfyUI Wan2.2 T2V LoRA 工作流配置基础模型和VRAM相关选项：

Model Architecture – 选择Wan 2.2 T2V 14B（或你构建中的等效标签）。
Name or Path – 基础检查点的Hugging Face模型ID（repo id），例如：ai-toolkit/Wan2.2-T2V-A14B-Diffusers-bf16。
在大多数AI Toolkit构建中，选择Wan 2.2 T2V 14B会自动填充这个值；除非有理由更改，否则保持原样。

如果你要覆盖，使用Hugging Face repo id格式：org-or-user/model-name（可选org-or-user/model-name@revision）。
Low VRAM – 在24–32GB GPU上，设置Low VRAM = ON，以便AI Toolkit可以使用额外的检查点/卸载策略来使训练成为可能。在H100/H200或48GB+上，你可以设置Low VRAM = OFF以获得最大速度。
Layer Offloading – 如果你的构建公开了这个选项，你可以在24GB+上保持OFF，除非你仍然遇到OOM。在非常紧张的设置中，它可以将一些层流式传输到CPU RAM，代价是步骤明显变慢。

5.3 QUANTIZATION面板 – 4位ARA + float8文本编码器

量化是使Wan 2.2 T2V 14B 文生视频 LoRA 训练在消费级硬件上变得实用的关键。

Transformer – 设置为4bit with ARA。这是带有精度恢复适配器的4位量化；VRAM使用接近纯4位，但质量更接近bf16。
Text Encoder – 设置为float8（或qfloat8）。这减少了文本编码器的VRAM和计算，对LoRA训练质量的影响可以忽略不计。

在24–32GB GPU上，这种组合是视频LoRA训练能够实现的主要原因。

在H100/H200 / 48GB+ GPU上：

你可以保持4bit with ARA，将额外的VRAM用于更高分辨率、更多帧或更高的LoRA rank，这通常会带来更好的回报。
如果你更喜欢更简单的堆栈，你可以将Transformer切换到纯float8选项，同时保持Text Encoder为float8。完全回到bf16通常是不必要的。

5.4 MULTISTAGE面板 – 训练高噪声和低噪声专家

这个面板公开了双专家架构（高噪声vs低噪声transformer）以及训练步骤如何在它们之间分配。

Stages to Train – 对于大多数LoRA，设置High Noise = ON和Low Noise = ON。这意味着两个专家在训练期间都会更新，因此LoRA会影响早期的构图/运动和后期的细节/身份。
Switch Every – 在Low VRAM = ON的24–32GB GPU上，设置Switch Every = 10。这告诉AI Toolkit在切换到另一个专家之前在一个专家上花费多少步。例如，Steps = 3000时：

步骤1–10 → 高噪声专家
步骤11–20 → 低噪声专家
…重复直到训练结束。

为什么这很重要：

使用Low VRAM = ON时，AI Toolkit通常一次只在GPU内存中保留一个专家。切换时，它会卸载一个约14B参数的transformer并加载另一个。
如果你设置Switch Every = 1，你会强制每一步都加载/卸载巨大的权重，这非常慢。
使用Switch Every = 10，你仍然能获得大约50/50的高/低噪声覆盖，但只每10步切换一次而不是每步，这样效率高得多。

LoRA类型提示：

对于角色或风格视频LoRA，保持High Noise和Low Noise都ON；构图和细节都很重要。
对于运动/相机LoRA，高噪声对全局运动至关重要。从两个阶段都ON开始，如果你想要非常有针对性的行为，以后再尝试仅高噪声训练。

在H100/H200上：

你可以设置Switch Every = 1，因为两个专家都可以驻留在VRAM中，切换开销可以忽略不计。

5.5 TARGET面板 – LoRA rank和容量

这个面板控制你训练什么类型的适配器以及它有多少容量。

Target Type – 设置为LoRA。
Linear Rank – 对于Wan 2.2 T2V，一个好的默认值是16：

Rank 16保持LoRA小巧，训练快速。
对于512–768分辨率的角色、风格和运动LoRA通常足够。

如果你有一个非常多样化的数据集（许多主题、风格或运动）和足够的VRAM：

你可以将Linear Rank增加到32，给LoRA更多的表达能力。
除非你知道需要那么多容量，否则避免超过64；非常高的rank可能会过拟合，使LoRA更难控制。

在H100/H200上，从Rank 16开始，对于复杂的全能LoRA可以增加到32，这是一个合理的范围。

5.6 SAVE面板 – 检查点计划

配置在训练期间保存LoRA检查点的频率：

Data Type – 设置为BF16。这与Wan 2.2通常的运行方式匹配，对LoRA权重稳定。
Save Every – 设置为250步。对于3000步的运行，这会在整个训练过程中产生12个检查点。
Max Step Saves to Keep – 设置为4或6，这样你不会丢失可能实际上比最后一个看起来更好的早期检查点。

实际上你很少会使用最后一个检查点；许多用户在比较样本后更喜欢2000–3000步范围内的某个检查点。

在H100/H200上：

如果你运行很长时间（例如大数据集的5000–6000步），要么保持Save Every = 250并增加Max Step Saves to Keep，要么设置Save Every = 500以限制检查点数量。

5.7 TRAINING面板 – 核心超参数和文本编码器模式

现在我们设置核心训练超参数，然后选择如何处理文本编码器和可选的正则化。

5.7.1 核心训练设置

对于Wan 2.2 T2V上的通用视频LoRA：

Batch Size – 在24–32GB上，设置Batch Size = 1。对于T2V，这已经消耗了大量VRAM。在H100/H200上，如果有足够的余量，你可以增加到2。
Gradient Accumulation – 从1开始。如果VRAM紧张但你想要更大的有效batch，可以设置为2–4；有效batch大小是Batch Size × Gradient Accumulation。
Steps – 典型范围：

约10–20个片段的小型、聚焦的运动LoRA：1500–2500步。
20–50个片段的角色或风格LoRA：2000–3000步。
非常大的数据集可以更高，但通常提高数据质量比简单地添加更多步骤更好。

Optimizer – 设置Optimizer = AdamW8Bit。8位Adam显著减少VRAM，同时行为类似于标准AdamW。
Learning Rate – 设置Learning Rate = 0.0001作为强默认值。如果训练看起来不稳定或样本在步骤之间剧烈振荡，降低到0.00005。如果训练似乎过早平稳，考虑增加步数而不是提高Learning Rate。
Loss Type – 保持Mean Squared Error (MSE)。这与Wan的原始训练损失匹配，是标准选择。

Wan 2.2使用flow-matching噪声调度器，AI Toolkit内部处理。在SAMPLE面板中，你也应该使用兼容FlowMatch的采样器，以便预览与训练设置匹配。

5.7.2 Timestep Type和Timestep Bias – LoRA聚焦的位置

这两个字段控制训练期间哪些时间步被强调，以及更新如何在扩散链上分布。

Timestep Type – 控制时间步的分布：

Linear – 在调度中均匀采样时间步；中立、安全的默认值。
Sigmoid / 其他形状模式 – 将训练偏向中/低噪声；有时对角色和详细风格有帮助。
Shift / Weighted – 进一步强调噪声调度的特定区域，通常与Timestep Bias结合使用。

Timestep Bias – 告诉AI Toolkit强调轨迹的哪个部分：

Balanced – 更新大致均匀地分布在高噪声和低噪声之间。
Favor High Noise – 偏向早期、噪声大的步骤，强调构图、布局和全局运动。
Favor Low Noise – 偏向后期、干净的步骤，强调身份、纹理和微细节。

Wan2.2-T2V-A14B LoRA 微调的推荐组合：

运动/相机LoRA – 设置Timestep Type = Linear和Timestep Bias = Balanced作为安全的默认值。
如果你想要一个真正锁定相机路径的纯运动LoRA，你可以进一步推向Timestep Bias = Favor High Noise，因为高噪声专家是Wan 2.2决定布局和运动的地方。
风格LoRA – 设置Timestep Type = Linear或Shift和Timestep Bias = Favor High Noise。
风格、调色和"胶片质感"主要存在于轨迹的高噪声/早期部分，因此偏好高噪声让LoRA能够重写全局色调，同时将后期细节主要留给基础模型。
角色LoRA – 设置Timestep Type = Sigmoid（或Linear）和Timestep Bias = Balanced。
身份和相似性更多依赖于低噪声专家，但你仍然希望对构图和光照有一些影响。对于非常注重身份的LoRA，你可以尝试稍微偏好低噪声步骤，但Balanced是最安全的默认值。

5.7.3 EMA（指数移动平均）

Use EMA – 对于LoRA，EMA是可选的，会增加额外开销。大多数用户对Wan 2.2 LoRA保持OFF，将EMA保留给完整模型训练。除非你知道你想要集成更平滑的权重，否则忽略EMA是安全的。

5.7.4 文本编码器优化 – 标题vs触发词模式

这些开关控制文本编码器是否保持加载以及embedding是否被缓存。

Unload TE – 如果设置ON，AI Toolkit会在步骤之间从VRAM中移除文本编码器，依赖于静态embedding（例如触发词），有效地在训练期间关闭动态标题。这节省VRAM但意味着标题不会在每一步重新编码。
Cache Text Embeddings – 当设置ON时，AI Toolkit对每个标题运行一次文本编码器，缓存embedding，然后安全地从VRAM中释放文本编码器。这对于在受限VRAM上进行基于标题的训练非常推荐，因为它避免了每步重新编码，但仍然使用你的每个片段的标题。

典型模式：

对于24–32GB基于标题的训练，设置Cache Text Embeddings = ON并保持Unload TE = OFF。这给你提供了带有完整标题信息的高效训练。
对于在非常高VRAM（H100/H200）上的仅触发词训练，你可以设置Unload TE = ON，依赖于单个触发令牌而不是完整标题。

5.7.5 差分输出保持（DOP）

差分输出保持是一种可选的正则化，鼓励LoRA表现得像基础模型的纯残差编辑：

AI Toolkit渲染两个预测：

一个使用基础模型（无LoRA），
一个使用启用LoRA。

它惩罚这些输出之间的差异，除非你明确希望改变（通过你的触发词和标题）。

关键字段：

Differential Output Preservation – 主开关。
DOP Loss Multiplier – 正则化损失的强度。
DOP Preservation Class – 一个类令牌，如person、scene或landscape，描述应该保持什么。

用法：

对于风格和角色LoRA，DOP可以帮助保持Wan优秀的基础真实感不变，同时LoRA添加受控的修改。简单配方：

Differential Output Preservation = ON
DOP Loss Multiplier = 1
DOP Preservation Class = 角色LoRA用person，或宽泛风格LoRA用scene / landscape（如果可用）。

对于运动/相机LoRA，你通常不需要DOP；行为变化已经是局部的，DOP大约会使计算翻倍。

重要的兼容性说明：

DOP通过每步重写提示来工作（在其中一个分支中将你的触发词与保持类交换）。因此，DOP要求文本编码器每步重新编码提示，并且与Cache Text Embeddings不兼容。
如果你打开DOP ON：

你必须在JOB面板中设置触发词，
你必须保持Cache Text Embeddings = OFF，以便文本编码器保持活动并能够每步重新编码修改后的提示。

在H100/H200上，DOP的额外计算成本对于高质量的角色和风格LoRA通常是可以接受的。

5.8 ADVANCED面板 – 差分引导（可选）

如果你的构建公开了带有以下内容的ADVANCED面板：

Do Differential Guidance
Differential Guidance Scale

你可以将其视为AI-Toolkit特定的额外技巧：

打开Do Differential Guidance = ON并设置Scale = 3告诉模型更多地关注基础和LoRA修改预测之间的差异，在精神上类似于DOP但作为引导项实现。
这可以使有针对性的编辑（例如"霓虹轮廓风格"或"环绕相机行为"）更快收敛而不提高Learning Rate。
如果样本在训练早期看起来不稳定或太锐利，你可以将scale降低到2。如果学习感觉非常慢，你可以尝试4。

大多数用户可以安全地为他们的第一个Wan 2.2 LoRA保持OFF，熟悉后再进行实验。

5.9 DATASETS面板 – 连接你的Wan T2V数据集

每个Dataset块对应内部datasets:列表中的一个条目。

对于单个Wan T2V数据集：

Target Dataset – 选择包含视频和标题的Wan T2V数据集文件夹（例如wan_orbit_clips或wan_char_zxq_clips）。
LoRA Weight – 设置为1，除非你混合多个数据集并想重新平衡它们。
Default Caption – 仅在单个片段没有.txt标题时使用。例如：

角色/风格："zxqperson的肖像，zxqstyle，电影感光照"。
运动："环绕主体360度，zxq_orbit"。

Caption Dropout Rate – 像0.05这样的值会为5%的样本丢弃标题，使模型也关注视觉而不是过拟合措辞。
如果你严重依赖Cache Text Embeddings，这里要保守；当文本编码器活跃且标题可以变化时，caption dropout最有效。
Settings → Cache Latents – 对于视频LoRA，这通常是OFF，因为为许多帧缓存VAE latents在磁盘和RAM上很重。保持你的源视频高质量。
Settings → Is Regularization – 保持OFF，除非你有专门的正则化数据集。
Flipping（Flip X / Flip Y） – 对于大多数视频LoRA，保持两者都OFF：

水平翻转可能会破坏左/右运动语义和角色不对称性，
垂直翻转很少适合真实世界的镜头。

Resolutions – 启用你希望AI Toolkit分桶的分辨率：

在24–32GB上，启用512，如果VRAM允许可选768，并禁用1024+。
在H100/H200上，你可以启用768和1024以匹配模型的首选工作点。

Num Frames – 为基准24–32GB视频LoRA配方设置Num Frames = 33。
33遵循4n+1规则（4·8+1），大约将成本减半（相比完整的81帧训练），同时仍然给出清晰的时间模式。

AI Toolkit将在每个片段的持续时间内均匀采样33帧；你只需要修剪片段，使你关心的运动占据片段的大部分。

在H100/H200上，你可以将Num Frames增加到41或81，并将其与768–1024 px桶和Rank 16–32结合，以获得非常强大的长序列LoRA。

5.10 SAMPLE面板 – 预览你的LoRA

SAMPLE面板用于在训练期间或之后生成预览视频。

有用的设置：

Num Frames – 大致匹配训练值（例如33或41），以便行为可预测。
Sampler / Scheduler – 使用与模型的噪声调度匹配的兼容FlowMatch的采样器。
Prompt / Negative Prompt – 使用你训练时相同的触发词和概念，这样你可以快速判断LoRA是否在做正确的事情。
Guidance Scale – 在训练预览期间，适中的值（例如2–4）是可以的；记住你可能在以后的正常推理工作流中使用不同的值。

在多个检查点（例如每250–500步）生成样本，并保留那些在视觉上平衡强度和稳定性的样本。

6. Wan 2.2 T2V 14B LoRA训练设置

本节总结了三种主要LoRA类型的实用配方。

6.1 角色视频LoRA（身份/头像）

目标：在许多提示和场景中保持角色的面部、身体和一般身份。

数据集：

角色的10–30个短片段或图像，具有不同的姿势、背景和光照。
标题包含触发词和类别，例如：
"[trigger]的肖像，年轻女性，休闲服装，影棚照明"。

Wan 2.2 T2V 14B 文生视频 LoRA 训练的关键设置：

Num Frames – 24GB上为33；H100/H200上为41或81。
Resolutions – 512或768；高VRAM上添加1024。
Multi-stage – High Noise = ON，Low Noise = ON，Switch Every = 10（本地）或1（云端）。
Timestep Type / Bias – Linear（或Sigmoid）与Balanced bias，以捕获构图和低噪声身份细节。
Linear Rank – 16（24GB）或16–32（H100/H200）以获得更细微的身份。
DOP – 当你想保持基础真实感时，可选择为角色LoRA启用：

Differential Output Preservation = ON
DOP Loss Multiplier = 1
DOP Preservation Class = person
Cache Text Embeddings = OFF（DOP工作所需）

Steps – 2000–3000，每250–500步检查样本。

6.2 风格视频LoRA（电影感/动漫/调色）

目标：在保持内容灵活的同时施加强烈的视觉风格。

数据集：

10–40张图像或片段，在不同主题和场景中共享相同的风格。
标题描述外观（例如胶片质感、笔触、调色板）而不是确切的对象。

Wan 2.2 文本生成视频 LoRA的关键设置：

Num Frames – 大多数用例为33–41；大GPU上的5秒片段为81。
Resolutions – 24GB上为512–768；高VRAM上为768–1024。
Multi-stage – High Noise = ON，Low Noise = ON，Switch Every = 10（本地）或1（云端）。
Timestep Type / Bias – Linear或Shift与Timestep Bias = Favor High Noise，以便LoRA可以在构图仍然流动的地方重写全局颜色和对比度。
Linear Rank – 简单风格为16；复杂、电影感外观为16–32。
DOP – 当你想保持基础真实感时，推荐用于风格LoRA：

Differential Output Preservation = ON
DOP Loss Multiplier = 1
DOP Preservation Class = scene / landscape或类似
Cache Text Embeddings = OFF

Steps – 1500–2500，当风格看起来强烈但不过度时停止。

6.3 运动/相机LoRA（环绕、平移、推拉移动）

目标：学习可以应用于许多主题的新相机移动或运动模式。

数据集：

10–30个3–8秒的片段，每个展示目标运动。
保持运动一致（例如都是环绕180或都是横向滚动），但变化主题和场景。
标题明确说明运动关键词（"环绕主体180度"，"横向滚动攻击动画"）。

ComfyUI Wan2.2 T2V LoRA 工作流的关键设置：

Num Frames – 24GB上为33，更大GPU上为41–81。
Resolutions – 512（如果VRAM允许则768）。
Multi-stage – High Noise = ON，Low Noise = ON，Switch Every = 10（本地）或1（云端）。
Timestep Type / Bias – Linear与Timestep Bias = Balanced，以便早期构图和后期细化都能看到更新；运动本质上依赖于高噪声。
Linear Rank – Rank 16通常足够；运动更多关于行为而不是微小细节。
DOP – 通常保持OFF；运动已经是局部的，DOP会使前向传递翻倍。
Steps – 1500–2500；观察预览以确保运动能够泛化到你的训练片段之外。

7. 导出和使用你的Wan T2V LoRA

训练完成后，你可以通过两种简单方式使用你的Wan 2.2 T2V 14B LoRA：

Run LoRA – 打开 Wan 2.2 T2V 14B Run LoRA 页面。在这个基础模型的推理页面里，你可以直接选择你在 RunComfy 上训练出来的 LoRA 资产，也可以 import 你用 AI Toolkit 训练好的 LoRA 文件，然后通过 playground 或 API 进行推理。RunComfy 会使用与你训练配置一致的 base model，并复用训练配置里的完整 AI Toolkit pipeline 定义，所以训练时看到什么，推理就得到什么；这种 training/inference 的强对齐能特别保证推理效果与训练采样的一致。
ComfyUI工作流 – 启动一个ComfyUI实例并构建你自己的工作流，添加你的LoRA并微调LoRA权重和其他设置以获得更详细的控制。

OstrisAI-Toolkit

New Training Job

Job

Model

Quantization

Target

Save

Training

Advanced

Datasets

Dataset 1

Sample

目录

1. Wan 2.2 T2V 14B LoRA训练概述

双Transformer"高噪声/低噪声"设计

2. 在哪里训练Wan 2.2 T2V LoRA（本地vs云端）

选项A – 本地AI Toolkit（你自己的GPU）

选项B – RunComfy上的云端AI Toolkit（H100 / H200）

3. Wan 2.2 T2V LoRA的硬件和VRAM预期

4. 构建Wan 2.2 T2V LoRA数据集

4.1 决定你要训练什么类型的LoRA

4.2 分辨率和宽高比

4.3 视频片段长度和Num Frames

4.4 标题策略

5. 逐步指南：在AI Toolkit中训练Wan 2.2 T2V 14B LoRA

5.1 JOB面板 – 基本作业元数据

5.2 MODEL面板 – Wan 2.2 T2V基础模型

5.3 QUANTIZATION面板 – 4位ARA + float8文本编码器

5.4 MULTISTAGE面板 – 训练高噪声和低噪声专家

5.5 TARGET面板 – LoRA rank和容量

5.6 SAVE面板 – 检查点计划

5.7 TRAINING面板 – 核心超参数和文本编码器模式

5.7.1 核心训练设置

5.7.2 Timestep Type和Timestep Bias – LoRA聚焦的位置

5.7.3 EMA（指数移动平均）

5.7.4 文本编码器优化 – 标题vs触发词模式

5.7.5 差分输出保持（DOP）

5.8 ADVANCED面板 – 差分引导（可选）

5.9 DATASETS面板 – 连接你的Wan T2V数据集

5.10 SAMPLE面板 – 预览你的LoRA

6. Wan 2.2 T2V 14B LoRA训练设置

6.1 角色视频LoRA（身份/头像）

6.2 风格视频LoRA（电影感/动漫/调色）

6.3 运动/相机LoRA（环绕、平移、推拉移动）

7. 导出和使用你的Wan T2V LoRA

更多AI Toolkit LoRA训练指南