AI Toolkit LoRA Training Guides

使用Ostris AI Toolkit进行LTX-2 LoRA训练

这篇教程讲解如何在Ostris AI Toolkit中训练LTX-2 LoRA:LTX-2的核心差异(原生音视频DiT、19B级检查点)、图像/视频数据集设计与8n+1帧约束、建议的起步参数(rank 32、2000–3000步、LR 1e-4/5e-5)、训练中采样监控,以及VRAM、OOM与过拟合等常见问题的解决思路。

Train Diffusion Models with Ostris AI Toolkit

水平滚动查看完整表单

Ostris AI ToolkitOstrisAI-Toolkit

New Training Job

Job

Model

Quantization

Target

Save

Training

Datasets

Dataset 1

Sample

LTX-2是一个开放权重的Diffusion Transformer(DiT)基础模型,旨在单一模型中生成同步的视频和音频。与"静音"视频模型不同,它被构建为联合音视频系统,使动作和声音能够在时间上对齐。在官方发布中,主要的检查点系列是19B级别(包含可训练的"dev"变体、多个量化变体和加速的蒸馏变体)。

本指南重点介绍使用Ostris AI Toolkit进行LTX-2 LoRA训练。目标是让您快速上手:了解LTX-2擅长什么、准备哪些数据、哪些AI Toolkit设置很重要,以及首次运行时哪些设置是"安全的"。

如果您不想在本地安装AI Toolkit,可以在RunComfy的云GPU(H100 / H200)上通过浏览器运行。

▶ 从这里开始:RunComfy云端AI Toolkit


目录


1. 为什么LTX-2与其他视频LoRA目标表现不同

LTX-2的几个特性直接影响您应该如何进行LTX-2 LoRA训练

  • 音视频是原生的:LTX-2被构建为在一个模型中生成同步的音频和视觉(不是附加功能)。这对于"成片镜头"(对话、环境音、拟音)非常好,但也意味着音频感知微调取决于您的训练器是否真正更新音频路径和跨模态组件(许多第三方训练栈从仅视频微调开始)。
  • 体积大(19B级检查点):您会在VRAM、步骤时间以及"小rank"经常欠拟合这一事实中感受到这一点。官方检查点列表包括:
    • ltx-2-19b-dev(可在bf16下训练),
    • dev量化变体(fp8 / nvfp4),
    • 以及ltx-2-19b-distilled(加速推理,8步,CFG=1)。
  • 严格的形状约束宽度/高度必须能被32整除,且帧数必须能被8+1整除(即8n+1:1、9、17、25、…、121、…)。如果您的输入不匹配,通常需要padding(通常用-1),然后裁剪回目标尺寸/帧数。

2. LTX-2 LoRA最适合的用途

在实践中,进行LTX-2 19B LoRA训练时,这些方向最有价值:

  • 角色/身份LoRA:一致的面部、服装、道具、"品牌角色"外观,以及跨镜头运动的稳定身份。
  • 风格LoRA:艺术指导(光线语言、渲染风格、镜头、胶片质感),同时保持主体灵活。
  • 动作/编舞LoRA:特定的运动模式(行走循环风格、舞蹈风味、生物运动),或"世界如何运动"(手持抖动、动画时序)。
  • 镜头行为LoRA:推拉镜头、摇臂/吊臂感、轨道镜头语言、稳定vs手持。
  • (高级)音频LoRA:一致的环境音调色板、拟音风格或类似声音的特征——仅当您的训练栈支持音频分支微调时

如果您只有图像(没有视频),仍然可以有效地训练身份/风格,但不要期望从单帧学习时间性运动模式。


3. LTX-2 LoRA训练的数据集准备

3.1 选择合适的片段长度+分辨率"预算"

LTX2 LoRA训练的训练成本随空间尺寸和帧数而增加。对于第一个LoRA,保持简单:

  • 身份/风格入门
    • 分辨率:512–768左右(取决于您的GPU)
    • 帧数:49或81(短片段训练更快;仍足以保持时间一致性)
  • 运动/镜头入门
    • 分辨率:512(如有余量可用768)
    • 帧数:121(适合学习运动;24fps下约5秒)

记住约束:帧数必须是8n+1

3.2 视频vs图像数据集(两者都有效)

许多人认为LTX-2 LoRA训练需要纯视频数据集。实际上,大多数实用训练栈可以处理两种:

  • 纯图像数据集(将每个样本视为"1帧片段"),或
  • 视频数据集(短的连贯片段)。

使用AI Toolkit时,通常最简单的方法是保持每个数据集条目同质(全是图像全是视频),如果需要混合模态则使用单独的数据集条目。

  • 对于图像frames = 1满足8n+1
  • 对于视频:使用短的、连贯的片段;避免长的多场景片段。

这对角色工作很重要:您可以用图像启动身份,然后用短片段细化运动。

3.3 需要多少数据(现实规模)?

没有单一的"官方最小值",但这些范围是ltx-2-19b LoRA训练的现实起点:

  • 基于图像的LoRA(身份/道具/风格):从约20–50张干净、多样的图像开始。如果您希望在光线、镜头和构图方面有更强的鲁棒性,50–150张精选图像通常比重复近似重复更有帮助。
  • 基于视频的LoRA(运动/镜头/时间一致性):瞄准约20–60个短的、连贯的片段(单动作镜头),而不是几个长视频。对于更广泛或运动更丰富的目标,扩展到约50–150个短片段(或约10–30分钟的"好"素材)往往会产生明显更稳定的结果。

3.4 描述质量比您想象的更重要

LTX-2对更长、更描述性的描述反应良好,特别是如果您想要可控的结果。如果您的片段包含语音或关键声音提示,请在您的训练栈支持时将它们包含在描述(或转录摘录)中。

实用描述提示:

  • 对于身份LoRA:包含一致的身份标记(并变化其他所有内容:光线、服装、背景、镜头)。
  • 对于风格LoRA:保持风格描述符一致,变化主体/动作。
  • 对于运动LoRA:精确描述动作(节奏、身体力学、镜头运动)。

3.5 正则化是您的"防溢出"工具(当LoRA较窄时使用)

如果您正在训练一个狭窄的概念(一个角色、一个产品),很容易过拟合并得到"一切都看起来像我的数据集"。在AI Toolkit中,Differential Output Preservation(DOP)旨在减少这种漂移,并自然地与"正则化"数据集配合。

简单的正则化集:

  • 与您的主数据集相似构图的通用片段/图像
  • 匹配一般领域的描述(但不是您独特的身份标记)

4. Ostris AI Toolkit的训练理念

AI Toolkit本质上是一个包装在UI中的一致训练引擎:您选择一个模型系列,附加数据集,定义一个LoRA目标+rank,并调整优化+采样。UI面板清晰地映射到底层训练配置:Job、Model、Quantization、Target、Training、Regularization、Datasets、Sample。

这对您意味着:您不需要针对基础操作的模型特定脚本,相同的心智模型(rank/步数/LR/缓存/正则化)适用,但LTX-2的大小和视频性质使某些设置更"敏感"(rank、VRAM优化、帧数)。

如果您是Ostris AI Toolkit新手,请先从AI Toolkit LoRA训练概述开始,以便在调整LTX-2特定设置之前理解UI面板和核心参数:

AI Toolkit LoRA训练概述

如果您在决定在哪里运行:

  • 本地AI Toolkit:如果您已经有兼容的GPU并想完全控制您的环境,这是最好的选择。
  • RunComfy云端AI Toolkit:如果您想跳过设置、在高VRAM GPU上训练并更快迭代、减少"在我的机器上不运行"的问题——特别适用于LTX-2的大型检查点和视频工作负载。▶ 打开RunComfy云端AI Toolkit

5. 分步指南:在AI Toolkit中进行LTX-2 LoRA训练

5.1 在AI Toolkit中创建数据集

Datasets面板/作业的Dataset部分:

  • Target Dataset:您上传的数据集
  • Default Caption:除非需要全局后缀,否则留空
  • Caption Dropout Rate:从约0.05开始(有助于泛化)
  • Cache Latents:如果有足够的磁盘空间则开启(重复时速度大增,但视频latent缓存增长很快)
  • Num Frames
    • 纯图像数据集为1
    • 视频根据目标为49 / 81 / 121
  • Resolutions:从512 + 768启用开始;在验证设置之前避免1024+

如果您正在做一个狭窄的身份LoRA,添加第二个数据集条目并标记为Is Regularization(根据您想要的保留积极程度,保持其权重较低或相等)。

5.2 新Training Job → Model

Model部分:

  • Model ArchitectureLTX-2(如果在您的版本中可用)
  • Name or Path:基础模型的Hugging Face model id(例如Lightricks/LTX-2
  • 检查点选择:为AI Toolkit LTX-2 LoRA训练选择dev检查点:
    • ltx-2-19b-dev是完整模型,可在bf16下训练
    • distilled检查点主要用于快速推理(8步,CFG=1),除非您特别想适应蒸馏行为,否则不是LoRA训练的默认起点。

5.3 量化+VRAM选项

LTX-2很大,所以您经常会使用量化/卸载:

  • 如果您在H100/H200级VRAM上,通常可以更舒适地运行bf16
  • 如果您在24–48 GB GPU上,量化和"Low VRAM"模式变得必不可少。

两个实用说明:

  • LTX-2本身附带完整模型的官方量化变体(fp8 / nvfp4);您能否从这些权重训练取决于您的训练器实现。
  • 另外,8位优化器(例如AdamW8bit)通常用于使消费级硬件上的训练变得实用。

5.4 Target = LoRA + Rank

这是LTX-2 LoRA微调与较小模型不同的地方。

  • Target Type:LoRA
  • Linear Rank:从32开始
    • 许多LTX-2 LoRA训练者报告rank 32是获得可靠结果的实际最小值
    • 如果您有VRAM余量并需要更多容量(复杂风格、多概念),测试64

5.5 训练超参数(可靠的首次运行)

从不会崩溃的值开始:

  • Batch Size:1(视频几乎总是在这里)
  • Gradient Accumulation:如果您想要更稳定的有效批次(并能承担时间),则为2–4
  • Steps
    • 首次运行2000–3000
    • 如果您有更大的数据集或微妙的风格则更长
  • Optimizer:AdamW8bit(VRAM效率的常见选择)
  • Learning Rate:开始时0.0001,如果看到过拟合或身份"烙印"太快则0.00005
  • Weight Decay:~0.0001
  • Timestep Type / Bias:除非知道为什么要更改,否则保持默认
  • DOP / Blank Prompt Preservation:如果看到风格溢出或基础多功能性丧失,启用DOP。

5.6 训练期间采样(不要跳过)

采样是LTX-2 LoRA训练的预警系统。使用它。

  • Sample Every:250步(良好的节奏)
  • Sampler / Scheduler:从您的LTX-2预设默认开始,只在有基线后再实验。
  • Guidance + 步数取决于您采样的检查点
    • 对于dev运行,常见起点是guidance ~4配合25–30采样步数。
    • 对于distilled,发布的行为是8步,CFG=1,所以用guidance = 1steps = 8采样(否则您会困惑"为什么看起来更差?")。
  • Width/Height/Frames:匹配您的训练桶(或代表性目标)

编写与您实际使用相匹配的采样提示:

  • 包含您的触发词(用于身份LoRA)。
  • 如果重要,包含镜头/运动描述符。
  • 保留一个"无聊"的提示来揭示过拟合(简单光线、简单动作)。

6. LTX-2 LoRA训练时间预期

没有通用数字,将运行时间视为实际估计,它可能随帧数/分辨率、卸载/量化选择和采样频率而变化。

现实的心智模型:

  • 帧数通常是最大的杠杆:121 → 81 → 49可能是"这能训练"和"这爬行/OOM"之间的区别。
  • 采样开销如果您经常采样大型视频,可能与训练时间相当。

作为粗略参考:在H100上,使用小型视频数据集(约20个片段,每个3–5秒),batch=1rank=32,启用gradient checkpointing,在768左右的分辨率桶和中等长度的帧桶(例如49–81帧)下,通常看到每训练步个位数秒。您的确切步骤时间将因I/O、缓存以及是否进行音频感知预处理而大不相同。

还要为采样预算:一个"3个提示 × 25步 × 121帧 @ 1024×768"预览每次运行很容易需要分钟。如果您每250步采样一次,该开销会在2000步运行中快速累积。


7. LTX-2 LoRA训练常见问题(及解决方法)

  • 帧数错误:如果您的数据集使用120帧而不是121,您会遇到错误或静默不匹配。坚持8n+1帧数(1、9、17、25、…、49、81、121、…)。
  • 尺寸错误:宽度/高度必须能被32整除。如果您使用的管道不自动填充,请相应地调整大小/分桶。
  • Rank太低:症状是"训练但什么都没变",或即使在LoRA scale 1.0下身份/风格强度也很弱。尝试rank 32。
  • 过拟合/LoRA溢出:您的主体出现在不相关的提示中。启用DOP并添加正则化数据集。
  • 描述太短:提示遵循度崩溃。扩展描述(什么、哪里、镜头、运动、情绪;如果相关还有音频提示/转录)。
  • 蒸馏采样混淆:如果您用25+步或CFG>1采样蒸馏检查点,您没有按预期测试它。对蒸馏预览使用8步,CFG=1
  • VRAM OOM:首先减少帧数(121 → 81 → 49),然后减少分辨率(768 → 512),然后启用卸载/量化/缓存。

8. LTX-2 LoRA训练:快速FAQ

我可以只用图像训练LTX-2 LoRA吗?

可以,使用纯图像数据集并将帧数设为1。非常适合身份和风格。不太适合学习运动。

LoRA训练用dev还是蒸馏检查点?

对于LTX-2 LoRA训练,从ltx-2-19b-dev开始;它被明确描述为在bf16下灵活/可训练。蒸馏检查点主要用于快速推理(8步,CFG=1)。

应该用什么rank?

32开始。这是许多早期LTX-2训练者为"真正学习"而落脚的地方。

为什么我的样本看起来抖动或不一致?

通常是以下组合:对于您的VRAM来说片段太长(强制激进卸载)、描述没有描述运动/镜头,或采样设置与检查点不匹配(特别是将蒸馏当作dev采样)。减少帧数,收紧描述,并将guidance/步数与您采样的检查点对齐。


9. 了解更多:其他AI Toolkit LoRA训练指南

如果您想比较不同模型系列之间的工作流程、数据集和参数权衡,这些指南是很好的参考点:

Ready to start training?