AI Toolkit LoRA Training Guides

使用Ostris AI Toolkit进行Qwen-Image-Edit-2509 LoRA训练

本教程讲解如何用Ostris AI Toolkit训练Qwen-Image-Edit-2509 LoRA,用于多图、geometry-aware指令编辑。你将学习试穿(try-on)、重打光(relighting)与物体替换(replacement)的三元组数据集构建方法,如何开启3-bit ARA量化与Low VRAM模式,以及如何在不同显存档位(<10GB到H100/H200)下调整DOP(Differential Output Preservation)等关键参数,稳定获得可控的编辑效果。

Train Diffusion Models with Ostris AI Toolkit

水平滚动查看完整表单

Ostris AI ToolkitOstrisAI-Toolkit

New Training Job

Job

Model

Quantization

Target

Save

Training

Datasets

Dataset 1

Sample

Qwen‑Image‑Edit‑2509 是一个 20B 参数的多图编辑模型,能够同时处理最多三张图片(目标图、控制图和设计图),实现精准的几何感知编辑。本指南将手把手教你完成 Qwen Edit 2509 LoRA训练。学完后,你将能够:

  • 使用 AI Toolkit by Ostris 完成 Qwen Edit 2509 LoRA训练,实现可靠的定向编辑任务(比如把任意设计图印到衬衫上)。
  • 本地运行整个 Qwen-Edit-2509 LoRA训练流程(即使 VRAM < 10GB 也能通过层卸载实现),或者在浏览器中使用 RunComfy 云端 AI Toolkit(H100 / H200,80GB / 141GB VRAM)。
  • 深入理解本模型各项关键参数的作用Match Target ResLow VRAM 选项、Transformer/Text Encoder 量化Layer Offloading(层卸载)Cache Text EmbeddingsDifferential Output Preservation(差分输出保留)Differential Guidance(差分引导),以及 Batch SizeStepsLoRA Rank 等核心超参数。
  • 自信地为自己的编辑 LoRA 调参(补光、换装、皮肤、物体替换……)。

如果你想用更新的检查点,追求更强的"一致性优先"编辑效果,请参阅 Qwen 2511 LoRA 训练教程

本文属于 AI Toolkit LoRA 训练系列。如果你是 Ostris AI Toolkit 新手,建议先阅读 AI Toolkit LoRA 训练概述,再深入本指南。

目录

1. Qwen‑Image‑Edit‑2509 概述:这个编辑模型能做什么

Qwen‑Image‑Edit‑2509(常简称 Qwen Edit 2509Qwen Image Edit Plus)是 Qwen‑Image‑Edit 模型的 2025 年 9 月版本,基于 20B Qwen‑Image 基座构建。官方权重可在 Hugging Face 的 Qwen‑Image‑Edit‑2509 模型页面 获取。

相比第一版 Qwen‑Image‑Edit,2509 版主要新增了:

  • 多图编辑 – 模型可同时接收 1–3 张输入图片(例如人物 + 服装 + 姿势,或源照片 + 光照参考)。
  • 图像拼接机制 – 官方 pipeline 会将每张输入图片缩放到约 1 百万像素后一起处理。即使你提供多张控制图,模型看到的像素总量也是固定的。
  • 更强的文字和细节编辑 – 得益于 Qwen2.5-VL 和专用 VAE,对小文字、logo 和精细细节的处理能力大幅提升。

目前社区已有的典型 Qwen Image Edit 2509 LoRA训练应用场景包括:

Qwen‑Image‑Edit 和 Qwen‑Image 基本共用同一个基座。社区测试表明,在 Qwen‑Image 上训练的 LoRA 可兼容 Qwen‑Image‑Edit / 2509,反之亦然——因为适配器挂载在同一个 backbone 上。


2. 环境选择:本地 AI Toolkit vs RunComfy 云端 AI Toolkit

2.1 本地 AI Toolkit(用你自己的 GPU)

AI Toolkit GitHub 仓库 安装 AI Toolkit,然后启动 Web UI。如果你已有 24GB+ 的 NVIDIA 显卡、熟悉 CUDA / 驱动 / 磁盘空间管理,并且不介意让训练跑上一整晚,本地训练是个不错的选择。


2.2 RunComfy 云端 AI Toolkit(H100 / H200)

使用 RunComfy 云端 AI Toolkit,AI Toolkit 完全在云端运行:

  • 无需安装任何东西 – 打开浏览器、登录即可进入 AI Toolkit UI。
  • 可以使用 H100(80GB)H200(141GB) 等大显存 GPU,轻松应对 qwen-image-edit-2509 lora 训练这类重型任务。
  • 拥有持久化工作空间 – 数据集、配置和历史任务都保存在账户中,方便随时回来继续迭代。

👉 点击这里打开:RunComfy 云端 AI Toolkit

本教程后续内容在两种环境中完全相同,唯一区别只是 GPU 所在位置不同。


3. Qwen Edit 2509 LoRA训练的硬件与 VRAM 要求

Qwen‑Image‑Edit‑2509 是一个大模型:

  • 基座模型约 20B 参数
  • 编辑 pipeline 可一次性将 最多 3 × ~1MP 图片 送入 transformer。

官方 32GB 示例配置train_lora_qwen_image_edit_2509_32gb.yaml)下,用户反馈的 VRAM 占用大约是:

  • 1024×1024 训练需要 27–28.5GB VRAM
  • 768×768 训练需要 25–26GB VRAM – 24GB 显卡依然塞不下。

这就是官方示例明确标注为 32GB 配置的原因。不过通过 3-bit ARA 量化 + Low VRAM 模式 + Layer Offloading(RAMTorch),Ostris 演示了可以把 Qwen Edit 2509 LoRA训练的 GPU VRAM 压到 ~8–9GB,代价是需要高 CPU 内存(60GB+)且训练速度会变慢。

级别 环境 示例硬件 实际情况
低 VRAM (~10–12GB) 本地 RTX 3060 12GB、4070 等 必须在 QUANTIZATION 面板中启用量化(基座模型用 3-bit ARA),并开启激进的 Layer Offloading。预计 GPU VRAM 约 8–9GB,CPU 内存 60GB+,中等 CPU 下约 ~10–12s/step。本指南配置(2 个控制流)可顺利训练到 1024×1024;在这一级别把 1024² 视为实际可达的最大分辨率即可。
紧张的 24GB 本地 RTX 3090 / 4090 / 5090 24GB 无法在不卸载的情况下跑官方 32GB Qwen‑Edit LoRA 配置(1024² + 2 控制流峰值约 ~24.7GB VRAM),仍需要借助 Low VRAM 技巧,如 3-bit ARA、梯度检查点和/或部分卸载。2 个控制流时,把 768×768 视为实际可达的最大目标分辨率,除非加卸载。
舒适的 32GB 本地 RTX 4090 32GB、更新显卡 官方 train_lora_qwen_image_edit_32gb.yaml 就是针对这一级别设计的:3-bit ARA 量化、1024² 分辨率桶、中等 LoRA rank,无需卸载。有 32GB 时可以把 1024×1024(含 2–3 控制流)视为常规工作分辨率。
高 VRAM (80–141GB) RunComfy 云端 AI Toolkit H100 80GB / H200 141GB 配置可以保持简单(量化开、卸载关)、使用更大批次(4–8)、默认训练 1024×1024 而不用担心 OOM。这一级别也可尝试稍高分辨率(如 1280–1536px),但 1024² 仍是最安全、测试最充分的目标尺寸。

在 4090 上开启完整卸载,Ostris 的示例约占 9GB VRAM 和约 64GB CPU 内存,跑完约 5k 步需要大约一整天。在 5090 上不卸载,迭代速度大约能快 2–3 倍。


4. 构建 Qwen Edit 2509 LoRA训练数据集

我们将参照 Ostris 的"衬衫设计"示例并加以泛化,方便你适配到其他任务。

4.1 三个逻辑图像流

对于服装设计 LoRA,模型要学会的是:给定一个穿着空白衬衫的人和一张设计图,把这个设计印到他们的衬衫上,同时保留姿势、光照和褶皱。

  • 目标图像(期望结果) – 一个穿着已印好设计衬衫的人。这些就是你希望模型复现的输出。
  • 控制图像(空白衬衫,同一人) – 主体和姿势与目标相同,但没有设计(或穿着纯色衬衫)。这些用于控制几何、褶皱、光照和遮挡(手臂、头发、项链等)。
  • 设计图像 – 中性背景上的设计本身(灰色、黑色或白色)。可以包含几个变体(不同背景颜色)以提高鲁棒性。

Ostris 的示例中,大约 26 组三元组(人物 + 空白衬衫 + 设计)就足以获得非常强的效果——二维码和复杂 logo 都能正确映射到布料上。对于生产级 LoRA,从 20–60 组精心挑选的三元组(目标 + 控制 + 设计)入手是个不错的基准。


4.2 分辨率与宽高比

Qwen‑Image‑Edit‑2509:

  • 内部会把每张输入缩放到约 1MP(例如 1024×1024 或等效分辨率)。
  • 训练图像为正方形或接近正方形(我们这里用 1024×1024),或保持一致的宽高比(如全部 3:4)时效果最佳。

本教程假设使用正方形图像,分桶会比较简单:

  • 目标图、控制图和设计图都约为 1024×1024。AI Toolkit 会根据你在 DATASETS 面板中启用的内容分到 512 / 768 / 1024 桶。

4.3 描述文本

对于这个服装设计 LoRA,我们不用逐图描述,只在数据集级别设置一个默认描述put this design on their shirt

这样做之所以有效,是因为:

  • 语义简单,所有样本都一样。
  • 控制图和设计图本身已携带了大部分关键信息。

对于更复杂的编辑 LoRA(如"像工作室边缘光那样补光"vs"金色时刻"),你应该使用逐图描述来说明期望的编辑效果。


5. 分步教程:在 AI Toolkit 中进行 Qwen Edit 2509 LoRA训练

5.1 第 0 步 – 选择在哪里运行 AI Toolkit

本教程中你可以通过两种方式运行 AI Toolkit:

  • 本地 AI Toolkit(用你自己的 GPU) – 安装 AI Toolkit,启动 Web UI,在本地打开。确保有至少 10–12GB VRAM 的 NVIDIA GPU(推荐 24GB+),以及足够的 CPU 内存(如果要用 Layer Offloading,理想情况下需要 64GB+)。
  • RunComfy 云端 AI Toolkit – 登录 RunComfy 云端 AI Toolkit,直接进入云端运行的 AI Toolkit UI。从 Training Queue 启动任务时,可以选择 H100(80GB)H200(141GB) 机器。

5.2 第 1 步 – 在 AI Toolkit 中创建数据集

在 AI Toolkit UI 中,打开 Datasets 标签页。

创建三个数据集(名称仅供参考):

  • shirt_target
  • shirt_control
  • shirt_design

上传图片,让每个数据集有明确的角色:

  • shirt_target – 20–60 张穿着有设计衬衫的人物照片。
  • shirt_control – 相同的人物和姿势,但没有设计(或穿着空白衬衫)。
  • shirt_design – 简单背景(灰色、黑色或白色)上的正方形设计图像。

如果没有准备好 .txt 描述文件,暂时把逐图描述留空。我们稍后会在任务级别添加一个默认描述

重要配对说明

目标图和控制图应尽量按顺序配对(相同人物、相同姿势)。为保持配对稳定,建议在各文件夹间使用匹配的文件名,使字母顺序对齐,例如:shirt_target/img_0001.jpgshirt_control/img_0001.jpgshirt_design/img_0001.png。每张目标图都应有索引相同的对应控制图和设计图。


5.3 第 2 步 – 创建新任务

打开 New Job 标签页。我们按面板出现的顺序逐一配置。


5.3.1 JOB 面板 – 任务名称、GPU、触发词

  • Training Name – 设置任何描述性名称,例如 qwen_edit2509_shirt_lora_v1。这会成为任务名称和保存检查点的文件夹名。
  • GPU ID – 本地安装时,选择你机器上的 GPU。在 RunComfy 云端 AI Toolkit 中,保持 GPU ID 默认即可。实际机器类型(H100 / H200)在你从 Training Queue 启动任务时选择。
  • Trigger Word – 输入你想在推理时使用的短语,例如:put this design on their shirt。在数据集描述中可以用 [trigger] 作为占位符,AI Toolkit 训练时会自动替换为触发词。一个清晰的触发短语能为 LoRA 提供干净的开关:不含触发词的提示应该接近基础 Qwen‑Image‑Edit‑2509 的行为,尤其是在你启用了后面推荐的 Differential Output Preservation(DOP)的情况下。

5.3.2 MODEL 面板 – 基座模型与 VRAM 选项

  • Model Architecture – 选择 Qwen‑Image‑Edit‑2509
  • Name or Path – 基座检查点的 Hugging Face model id(repo id),例如:Qwen/Qwen-Image-Edit-2509

    大多数 AI Toolkit 版本中,选择 Qwen‑Image‑Edit‑2509自动填充此值;除非有特殊需求,保持原样即可。

    如确实要覆盖,使用 Hugging Face repo id 格式:org-or-user/model-name(可选 org-or-user/model-name@revision)。

Options 中:

  • Low VRAM – 对 ≤ 24GB VRAM 的 GPU 开启。这会在 backbone 内部启用额外的检查点和内存节省技巧,让大型 Qwen 模型更容易塞进显存。
  • Match Target Res – 对 Qwen Edit 2509 LoRA训练任务开启。这会把控制图调整到与目标图相同的分辨率桶(如 768×768 或 1024×1024),保持编辑几何对齐,避免在过大的控制图上浪费 VRAM。
  • Layer Offloading – 把它当作安全阀。如果启用 Low VRAM 和量化后仍遇到 CUDA OOM,在小显存 GPU 上可以开启;这会把部分层卸载到 CPU 内存,代价是步骤变慢。在 24GB+ 或 RunComfy 云端 GPU 上关闭以获得最佳速度。

5.3.3 QUANTIZATION 面板 – 适配大型 transformer

Qwen‑Image‑Edit‑2509 足够大,量化几乎总是个好主意。

  • Transformer – 设为 float8 (default)。在 AI Toolkit 中这通常对应 3-bit ARA 基座加 8-bit "恢复"适配器,你能获得接近 3-bit 模型的 VRAM 占用,同时质量接近全精度。
  • Text Encoder – 同样设为 float8 (default)。文本编码器很大,用 fp8 运行能省下大量 VRAM,质量损失很小。

无需在 UI 中手动配置 ARA 文件;选择 float8 选项就够了。


5.3.4 TARGET 面板 – LoRA 类型和 rank

这个面板告诉 AI Toolkit 你正在训练 LoRA 以及它应该有多大容量。

  • Target Type – 选择 LoRA
  • Linear Rank – 对于 Qwen Edit 2509 LoRA微调,32 是个很好的默认值。它对于"把这个设计印到衬衫上"这类行为足够有表现力,同时训练和加载都很轻量。小显存 GPU 上可以降到 16;更复杂的行为可以试试 48–64(较高 rank 时要密切关注过拟合)。

5.3.5 SAVE 面板 – 检查点类型与频率

  • Data Type – 选择 BF16。Qwen‑Image‑Edit‑2509 通常以 bfloat16 运行,用 BF16 保存 LoRA 权重可保持兼容且体积合理。
  • Save Every250 步是实用的默认值;每 250 个训练步骤保存一个检查点。
  • Max Step Saves to Keep4 保留最后四个检查点,自动删除旧的,防止磁盘被撑爆。

5.3.6 TRAINING 面板 – 核心超参数

TRAINING 面板控制我们对 Qwen‑Image‑Edit‑2509 微调的力度。

对于单数据集 LoRA(768–1024px 的 10–40 张图像)的推荐起始值:

  • Batch Size – 默认设为 1。只在非常大的 GPU(A100 / H100 / H200 级别)上用 2
  • Gradient Accumulation – 从 1 开始。如果想要更大的有效批次而不增加 VRAM,可以把它调到 2–4。有效批次大小 = Batch Size × Gradient Accumulation
  • Steps – 使用 2500–3000。对于约 20–30 组三元组的衬衫设计示例,3000 效果很好。如果数据集很小(<15 张图像),考虑 1500–2200 以避免过拟合。
  • Optimizer – 选择 AdamW8Bit。8-bit Adam 大幅节省内存,行为和标准 AdamW 类似。
  • Learning Rate – 设为 0.0001。如果训练看起来噪声大或不稳定,可降到 0.00005
  • Weight Decay – 设为 0.0001 作为轻度正则化,防止 LoRA 在小数据集上漂移太远。
  • Timestep Type – 设为 Weighted。这会偏向对 Qwen‑Image‑Edit 最重要的噪声级别进行训练。
  • Timestep Bias – 设为 Balanced,是个安全的默认值,不会过度强调非常早或非常晚的时间步。
  • Loss Type – 保持 Mean Squared Error,扩散 / rectified-flow 风格训练的标准选择。
  • EMA(指数移动平均 → Use EMA) – 对 LoRA 关闭。EMA 在训练完整模型时更有用。

5.3.7 正则化和文本编码器部分(TRAINING 面板右侧)

在 TRAINING 面板右侧,你会看到两个重要区域:Text Encoder OptimizationsRegularization

Text Encoder Optimizations

  • Cache Text Embeddings – 对于 Qwen‑Image‑Edit + Differential Output Preservation(DOP),这必须保持关闭。DOP 会在每个批次内部重写提示文本,缓存的嵌入将无法匹配实际提示。当 DOP 关闭且你的描述是静态的时,可以开启 Cache Text Embeddings,一次性编码所有描述,把嵌入存储到磁盘,然后从 VRAM 中释放文本编码器。
  • Unload Text Encoder(Unload TE) – 这是一种特殊的仅触发词模式。开启后,AI Toolkit 只为你的 Trigger WordSample 提示缓存一次嵌入,卸载文本编码器从 VRAM,并忽略所有数据集描述。对于依赖正常描述的 Qwen Image Edit Plus (2509) LoRA训练(特别是当 Differential Output Preservation 开启时),你应该关闭 Unload TE

由于 caption dropout 是通过在训练时随机丢弃描述来实现的,它需要每步都做新的文本编码。如果你启用了 Cache Text Embeddings,应在 DATASETS 面板中把 Caption Dropout Rate = 0(见下文),以避免缓存嵌入和预期 dropout 行为之间的冲突。

Regularization → Differential Output Preservation

  • Differential Output Preservation – 对大多数实际项目开启。这对 Qwen‑Image‑Edit 至关重要:它让基座模型在缺少触发短语时保持正常行为,只在触发词存在时注入你的行为。
  • DOP Loss Multiplier – 开始时保持 1。如果看到太多风格泄漏到非触发提示中,可以稍微调高。
  • DOP Preservation Class – 使用一个描述你最常编辑内容的中性类词。对于以人物为中心的编辑,person 是个好默认值;对于仅产品的编辑,用 productobject 之类的词。

DOP 如何与你的描述和触发词关联:

  • 假设描述是 "[trigger] a person walking down the street, wearing the design on their shirt"
  • Trigger Word = put this design on their shirt
  • DOP Preservation Class = person

AI Toolkit 内部会创建两个提示:

  1. put this design on their shirt a person walking down the street, wearing the design on their shirt – LoRA 路径。
  2. person a person walking down the street, wearing the design on their shirt – 基座模型路径。

LoRA 只在这两者的差异上进行训练。不含触发短语的生成会更接近原版 Qwen‑Image‑Edit‑2509,因为 DOP 明确保留了该行为。

  • Blank Prompt Preservation – 保持关闭,除非你有非常特殊的理由要保留空提示的行为。

5.3.8 ADVANCED 面板 – Differential Guidance

  • Do Differential Guidance开启
  • Differential Guidance Scale – 从 3 开始。

Differential Guidance 是 AI Toolkit 特有的技巧,它会放大 LoRA 看到的误差信号。更大的缩放会让"你这里错了"的信号更响亮,LoRA 通常能更快学会期望的变化,而无需提高学习率。

如果样本在训练早期看起来不稳定或过于"锐利",把它降到 2。如果学习感觉很慢,可以稍后试试 4


5.3.9 DATASETS 面板 – 连接目标图、控制图和设计图

对于 Qwen Edit 2509 LoRA训练,必须提供至少一个目标数据集一个控制数据集

Dataset 1 内:

  • Target Dataset – 选择你的输出 / 编辑后数据集,即代表"应用 LoRA 行为后"的图像。
  • Control Dataset 1 – 选择包含你输入图像的数据集(你想编辑的原始照片)。每个文件应通过名称与目标图像匹配(例如 scene_001.pngscene_001.png)。
  • Control Dataset 2 / 3 – 这些是可选的。对于衬衫 LoRA,把 Control Dataset 2 设为 shirt_design,这样模型会把 logo 或图案视为第二个控制流。除非有额外条件如深度图或关键点,否则控制槽留空即可。
  • LoRA Weight – 保持 1,除非你添加了更多数据集。添加更多数据集时可以在这里重新平衡它们的影响。
  • Default Caption – 如果你的图像已有 .txt 描述,可以留空。否则输入类似:

    "[trigger] put this design on their shirt, full‑body street photo"

    记住:[trigger] 会被 JOB 面板中的触发词替换。

  • Caption Dropout Rate – 当你不缓存文本嵌入时,0.05 是个好的起始值;大约每二十步会忽略描述一次,防止模型过拟合到确切的措辞。如果打算在 TRAINING 面板中开启 Cache Text Embeddings,把 Caption Dropout Rate = 0,因为 dropout 需要每步重新编码描述,无法与缓存嵌入配合使用。
  • Settings → Cache Latents开启。AI Toolkit 会一次性把每张目标图像编码为 VAE latents 并复用,缓存完成后会从 GPU 中移除沉重的 VAE,显著加速训练。
  • Settings → Is Regularization – 对主数据集保持关闭。如果后来添加了第二个纯粹用于正则化图像的数据集(例如通用人物照片),再把那个数据集的 Is Regularization 设为 ON
  • Flipping(Flip X / Flip Y) – 对大多数人物 / 产品 LoRA,两者都保持关闭,除非你确定镜像翻转对你的主题是安全的(Flip X 会镜像衬衫上的任何文字)。
  • Resolutions – 启用你希望 Qwen‑Image‑Edit 训练的桶,例如 5127681024。768 是许多 Qwen LoRA 的甜蜜点;加上 512 和 1024 可以让训练对分辨率变化更鲁棒。

你可以用 Add Dataset 添加额外数据集(例如 LoRA Weight < 1 的正则化数据集),但对于大多数"把这个设计印到衬衫上"的用例,一个包含一个目标 + 一个或两个控制集的 Dataset 1 就足够了。


5.3.10 SAMPLE 面板 – 训练预览

SAMPLE 面板控制训练期间的定期预览。这些样本不影响训练损失,仅用于监控。

  • Sample Every – 设为 250,每 250 步生成一次预览,和检查点计划对齐。
  • Width / Height – 匹配主训练分辨率,例如 1024 × 1024768 × 1024,取决于你的数据集。
  • Seed – 选择一个稳定的种子如 42。可以启用 Walk Seed,让每个预览批次使用连续种子并显示更多变化。
  • Sampler – 选择 FlowMatch(或你版本中的默认 Qwen 采样器)。这应该和 TRAINING 中使用的 FlowMatch scheduler 匹配。
  • Guidance Scale – 预览设为 4。稍后在 ComfyUI 或其他 UI 中推理时,通常会在 3–6 之间尝试。
  • Sample Steps – 约 25 步是预览的质量与速度的好折中。
  • Advanced SamplingSkip First SampleForce First SampleDisable Sampling 都可保持关闭。只有在调试或想要最大速度且完全不要预览时才开启 Disable Sampling
  • Sample Prompts – 添加 4–8 个代表你的 LoRA 真实用例的提示

5.4 第 3 步 – 启动训练并监控

配置完任务后,转到 Training Queue 标签页,选择你的任务,准备运行。

点击 Start / Play,主要关注两件事:

  • GPU VRAM / CPU RAM – 特别是在使用 Layer Offloading 的低 VRAM 显卡上,要密切关注系统 RAM 使用情况。
  • Sample images – 设计应该保持在衬衫上并跟随褶皱和姿势。如果开始渗透到整个图像或颜色变得极端,考虑提前停止或减少总步数。

6. 按 VRAM 级别推荐的 Qwen Edit 2509 LoRA训练配置

如果你只想要一个适用于 24GB 本地 GPU 和所有 H100/H200 云端运行的安全默认值,用第 3–6 节的设置即可:Low VRAM = ONTransformer/Text Encoder 量化 = float8Batch Size = 1LoRA Rank = 32Resolutions = 512 / 768 / 1024Differential Output Preservation = ONCache Text Embeddings = OFF

以下仅列出真正随硬件变化的设置。这里没提到的(Steps、Learning Rate、Optimizer 等)保持前面的推荐即可。


级别 1 – 低 VRAM (~10–12GB 本地)

  • MODEL → Low VRAM开启。启用额外的检查点和重排,让 Qwen‑Image‑Edit‑2509 能塞进 10–12GB 显卡。
  • MODEL → Layer Offloading:如果仍遇到 CUDA OOM,开启。预计 CPU RAM 使用量高(≈60GB+),步骤更慢,但 GPU VRAM 可降到约 8–9GB。
  • QUANTIZATION → Transformer / Text Encoder:两者都设为 float8。在这个使用 Qwen 3-bit ARA 适配器的架构中,float8 是稳定质量的实际最低要求。
  • TRAINING → Batch Size:锁定为 1。如果想要更大的有效批次,增加 Gradient Accumulation 而不是 Batch Size。
  • DATASETS → Resolutions:启用 512768 作为主要桶。如果能接受更慢、更脆弱的运行,可以加上 1024;把 1024×1024 加两个控制流视为这一级别的实际上限。
  • TRAINING → Text Encoder Optimizations / Regularization:如果即使用了 Low VRAM 和 Layer Offloading 仍无法跑 Differential Output Preservation关闭 DOP 并开启 Cache Text Embeddings,这样描述只编码一次,文本编码器从 VRAM 中释放。你会损失一些基座模型保留,但能腾出几 GB 空间。

级别 2 – 紧张的 24GB(3090 / 4090 / 5090 级别)

相比级别 1 可以放松的内容:

  • MODEL → Low VRAM:为安全起见在 24GB 上保持开启;一旦确认你的分辨率和控制设置能舒适塞下,可以尝试关闭
  • MODEL → Layer Offloading:通常关闭。只有在选定的分辨率和控制流数量下仍遇到 OOM 时才启用。
  • QUANTIZATION → Transformer / Text Encoder:两者都保持 float8。在这一级别禁用量化很少有帮助,只会烧掉本可用于分辨率或批次大小的 VRAM。
  • TRAINING → Batch Size1 仍是默认值。如果 Low VRAM 开启且量化保持开启,在 768×768 加两个控制下,Batch Size 2 有时是可行的。
  • DATASETS → Resolutions:启用 5127681024。把 768 视为"总是安全"的桶,1024 视为可能需要 Low VRAM 甚至部分卸载的高端桶。
  • TRAINING → Text Encoder Optimizations / Regularization:通常可以保持 Differential Output Preservation ONCache Text Embeddings OFF,尤其是主要在 768×768 训练时。如果绝对需要在 24GB 显卡上用 1024×1024 且其他调整后仍遇到 OOM,下一个杠杆是关闭 DOP 并开启 Cache Text Embeddings

级别 3 – 舒适的 32GB+ 本地和云端 H100/H200

在 32GB 本地显卡和 80–141GB 云端 GPU(H100 / H200)上,你不再需要和 VRAM 斗争,可以简化配置:

  • MODEL → Low VRAM:可选。在 32GB+ 本地 GPU 和 H100/H200 上可以关闭,获得略快的步骤和更简单的跟踪。
  • MODEL → Layer Offloading:保持关闭。所有 Qwen‑Image‑Edit‑2509 组件都可以驻留在 GPU 上。
  • QUANTIZATION → Transformer / Text Encoder:默认两者都保持 float8。在 H100/H200 上可以尝试禁用 Text Encoder 量化,但这并非获得好质量所必需的,与把这部分 VRAM 用于批次大小或分辨率相比收益很小。
  • TRAINING → Batch Size:在 32GB 本地 GPU 上用 1–2,在 H100/H200 上用 2–4,分辨率为 1024×1024 加两个控制流。
  • TARGET → LoRA Rank32 是舒适的默认值。对于非常复杂的行为(例如多效果编辑 LoRA),可以在 H100/H200 上尝试 48–64,同时注意过拟合。
  • DATASETS → Resolutions:主要在 7681024 训练。通常可以放弃 512,除非你特别关心低分辨率行为。
  • TRAINING → Text Encoder Optimizations / Regularization:默认使用 Differential Output Preservation ONCache Text Embeddings OFF 运行。VRAM 足以让文本编码器驻留,你能获得"有触发词"和"无触发词"行为之间最干净的分离。

7. Qwen Edit 2509 LoRA训练常见问题及解决方法

7.1 数据集配对错误(顺序错误 / 人物不匹配)

症状: 设计出现了,但在错误的位置、错误的人物上,或被扭曲。

检查目标和控制数据集是否对齐:shirt_target/img_0001.jpg 应与 shirt_control/img_0001.jpgshirt_design/img_0001.png 配对,以此类推。如果你手动打乱了图像,保持文件名配对,使字母顺序仍然对齐。


7.2 即使量化后仍然 VRAM OOM

如果你用小目标分辨率(例如 512×512)训练,但控制数据集仍然使用 1024×1024 作为最高桶且 Match Target Res 关闭,每个控制流都会以 1024×1024 编码,而目标只有 512×512。两三个这样的控制流加起来,总 latent 大小会比预期大得多,即使启用量化也很容易遇到 CUDA OOM。

解决方法:

  • 要么在 MODEL 面板中开启 Match Target Res,这样所有控制图会自动调整到与目标相同的分辨率桶(例如目标样本是 512×512 时,它们都变成 512×512),或者
  • 保持 Match Target Res 关闭,但把控制数据集的最高分辨率桶降低到与目标匹配(放弃 1024,坚持 512/768)。

在云端的 H100/H200 上,目标和控制都用 1024×1024 桶也没问题,不太需要依赖这些技巧,但最安全的规则是:当 Match Target Res 禁用时,避免把小目标和非常大的控制混在一起。


7.3 训练永远不收敛 / 看起来是随机的

检查以下内容:

  • TRAINING 面板中,噪声调度器和时间步设置仍对应 FlowMatch。在导出的 YAML 中应该看到 noise_scheduler: "flowmatch",在 SAMPLE 面板中采样器也应该设为 FlowMatch;如果采样器用了不同的调度器,即使 LoRA 正在正确训练,预览也可能看起来像纯噪声。
  • Learning Rate 不要太高。0.0001 是 Qwen Edit 2509 LoRA训练的安全默认值;如果预览在几百步后仍然振荡或非常不稳定,把它降到 0.00005 并从最后一个好的检查点恢复。

7.4 LoRA 过拟合(设计渗透到各处)

可能的解决方法:

  • 减少总 Steps(例如从 5000 降到 3000)。
  • 考虑稍低的 LoRA Rank(16 而不是 32)。
  • 用不同的人物、姿势和光照来丰富数据集。
  • 确保 Differential Output Preservation 已启用,如有需要可以稍微调高 DOP Loss Multiplier,以更强力地保留基础行为。

7.5 环境地狱

典型的本地问题包括 CUDA 版本不匹配、PyTorch 构建错误,或驱动程序与 GPU / 操作系统不匹配。在 RunComfy 云端 AI Toolkit 中这些问题统统消失:AI Toolkit 和依赖项都已预装,你可以直接从 UI 使用配置和数据集开始。

如果你发现修 CUDA 的时间比训练还多,这通常就是把这个任务挪到云端更省事的信号。


8. 训练完成后如何使用你的 Qwen Edit 2509 LoRA

训练完成后,你可以通过两种简单方式使用你的 Qwen Edit 2509 LoRA:

  • 模型 Playground – 打开 Qwen‑Image‑Edit‑2509 LoRA playground,粘贴训练好的 LoRA 的 URL,快速查看它叠加在基座模型上的效果。
  • ComfyUI 工作流 – 启动一个 ComfyUI 实例,自己搭建工作流或加载现有的如 Qwen Edit 2509 MultipleAngles 工作流,在 LoRA 加载器节点中换入你的 LoRA,并微调 LoRA 权重和其他设置以进行更精细的控制。

更多 AI Toolkit LoRA 训练指南

Ready to start training?