Qwen‑Image‑Edit‑2509 是一个 20B 参数的多图编辑模型,能够同时处理最多三张图片(目标图、控制图和设计图),实现精准的几何感知编辑。本指南将手把手教你完成 Qwen Edit 2509 LoRA训练。学完后,你将能够:
- 使用 AI Toolkit by Ostris 完成 Qwen Edit 2509 LoRA训练,实现可靠的定向编辑任务(比如把任意设计图印到衬衫上)。
- 本地运行整个 Qwen-Edit-2509 LoRA训练流程(即使 VRAM < 10GB 也能通过层卸载实现),或者在浏览器中使用 RunComfy 云端 AI Toolkit(H100 / H200,80GB / 141GB VRAM)。
- 深入理解本模型各项关键参数的作用:Match Target Res 与 Low VRAM 选项、Transformer/Text Encoder 量化、Layer Offloading(层卸载)、Cache Text Embeddings、Differential Output Preservation(差分输出保留)、Differential Guidance(差分引导),以及 Batch Size、Steps、LoRA Rank 等核心超参数。
- 自信地为自己的编辑 LoRA 调参(补光、换装、皮肤、物体替换……)。
如果你想用更新的检查点,追求更强的"一致性优先"编辑效果,请参阅 Qwen 2511 LoRA 训练教程。
本文属于 AI Toolkit LoRA 训练系列。如果你是 Ostris AI Toolkit 新手,建议先阅读 AI Toolkit LoRA 训练概述,再深入本指南。
目录
- 1. Qwen‑Image‑Edit‑2509 概述:这个编辑模型能做什么
- 2. 环境选择:本地 AI Toolkit vs RunComfy 云端 AI Toolkit
- 3. Qwen Edit 2509 LoRA训练的硬件与 VRAM 要求
- 4. 构建 Qwen Image Edit 2509 LoRA训练数据集
- 5. 分步教程:在 AI Toolkit 中进行 Qwen Edit 2509 LoRA训练
- 6. 按 VRAM 级别推荐的 Qwen Edit 2509 LoRA训练配置
- 7. Qwen Edit 2509 LoRA训练常见问题及解决方法
- 8. 训练完成后如何使用你的 Qwen Edit 2509 LoRA
1. Qwen‑Image‑Edit‑2509 概述:这个编辑模型能做什么
Qwen‑Image‑Edit‑2509(常简称 Qwen Edit 2509 或 Qwen Image Edit Plus)是 Qwen‑Image‑Edit 模型的 2025 年 9 月版本,基于 20B Qwen‑Image 基座构建。官方权重可在 Hugging Face 的 Qwen‑Image‑Edit‑2509 模型页面 获取。
相比第一版 Qwen‑Image‑Edit,2509 版主要新增了:
- 多图编辑 – 模型可同时接收 1–3 张输入图片(例如人物 + 服装 + 姿势,或源照片 + 光照参考)。
- 图像拼接机制 – 官方 pipeline 会将每张输入图片缩放到约 1 百万像素后一起处理。即使你提供多张控制图,模型看到的像素总量也是固定的。
- 更强的文字和细节编辑 – 得益于 Qwen2.5-VL 和专用 VAE,对小文字、logo 和精细细节的处理能力大幅提升。
目前社区已有的典型 Qwen Image Edit 2509 LoRA训练应用场景包括:
- 换装 / 服装试穿 – Qwen‑Image‑Edit‑2509‑Clothing‑Tryon‑LoRA
- 补光 / 光照优化 – Qwen‑Image‑Edit‑2509‑Relight‑LoRA
- 多效果风格与细节融合 – Qwen‑Image‑Edit‑2509‑Multi‑Effect‑Fusion‑LoRA
- 轻度修复 + 白底图转完整场景 – Qwen‑Image‑Edit‑2509‑White‑Film‑To‑Rendering‑LoRA
- 真人转动漫风格 – Qwen‑Image‑Edit‑2509‑Anime‑Stylization‑LoRA
- 浪漫 / 亲吻姿势编辑 – Qwen‑Image‑Edit‑2509‑Passionate‑Kiss‑LoRA
- 夸张肖像 / 漫画风格 – Qwen‑Image‑Edit‑2509‑Caricature‑LoRA
Qwen‑Image‑Edit 和 Qwen‑Image 基本共用同一个基座。社区测试表明,在 Qwen‑Image 上训练的 LoRA 可兼容 Qwen‑Image‑Edit / 2509,反之亦然——因为适配器挂载在同一个 backbone 上。
2. 环境选择:本地 AI Toolkit vs RunComfy 云端 AI Toolkit
2.1 本地 AI Toolkit(用你自己的 GPU)
从 AI Toolkit GitHub 仓库 安装 AI Toolkit,然后启动 Web UI。如果你已有 24GB+ 的 NVIDIA 显卡、熟悉 CUDA / 驱动 / 磁盘空间管理,并且不介意让训练跑上一整晚,本地训练是个不错的选择。
2.2 RunComfy 云端 AI Toolkit(H100 / H200)
使用 RunComfy 云端 AI Toolkit,AI Toolkit 完全在云端运行:
- 无需安装任何东西 – 打开浏览器、登录即可进入 AI Toolkit UI。
- 可以使用 H100(80GB) 和 H200(141GB) 等大显存 GPU,轻松应对 qwen-image-edit-2509 lora 训练这类重型任务。
- 拥有持久化工作空间 – 数据集、配置和历史任务都保存在账户中,方便随时回来继续迭代。
👉 点击这里打开:RunComfy 云端 AI Toolkit
本教程后续内容在两种环境中完全相同,唯一区别只是 GPU 所在位置不同。
3. Qwen Edit 2509 LoRA训练的硬件与 VRAM 要求
Qwen‑Image‑Edit‑2509 是一个大模型:
- 基座模型约 20B 参数。
- 编辑 pipeline 可一次性将 最多 3 × ~1MP 图片 送入 transformer。
在官方 32GB 示例配置(train_lora_qwen_image_edit_2509_32gb.yaml)下,用户反馈的 VRAM 占用大约是:
- 1024×1024 训练需要 27–28.5GB VRAM。
- 768×768 训练需要 25–26GB VRAM – 24GB 显卡依然塞不下。
这就是官方示例明确标注为 32GB 配置的原因。不过通过 3-bit ARA 量化 + Low VRAM 模式 + Layer Offloading(RAMTorch),Ostris 演示了可以把 Qwen Edit 2509 LoRA训练的 GPU VRAM 压到 ~8–9GB,代价是需要高 CPU 内存(60GB+)且训练速度会变慢。
| 级别 | 环境 | 示例硬件 | 实际情况 |
|---|---|---|---|
| 低 VRAM (~10–12GB) | 本地 | RTX 3060 12GB、4070 等 | 必须在 QUANTIZATION 面板中启用量化(基座模型用 3-bit ARA),并开启激进的 Layer Offloading。预计 GPU VRAM 约 8–9GB,CPU 内存 60GB+,中等 CPU 下约 ~10–12s/step。本指南配置(2 个控制流)可顺利训练到 1024×1024;在这一级别把 1024² 视为实际可达的最大分辨率即可。 |
| 紧张的 24GB | 本地 | RTX 3090 / 4090 / 5090 | 24GB 无法在不卸载的情况下跑官方 32GB Qwen‑Edit LoRA 配置(1024² + 2 控制流峰值约 ~24.7GB VRAM),仍需要借助 Low VRAM 技巧,如 3-bit ARA、梯度检查点和/或部分卸载。2 个控制流时,把 768×768 视为实际可达的最大目标分辨率,除非加卸载。 |
| 舒适的 32GB | 本地 | RTX 4090 32GB、更新显卡 | 官方 train_lora_qwen_image_edit_32gb.yaml 就是针对这一级别设计的:3-bit ARA 量化、1024² 分辨率桶、中等 LoRA rank,无需卸载。有 32GB 时可以把 1024×1024(含 2–3 控制流)视为常规工作分辨率。 |
| 高 VRAM (80–141GB) | RunComfy 云端 AI Toolkit | H100 80GB / H200 141GB | 配置可以保持简单(量化开、卸载关)、使用更大批次(4–8)、默认训练 1024×1024 而不用担心 OOM。这一级别也可尝试稍高分辨率(如 1280–1536px),但 1024² 仍是最安全、测试最充分的目标尺寸。 |
在 4090 上开启完整卸载,Ostris 的示例约占 9GB VRAM 和约 64GB CPU 内存,跑完约 5k 步需要大约一整天。在 5090 上不卸载,迭代速度大约能快 2–3 倍。
4. 构建 Qwen Edit 2509 LoRA训练数据集
我们将参照 Ostris 的"衬衫设计"示例并加以泛化,方便你适配到其他任务。
4.1 三个逻辑图像流
对于服装设计 LoRA,模型要学会的是:给定一个穿着空白衬衫的人和一张设计图,把这个设计印到他们的衬衫上,同时保留姿势、光照和褶皱。
- 目标图像(期望结果) – 一个穿着已印好设计衬衫的人。这些就是你希望模型复现的输出。
- 控制图像(空白衬衫,同一人) – 主体和姿势与目标相同,但没有设计(或穿着纯色衬衫)。这些用于控制几何、褶皱、光照和遮挡(手臂、头发、项链等)。
- 设计图像 – 中性背景上的设计本身(灰色、黑色或白色)。可以包含几个变体(不同背景颜色)以提高鲁棒性。
Ostris 的示例中,大约 26 组三元组(人物 + 空白衬衫 + 设计)就足以获得非常强的效果——二维码和复杂 logo 都能正确映射到布料上。对于生产级 LoRA,从 20–60 组精心挑选的三元组(目标 + 控制 + 设计)入手是个不错的基准。
4.2 分辨率与宽高比
Qwen‑Image‑Edit‑2509:
- 内部会把每张输入缩放到约 1MP(例如 1024×1024 或等效分辨率)。
- 训练图像为正方形或接近正方形(我们这里用 1024×1024),或保持一致的宽高比(如全部 3:4)时效果最佳。
本教程假设使用正方形图像,分桶会比较简单:
- 目标图、控制图和设计图都约为 1024×1024。AI Toolkit 会根据你在 DATASETS 面板中启用的内容分到 512 / 768 / 1024 桶。
4.3 描述文本
对于这个服装设计 LoRA,我们不用逐图描述,只在数据集级别设置一个默认描述:put this design on their shirt
这样做之所以有效,是因为:
- 语义简单,所有样本都一样。
- 控制图和设计图本身已携带了大部分关键信息。
对于更复杂的编辑 LoRA(如"像工作室边缘光那样补光"vs"金色时刻"),你应该使用逐图描述来说明期望的编辑效果。
5. 分步教程:在 AI Toolkit 中进行 Qwen Edit 2509 LoRA训练
5.1 第 0 步 – 选择在哪里运行 AI Toolkit
本教程中你可以通过两种方式运行 AI Toolkit:
- 本地 AI Toolkit(用你自己的 GPU) – 安装 AI Toolkit,启动 Web UI,在本地打开。确保有至少 10–12GB VRAM 的 NVIDIA GPU(推荐 24GB+),以及足够的 CPU 内存(如果要用 Layer Offloading,理想情况下需要 64GB+)。
- RunComfy 云端 AI Toolkit – 登录 RunComfy 云端 AI Toolkit,直接进入云端运行的 AI Toolkit UI。从 Training Queue 启动任务时,可以选择 H100(80GB) 或 H200(141GB) 机器。
5.2 第 1 步 – 在 AI Toolkit 中创建数据集
在 AI Toolkit UI 中,打开 Datasets 标签页。
创建三个数据集(名称仅供参考):
shirt_targetshirt_controlshirt_design
上传图片,让每个数据集有明确的角色:
shirt_target– 20–60 张穿着有设计衬衫的人物照片。shirt_control– 相同的人物和姿势,但没有设计(或穿着空白衬衫)。shirt_design– 简单背景(灰色、黑色或白色)上的正方形设计图像。
如果没有准备好 .txt 描述文件,暂时把逐图描述留空。我们稍后会在任务级别添加一个默认描述。
重要配对说明
目标图和控制图应尽量按顺序配对(相同人物、相同姿势)。为保持配对稳定,建议在各文件夹间使用匹配的文件名,使字母顺序对齐,例如:shirt_target/img_0001.jpg、shirt_control/img_0001.jpg、shirt_design/img_0001.png。每张目标图都应有索引相同的对应控制图和设计图。
5.3 第 2 步 – 创建新任务
打开 New Job 标签页。我们按面板出现的顺序逐一配置。
5.3.1 JOB 面板 – 任务名称、GPU、触发词
- Training Name – 设置任何描述性名称,例如
qwen_edit2509_shirt_lora_v1。这会成为任务名称和保存检查点的文件夹名。 - GPU ID – 本地安装时,选择你机器上的 GPU。在 RunComfy 云端 AI Toolkit 中,保持
GPU ID默认即可。实际机器类型(H100 / H200)在你从 Training Queue 启动任务时选择。 - Trigger Word – 输入你想在推理时使用的短语,例如:
put this design on their shirt。在数据集描述中可以用[trigger]作为占位符,AI Toolkit 训练时会自动替换为触发词。一个清晰的触发短语能为 LoRA 提供干净的开关:不含触发词的提示应该接近基础 Qwen‑Image‑Edit‑2509 的行为,尤其是在你启用了后面推荐的 Differential Output Preservation(DOP)的情况下。
5.3.2 MODEL 面板 – 基座模型与 VRAM 选项
- Model Architecture – 选择
Qwen‑Image‑Edit‑2509。 - Name or Path – 基座检查点的 Hugging Face model id(repo id),例如:
Qwen/Qwen-Image-Edit-2509。大多数 AI Toolkit 版本中,选择
Qwen‑Image‑Edit‑2509会自动填充此值;除非有特殊需求,保持原样即可。如确实要覆盖,使用 Hugging Face repo id 格式:
org-or-user/model-name(可选org-or-user/model-name@revision)。
在 Options 中:
- Low VRAM – 对 ≤ 24GB VRAM 的 GPU 开启。这会在 backbone 内部启用额外的检查点和内存节省技巧,让大型 Qwen 模型更容易塞进显存。
- Match Target Res – 对 Qwen Edit 2509 LoRA训练任务开启。这会把控制图调整到与目标图相同的分辨率桶(如 768×768 或 1024×1024),保持编辑几何对齐,避免在过大的控制图上浪费 VRAM。
- Layer Offloading – 把它当作安全阀。如果启用 Low VRAM 和量化后仍遇到 CUDA OOM,在小显存 GPU 上可以开启;这会把部分层卸载到 CPU 内存,代价是步骤变慢。在 24GB+ 或 RunComfy 云端 GPU 上关闭以获得最佳速度。
5.3.3 QUANTIZATION 面板 – 适配大型 transformer
Qwen‑Image‑Edit‑2509 足够大,量化几乎总是个好主意。
- Transformer – 设为
float8 (default)。在 AI Toolkit 中这通常对应 3-bit ARA 基座加 8-bit "恢复"适配器,你能获得接近 3-bit 模型的 VRAM 占用,同时质量接近全精度。 - Text Encoder – 同样设为
float8 (default)。文本编码器很大,用 fp8 运行能省下大量 VRAM,质量损失很小。
无需在 UI 中手动配置 ARA 文件;选择 float8 选项就够了。
5.3.4 TARGET 面板 – LoRA 类型和 rank
这个面板告诉 AI Toolkit 你正在训练 LoRA 以及它应该有多大容量。
- Target Type – 选择
LoRA。 - Linear Rank – 对于 Qwen Edit 2509 LoRA微调,
32是个很好的默认值。它对于"把这个设计印到衬衫上"这类行为足够有表现力,同时训练和加载都很轻量。小显存 GPU 上可以降到 16;更复杂的行为可以试试 48–64(较高 rank 时要密切关注过拟合)。
5.3.5 SAVE 面板 – 检查点类型与频率
- Data Type – 选择
BF16。Qwen‑Image‑Edit‑2509 通常以 bfloat16 运行,用 BF16 保存 LoRA 权重可保持兼容且体积合理。 - Save Every –
250步是实用的默认值;每 250 个训练步骤保存一个检查点。 - Max Step Saves to Keep –
4保留最后四个检查点,自动删除旧的,防止磁盘被撑爆。
5.3.6 TRAINING 面板 – 核心超参数
TRAINING 面板控制我们对 Qwen‑Image‑Edit‑2509 微调的力度。
对于单数据集 LoRA(768–1024px 的 10–40 张图像)的推荐起始值:
- Batch Size – 默认设为
1。只在非常大的 GPU(A100 / H100 / H200 级别)上用2。 - Gradient Accumulation – 从
1开始。如果想要更大的有效批次而不增加 VRAM,可以把它调到2–4。有效批次大小 =Batch Size × Gradient Accumulation。 - Steps – 使用
2500–3000。对于约 20–30 组三元组的衬衫设计示例,3000效果很好。如果数据集很小(<15 张图像),考虑1500–2200以避免过拟合。 - Optimizer – 选择
AdamW8Bit。8-bit Adam 大幅节省内存,行为和标准 AdamW 类似。 - Learning Rate – 设为
0.0001。如果训练看起来噪声大或不稳定,可降到0.00005。 - Weight Decay – 设为
0.0001作为轻度正则化,防止 LoRA 在小数据集上漂移太远。 - Timestep Type – 设为
Weighted。这会偏向对 Qwen‑Image‑Edit 最重要的噪声级别进行训练。 - Timestep Bias – 设为
Balanced,是个安全的默认值,不会过度强调非常早或非常晚的时间步。 - Loss Type – 保持
Mean Squared Error,扩散 / rectified-flow 风格训练的标准选择。 - EMA(指数移动平均 → Use EMA) – 对 LoRA 关闭。EMA 在训练完整模型时更有用。
5.3.7 正则化和文本编码器部分(TRAINING 面板右侧)
在 TRAINING 面板右侧,你会看到两个重要区域:Text Encoder Optimizations 和 Regularization。
Text Encoder Optimizations
- Cache Text Embeddings – 对于 Qwen‑Image‑Edit + Differential Output Preservation(DOP),这必须保持关闭。DOP 会在每个批次内部重写提示文本,缓存的嵌入将无法匹配实际提示。当 DOP 关闭且你的描述是静态的时,可以开启 Cache Text Embeddings,一次性编码所有描述,把嵌入存储到磁盘,然后从 VRAM 中释放文本编码器。
- Unload Text Encoder(Unload TE) – 这是一种特殊的仅触发词模式。开启后,AI Toolkit 只为你的 Trigger Word 和 Sample 提示缓存一次嵌入,卸载文本编码器从 VRAM,并忽略所有数据集描述。对于依赖正常描述的 Qwen Image Edit Plus (2509) LoRA训练(特别是当 Differential Output Preservation 开启时),你应该关闭 Unload TE。
由于 caption dropout 是通过在训练时随机丢弃描述来实现的,它需要每步都做新的文本编码。如果你启用了 Cache Text Embeddings,应在 DATASETS 面板中把 Caption Dropout Rate = 0(见下文),以避免缓存嵌入和预期 dropout 行为之间的冲突。
Regularization → Differential Output Preservation
- Differential Output Preservation – 对大多数实际项目开启。这对 Qwen‑Image‑Edit 至关重要:它让基座模型在缺少触发短语时保持正常行为,只在触发词存在时注入你的行为。
- DOP Loss Multiplier – 开始时保持
1。如果看到太多风格泄漏到非触发提示中,可以稍微调高。 - DOP Preservation Class – 使用一个描述你最常编辑内容的中性类词。对于以人物为中心的编辑,
person是个好默认值;对于仅产品的编辑,用product或object之类的词。
DOP 如何与你的描述和触发词关联:
- 假设描述是
"[trigger] a person walking down the street, wearing the design on their shirt" - Trigger Word =
put this design on their shirt - DOP Preservation Class =
person
AI Toolkit 内部会创建两个提示:
put this design on their shirt a person walking down the street, wearing the design on their shirt– LoRA 路径。person a person walking down the street, wearing the design on their shirt– 基座模型路径。
LoRA 只在这两者的差异上进行训练。不含触发短语的生成会更接近原版 Qwen‑Image‑Edit‑2509,因为 DOP 明确保留了该行为。
- Blank Prompt Preservation – 保持关闭,除非你有非常特殊的理由要保留空提示的行为。
5.3.8 ADVANCED 面板 – Differential Guidance
- Do Differential Guidance – 开启。
- Differential Guidance Scale – 从
3开始。
Differential Guidance 是 AI Toolkit 特有的技巧,它会放大 LoRA 看到的误差信号。更大的缩放会让"你这里错了"的信号更响亮,LoRA 通常能更快学会期望的变化,而无需提高学习率。
如果样本在训练早期看起来不稳定或过于"锐利",把它降到 2。如果学习感觉很慢,可以稍后试试 4。
5.3.9 DATASETS 面板 – 连接目标图、控制图和设计图
对于 Qwen Edit 2509 LoRA训练,必须提供至少一个目标数据集和一个控制数据集。
在 Dataset 1 内:
- Target Dataset – 选择你的输出 / 编辑后数据集,即代表"应用 LoRA 行为后"的图像。
- Control Dataset 1 – 选择包含你输入图像的数据集(你想编辑的原始照片)。每个文件应通过名称与目标图像匹配(例如
scene_001.png→scene_001.png)。 - Control Dataset 2 / 3 – 这些是可选的。对于衬衫 LoRA,把 Control Dataset 2 设为
shirt_design,这样模型会把 logo 或图案视为第二个控制流。除非有额外条件如深度图或关键点,否则控制槽留空即可。 - LoRA Weight – 保持
1,除非你添加了更多数据集。添加更多数据集时可以在这里重新平衡它们的影响。 - Default Caption – 如果你的图像已有
.txt描述,可以留空。否则输入类似:"[trigger] put this design on their shirt, full‑body street photo"记住:
[trigger]会被 JOB 面板中的触发词替换。 - Caption Dropout Rate – 当你不缓存文本嵌入时,
0.05是个好的起始值;大约每二十步会忽略描述一次,防止模型过拟合到确切的措辞。如果打算在 TRAINING 面板中开启 Cache Text Embeddings,把 Caption Dropout Rate = 0,因为 dropout 需要每步重新编码描述,无法与缓存嵌入配合使用。 - Settings → Cache Latents – 开启。AI Toolkit 会一次性把每张目标图像编码为 VAE latents 并复用,缓存完成后会从 GPU 中移除沉重的 VAE,显著加速训练。
- Settings → Is Regularization – 对主数据集保持关闭。如果后来添加了第二个纯粹用于正则化图像的数据集(例如通用人物照片),再把那个数据集的 Is Regularization 设为 ON。
- Flipping(Flip X / Flip Y) – 对大多数人物 / 产品 LoRA,两者都保持关闭,除非你确定镜像翻转对你的主题是安全的(Flip X 会镜像衬衫上的任何文字)。
- Resolutions – 启用你希望 Qwen‑Image‑Edit 训练的桶,例如
512、768和1024。768 是许多 Qwen LoRA 的甜蜜点;加上 512 和 1024 可以让训练对分辨率变化更鲁棒。
你可以用 Add Dataset 添加额外数据集(例如 LoRA Weight < 1 的正则化数据集),但对于大多数"把这个设计印到衬衫上"的用例,一个包含一个目标 + 一个或两个控制集的 Dataset 1 就足够了。
5.3.10 SAMPLE 面板 – 训练预览
SAMPLE 面板控制训练期间的定期预览。这些样本不影响训练损失,仅用于监控。
- Sample Every – 设为
250,每 250 步生成一次预览,和检查点计划对齐。 - Width / Height – 匹配主训练分辨率,例如
1024 × 1024或768 × 1024,取决于你的数据集。 - Seed – 选择一个稳定的种子如
42。可以启用 Walk Seed,让每个预览批次使用连续种子并显示更多变化。 - Sampler – 选择
FlowMatch(或你版本中的默认 Qwen 采样器)。这应该和 TRAINING 中使用的 FlowMatch scheduler 匹配。 - Guidance Scale – 预览设为
4。稍后在 ComfyUI 或其他 UI 中推理时,通常会在3–6之间尝试。 - Sample Steps – 约
25步是预览的质量与速度的好折中。 - Advanced Sampling – Skip First Sample、Force First Sample 和 Disable Sampling 都可保持关闭。只有在调试或想要最大速度且完全不要预览时才开启 Disable Sampling。
- Sample Prompts – 添加 4–8 个代表你的 LoRA 真实用例的提示
5.4 第 3 步 – 启动训练并监控
配置完任务后,转到 Training Queue 标签页,选择你的任务,准备运行。
点击 Start / Play,主要关注两件事:
- GPU VRAM / CPU RAM – 特别是在使用 Layer Offloading 的低 VRAM 显卡上,要密切关注系统 RAM 使用情况。
- Sample images – 设计应该保持在衬衫上并跟随褶皱和姿势。如果开始渗透到整个图像或颜色变得极端,考虑提前停止或减少总步数。
6. 按 VRAM 级别推荐的 Qwen Edit 2509 LoRA训练配置
如果你只想要一个适用于 24GB 本地 GPU 和所有 H100/H200 云端运行的安全默认值,用第 3–6 节的设置即可:Low VRAM = ON,Transformer/Text Encoder 量化 = float8,Batch Size = 1,LoRA Rank = 32,Resolutions = 512 / 768 / 1024,Differential Output Preservation = ON,Cache Text Embeddings = OFF。
以下仅列出真正随硬件变化的设置。这里没提到的(Steps、Learning Rate、Optimizer 等)保持前面的推荐即可。
级别 1 – 低 VRAM (~10–12GB 本地)
- MODEL → Low VRAM:开启。启用额外的检查点和重排,让 Qwen‑Image‑Edit‑2509 能塞进 10–12GB 显卡。
- MODEL → Layer Offloading:如果仍遇到 CUDA OOM,开启。预计 CPU RAM 使用量高(≈60GB+),步骤更慢,但 GPU VRAM 可降到约 8–9GB。
- QUANTIZATION → Transformer / Text Encoder:两者都设为
float8。在这个使用 Qwen 3-bit ARA 适配器的架构中,float8是稳定质量的实际最低要求。 - TRAINING → Batch Size:锁定为 1。如果想要更大的有效批次,增加 Gradient Accumulation 而不是 Batch Size。
- DATASETS → Resolutions:启用 512 和 768 作为主要桶。如果能接受更慢、更脆弱的运行,可以加上 1024;把 1024×1024 加两个控制流视为这一级别的实际上限。
- TRAINING → Text Encoder Optimizations / Regularization:如果即使用了 Low VRAM 和 Layer Offloading 仍无法跑 Differential Output Preservation,关闭 DOP 并开启 Cache Text Embeddings,这样描述只编码一次,文本编码器从 VRAM 中释放。你会损失一些基座模型保留,但能腾出几 GB 空间。
级别 2 – 紧张的 24GB(3090 / 4090 / 5090 级别)
相比级别 1 可以放松的内容:
- MODEL → Low VRAM:为安全起见在 24GB 上保持开启;一旦确认你的分辨率和控制设置能舒适塞下,可以尝试关闭。
- MODEL → Layer Offloading:通常关闭。只有在选定的分辨率和控制流数量下仍遇到 OOM 时才启用。
- QUANTIZATION → Transformer / Text Encoder:两者都保持
float8。在这一级别禁用量化很少有帮助,只会烧掉本可用于分辨率或批次大小的 VRAM。 - TRAINING → Batch Size:1 仍是默认值。如果 Low VRAM 开启且量化保持开启,在 768×768 加两个控制下,Batch Size 2 有时是可行的。
- DATASETS → Resolutions:启用 512、768 和 1024。把 768 视为"总是安全"的桶,1024 视为可能需要 Low VRAM 甚至部分卸载的高端桶。
- TRAINING → Text Encoder Optimizations / Regularization:通常可以保持 Differential Output Preservation ON 和 Cache Text Embeddings OFF,尤其是主要在 768×768 训练时。如果绝对需要在 24GB 显卡上用 1024×1024 且其他调整后仍遇到 OOM,下一个杠杆是关闭 DOP 并开启 Cache Text Embeddings。
级别 3 – 舒适的 32GB+ 本地和云端 H100/H200
在 32GB 本地显卡和 80–141GB 云端 GPU(H100 / H200)上,你不再需要和 VRAM 斗争,可以简化配置:
- MODEL → Low VRAM:可选。在 32GB+ 本地 GPU 和 H100/H200 上可以关闭,获得略快的步骤和更简单的跟踪。
- MODEL → Layer Offloading:保持关闭。所有 Qwen‑Image‑Edit‑2509 组件都可以驻留在 GPU 上。
- QUANTIZATION → Transformer / Text Encoder:默认两者都保持
float8。在 H100/H200 上可以尝试禁用 Text Encoder 量化,但这并非获得好质量所必需的,与把这部分 VRAM 用于批次大小或分辨率相比收益很小。 - TRAINING → Batch Size:在 32GB 本地 GPU 上用 1–2,在 H100/H200 上用 2–4,分辨率为 1024×1024 加两个控制流。
- TARGET → LoRA Rank:32 是舒适的默认值。对于非常复杂的行为(例如多效果编辑 LoRA),可以在 H100/H200 上尝试 48–64,同时注意过拟合。
- DATASETS → Resolutions:主要在 768 和 1024 训练。通常可以放弃 512,除非你特别关心低分辨率行为。
- TRAINING → Text Encoder Optimizations / Regularization:默认使用 Differential Output Preservation ON 和 Cache Text Embeddings OFF 运行。VRAM 足以让文本编码器驻留,你能获得"有触发词"和"无触发词"行为之间最干净的分离。
7. Qwen Edit 2509 LoRA训练常见问题及解决方法
7.1 数据集配对错误(顺序错误 / 人物不匹配)
症状: 设计出现了,但在错误的位置、错误的人物上,或被扭曲。
检查目标和控制数据集是否对齐:shirt_target/img_0001.jpg 应与 shirt_control/img_0001.jpg 和 shirt_design/img_0001.png 配对,以此类推。如果你手动打乱了图像,保持文件名配对,使字母顺序仍然对齐。
7.2 即使量化后仍然 VRAM OOM
如果你用小目标分辨率(例如 512×512)训练,但控制数据集仍然使用 1024×1024 作为最高桶且 Match Target Res 关闭,每个控制流都会以 1024×1024 编码,而目标只有 512×512。两三个这样的控制流加起来,总 latent 大小会比预期大得多,即使启用量化也很容易遇到 CUDA OOM。
解决方法:
- 要么在 MODEL 面板中开启 Match Target Res,这样所有控制图会自动调整到与目标相同的分辨率桶(例如目标样本是 512×512 时,它们都变成 512×512),或者
- 保持 Match Target Res 关闭,但把控制数据集的最高分辨率桶降低到与目标匹配(放弃 1024,坚持 512/768)。
在云端的 H100/H200 上,目标和控制都用 1024×1024 桶也没问题,不太需要依赖这些技巧,但最安全的规则是:当 Match Target Res 禁用时,避免把小目标和非常大的控制混在一起。
7.3 训练永远不收敛 / 看起来是随机的
检查以下内容:
- 在 TRAINING 面板中,噪声调度器和时间步设置仍对应 FlowMatch。在导出的 YAML 中应该看到
noise_scheduler: "flowmatch",在 SAMPLE 面板中采样器也应该设为 FlowMatch;如果采样器用了不同的调度器,即使 LoRA 正在正确训练,预览也可能看起来像纯噪声。 - Learning Rate 不要太高。
0.0001是 Qwen Edit 2509 LoRA训练的安全默认值;如果预览在几百步后仍然振荡或非常不稳定,把它降到0.00005并从最后一个好的检查点恢复。
7.4 LoRA 过拟合(设计渗透到各处)
可能的解决方法:
- 减少总 Steps(例如从 5000 降到 3000)。
- 考虑稍低的 LoRA Rank(16 而不是 32)。
- 用不同的人物、姿势和光照来丰富数据集。
- 确保 Differential Output Preservation 已启用,如有需要可以稍微调高 DOP Loss Multiplier,以更强力地保留基础行为。
7.5 环境地狱
典型的本地问题包括 CUDA 版本不匹配、PyTorch 构建错误,或驱动程序与 GPU / 操作系统不匹配。在 RunComfy 云端 AI Toolkit 中这些问题统统消失:AI Toolkit 和依赖项都已预装,你可以直接从 UI 使用配置和数据集开始。
如果你发现修 CUDA 的时间比训练还多,这通常就是把这个任务挪到云端更省事的信号。
8. 训练完成后如何使用你的 Qwen Edit 2509 LoRA
训练完成后,你可以通过两种简单方式使用你的 Qwen Edit 2509 LoRA:
- 模型 Playground – 打开 Qwen‑Image‑Edit‑2509 LoRA playground,粘贴训练好的 LoRA 的 URL,快速查看它叠加在基座模型上的效果。
- ComfyUI 工作流 – 启动一个 ComfyUI 实例,自己搭建工作流或加载现有的如 Qwen Edit 2509 MultipleAngles 工作流,在 LoRA 加载器节点中换入你的 LoRA,并微调 LoRA 权重和其他设置以进行更精细的控制。
更多 AI Toolkit LoRA 训练指南
Ready to start training?

