Qwen-Image-Edit-2509 LoRA训练指南：Ostris AI Toolkit（多图编辑）

Qwen‑Image‑Edit‑2509 是一个 20B 参数的多图编辑模型，能够同时处理最多三张图片（目标图、控制图和设计图），实现精准的几何感知编辑。本指南将手把手教你完成 Qwen Edit 2509 LoRA训练。学完后，你将能够：

使用 AI Toolkit by Ostris 完成 Qwen Edit 2509 LoRA训练，实现可靠的定向编辑任务（比如把任意设计图印到衬衫上）。
本地运行整个 Qwen-Edit-2509 LoRA训练流程（即使 VRAM < 10GB 也能通过层卸载实现），或者在浏览器中使用 RunComfy 云端 AI Toolkit（H100 / H200，80GB / 141GB VRAM）。
深入理解本模型各项关键参数的作用：Match Target Res 与 Low VRAM 选项、Transformer/Text Encoder 量化、Layer Offloading（层卸载）、Cache Text Embeddings、Differential Output Preservation（差分输出保留）、Differential Guidance（差分引导），以及 Batch Size、Steps、LoRA Rank 等核心超参数。
自信地为自己的编辑 LoRA 调参（补光、换装、皮肤、物体替换……）。

如果你想用更新的检查点，追求更强的"一致性优先"编辑效果，请参阅 Qwen 2511 LoRA 训练教程。

本文属于 AI Toolkit LoRA 训练系列。如果你是 Ostris AI Toolkit 新手，建议先阅读 AI Toolkit LoRA 训练概述，再深入本指南。

1. Qwen‑Image‑Edit‑2509 概述：这个编辑模型能做什么
2. 环境选择：本地 AI Toolkit vs RunComfy 云端 AI Toolkit
3. Qwen Edit 2509 LoRA训练的硬件与 VRAM 要求
4. 构建 Qwen Image Edit 2509 LoRA训练数据集
5. 分步教程：在 AI Toolkit 中进行 Qwen Edit 2509 LoRA训练
6. 按 VRAM 级别推荐的 Qwen Edit 2509 LoRA训练配置
7. Qwen Edit 2509 LoRA训练常见问题及解决方法
8. 训练完成后如何使用你的 Qwen Edit 2509 LoRA

1. Qwen‑Image‑Edit‑2509 概述：这个编辑模型能做什么

Qwen‑Image‑Edit‑2509（常简称 Qwen Edit 2509 或 Qwen Image Edit Plus）是 Qwen‑Image‑Edit 模型的 2025 年 9 月版本，基于 20B Qwen‑Image 基座构建。官方权重可在 Hugging Face 的 Qwen‑Image‑Edit‑2509 模型页面获取。

相比第一版 Qwen‑Image‑Edit，2509 版主要新增了：

多图编辑 – 模型可同时接收 1–3 张输入图片（例如人物 + 服装 + 姿势，或源照片 + 光照参考）。
图像拼接机制 – 官方 pipeline 会将每张输入图片缩放到约 1 百万像素后一起处理。即使你提供多张控制图，模型看到的像素总量也是固定的。
更强的文字和细节编辑 – 得益于 Qwen2.5-VL 和专用 VAE，对小文字、logo 和精细细节的处理能力大幅提升。

目前社区已有的典型 Qwen Image Edit 2509 LoRA训练应用场景包括：

换装 / 服装试穿 – Qwen‑Image‑Edit‑2509‑Clothing‑Tryon‑LoRA
补光 / 光照优化 – Qwen‑Image‑Edit‑2509‑Relight‑LoRA
多效果风格与细节融合 – Qwen‑Image‑Edit‑2509‑Multi‑Effect‑Fusion‑LoRA
轻度修复 + 白底图转完整场景 – Qwen‑Image‑Edit‑2509‑White‑Film‑To‑Rendering‑LoRA
真人转动漫风格 – Qwen‑Image‑Edit‑2509‑Anime‑Stylization‑LoRA
浪漫 / 亲吻姿势编辑 – Qwen‑Image‑Edit‑2509‑Passionate‑Kiss‑LoRA
夸张肖像 / 漫画风格 – Qwen‑Image‑Edit‑2509‑Caricature‑LoRA

Qwen‑Image‑Edit 和 Qwen‑Image 基本共用同一个基座。社区测试表明，在 Qwen‑Image 上训练的 LoRA 可兼容 Qwen‑Image‑Edit / 2509，反之亦然——因为适配器挂载在同一个 backbone 上。

2. 环境选择：本地 AI Toolkit vs RunComfy 云端 AI Toolkit

2.1 本地 AI Toolkit（用你自己的 GPU）

从 AI Toolkit GitHub 仓库安装 AI Toolkit，然后启动 Web UI。如果你已有 24GB+ 的 NVIDIA 显卡、熟悉 CUDA / 驱动 / 磁盘空间管理，并且不介意让训练跑上一整晚，本地训练是个不错的选择。

2.2 RunComfy 云端 AI Toolkit（H100 / H200）

使用 RunComfy 云端 AI Toolkit，AI Toolkit 完全在云端运行：

无需安装任何东西 – 打开浏览器、登录即可进入 AI Toolkit UI。
可以使用 H100（80GB） 和 H200（141GB） 等大显存 GPU，轻松应对 qwen-image-edit-2509 lora 训练这类重型任务。
拥有持久化工作空间 – 数据集、配置和历史任务都保存在账户中，方便随时回来继续迭代。

👉 点击这里打开：RunComfy 云端 AI Toolkit

本教程后续内容在两种环境中完全相同，唯一区别只是 GPU 所在位置不同。

3. Qwen Edit 2509 LoRA训练的硬件与 VRAM 要求

Qwen‑Image‑Edit‑2509 是一个大模型：

基座模型约 20B 参数。
编辑 pipeline 可一次性将 最多 3 × ~1MP 图片 送入 transformer。

在官方 32GB 示例配置（train_lora_qwen_image_edit_2509_32gb.yaml）下，用户反馈的 VRAM 占用大约是：

1024×1024 训练需要 27–28.5GB VRAM。
768×768 训练需要 25–26GB VRAM – 24GB 显卡依然塞不下。

这就是官方示例明确标注为 32GB 配置的原因。不过通过 3-bit ARA 量化 + Low VRAM 模式 + Layer Offloading（RAMTorch），Ostris 演示了可以把 Qwen Edit 2509 LoRA训练的 GPU VRAM 压到 ~8–9GB，代价是需要高 CPU 内存（60GB+）且训练速度会变慢。

级别	环境	示例硬件	实际情况
低 VRAM (~10–12GB)	本地	RTX 3060 12GB、4070 等	必须在 QUANTIZATION 面板中启用量化（基座模型用 3-bit ARA），并开启激进的 Layer Offloading。预计 GPU VRAM 约 8–9GB，CPU 内存 60GB+，中等 CPU 下约 ~10–12s/step。本指南配置（2 个控制流）可顺利训练到 1024×1024；在这一级别把 1024² 视为实际可达的最大分辨率即可。
紧张的 24GB	本地	RTX 3090 / 4090 / 5090	24GB 无法在不卸载的情况下跑官方 32GB Qwen‑Edit LoRA 配置（1024² + 2 控制流峰值约 ~24.7GB VRAM），仍需要借助 Low VRAM 技巧，如 3-bit ARA、梯度检查点和/或部分卸载。2 个控制流时，把 768×768 视为实际可达的最大目标分辨率，除非加卸载。
舒适的 32GB	本地	RTX 4090 32GB、更新显卡	官方 `train_lora_qwen_image_edit_32gb.yaml` 就是针对这一级别设计的：3-bit ARA 量化、1024² 分辨率桶、中等 LoRA rank，无需卸载。有 32GB 时可以把 1024×1024（含 2–3 控制流）视为常规工作分辨率。
高 VRAM (80–141GB)	RunComfy 云端 AI Toolkit	H100 80GB / H200 141GB	配置可以保持简单（量化开、卸载关）、使用更大批次（4–8）、默认训练 1024×1024 而不用担心 OOM。这一级别也可尝试稍高分辨率（如 1280–1536px），但 1024² 仍是最安全、测试最充分的目标尺寸。

在 4090 上开启完整卸载，Ostris 的示例约占 9GB VRAM 和约 64GB CPU 内存，跑完约 5k 步需要大约一整天。在 5090 上不卸载，迭代速度大约能快 2–3 倍。

4. 构建 Qwen Edit 2509 LoRA训练数据集

我们将参照 Ostris 的"衬衫设计"示例并加以泛化，方便你适配到其他任务。

4.1 三个逻辑图像流

对于服装设计 LoRA，模型要学会的是：给定一个穿着空白衬衫的人和一张设计图，把这个设计印到他们的衬衫上，同时保留姿势、光照和褶皱。

目标图像（期望结果） – 一个穿着已印好设计衬衫的人。这些就是你希望模型复现的输出。
控制图像（空白衬衫，同一人） – 主体和姿势与目标相同，但没有设计（或穿着纯色衬衫）。这些用于控制几何、褶皱、光照和遮挡（手臂、头发、项链等）。
设计图像 – 中性背景上的设计本身（灰色、黑色或白色）。可以包含几个变体（不同背景颜色）以提高鲁棒性。

Ostris 的示例中，大约 26 组三元组（人物 + 空白衬衫 + 设计）就足以获得非常强的效果——二维码和复杂 logo 都能正确映射到布料上。对于生产级 LoRA，从 20–60 组精心挑选的三元组（目标 + 控制 + 设计）入手是个不错的基准。

4.2 分辨率与宽高比

Qwen‑Image‑Edit‑2509：

内部会把每张输入缩放到约 1MP（例如 1024×1024 或等效分辨率）。
训练图像为正方形或接近正方形（我们这里用 1024×1024），或保持一致的宽高比（如全部 3:4）时效果最佳。

本教程假设使用正方形图像，分桶会比较简单：

目标图、控制图和设计图都约为 1024×1024。AI Toolkit 会根据你在 DATASETS 面板中启用的内容分到 512 / 768 / 1024 桶。

4.3 描述文本

对于这个服装设计 LoRA，我们不用逐图描述，只在数据集级别设置一个默认描述：put this design on their shirt

这样做之所以有效，是因为：

语义简单，所有样本都一样。
控制图和设计图本身已携带了大部分关键信息。

对于更复杂的编辑 LoRA（如"像工作室边缘光那样补光"vs"金色时刻"），你应该使用逐图描述来说明期望的编辑效果。

5. 分步教程：在 AI Toolkit 中进行 Qwen Edit 2509 LoRA训练

5.1 第 0 步 – 选择在哪里运行 AI Toolkit

本教程中你可以通过两种方式运行 AI Toolkit：

本地 AI Toolkit（用你自己的 GPU） – 安装 AI Toolkit，启动 Web UI，在本地打开。确保有至少 10–12GB VRAM 的 NVIDIA GPU（推荐 24GB+），以及足够的 CPU 内存（如果要用 Layer Offloading，理想情况下需要 64GB+）。
RunComfy 云端 AI Toolkit – 登录 RunComfy 云端 AI Toolkit，直接进入云端运行的 AI Toolkit UI。从 Training Queue 启动任务时，可以选择 H100（80GB） 或 H200（141GB） 机器。

5.2 第 1 步 – 在 AI Toolkit 中创建数据集

在 AI Toolkit UI 中，打开 Datasets 标签页。

创建三个数据集（名称仅供参考）：

shirt_target
shirt_control
shirt_design

上传图片，让每个数据集有明确的角色：

shirt_target – 20–60 张穿着有设计衬衫的人物照片。
shirt_control – 相同的人物和姿势，但没有设计（或穿着空白衬衫）。
shirt_design – 简单背景（灰色、黑色或白色）上的正方形设计图像。

如果没有准备好 .txt 描述文件，暂时把逐图描述留空。我们稍后会在任务级别添加一个默认描述。

重要配对说明

目标图和控制图应尽量按顺序配对（相同人物、相同姿势）。为保持配对稳定，建议在各文件夹间使用匹配的文件名，使字母顺序对齐，例如：shirt_target/img_0001.jpg、shirt_control/img_0001.jpg、shirt_design/img_0001.png。每张目标图都应有索引相同的对应控制图和设计图。

5.3 第 2 步 – 创建新任务

打开 New Job 标签页。我们按面板出现的顺序逐一配置。

5.3.1 JOB 面板 – 任务名称、GPU、触发词

Training Name – 设置任何描述性名称，例如 qwen_edit2509_shirt_lora_v1。这会成为任务名称和保存检查点的文件夹名。
GPU ID – 本地安装时，选择你机器上的 GPU。在 RunComfy 云端 AI Toolkit 中，保持 GPU ID 默认即可。实际机器类型（H100 / H200）在你从 Training Queue 启动任务时选择。
Trigger Word – 输入你想在推理时使用的短语，例如：put this design on their shirt。在数据集描述中可以用 [trigger] 作为占位符，AI Toolkit 训练时会自动替换为触发词。一个清晰的触发短语能为 LoRA 提供干净的开关：不含触发词的提示应该接近基础 Qwen‑Image‑Edit‑2509 的行为，尤其是在你启用了后面推荐的 Differential Output Preservation（DOP）的情况下。

5.3.2 MODEL 面板 – 基座模型与 VRAM 选项

Model Architecture – 选择 Qwen‑Image‑Edit‑2509。
Name or Path – 基座检查点的 Hugging Face model id（repo id），例如：Qwen/Qwen-Image-Edit-2509。
大多数 AI Toolkit 版本中，选择 Qwen‑Image‑Edit‑2509 会自动填充此值；除非有特殊需求，保持原样即可。

如确实要覆盖，使用 Hugging Face repo id 格式：org-or-user/model-name（可选 org-or-user/model-name@revision）。

在 Options 中：

Low VRAM – 对 ≤ 24GB VRAM 的 GPU 开启。这会在 backbone 内部启用额外的检查点和内存节省技巧，让大型 Qwen 模型更容易塞进显存。
Match Target Res – 对 Qwen Edit 2509 LoRA训练任务开启。这会把控制图调整到与目标图相同的分辨率桶（如 768×768 或 1024×1024），保持编辑几何对齐，避免在过大的控制图上浪费 VRAM。
Layer Offloading – 把它当作安全阀。如果启用 Low VRAM 和量化后仍遇到 CUDA OOM，在小显存 GPU 上可以开启；这会把部分层卸载到 CPU 内存，代价是步骤变慢。在 24GB+ 或 RunComfy 云端 GPU 上关闭以获得最佳速度。

5.3.3 QUANTIZATION 面板 – 适配大型 transformer

Qwen‑Image‑Edit‑2509 足够大，量化几乎总是个好主意。

Transformer – 设为 float8 (default)。在 AI Toolkit 中这通常对应 3-bit ARA 基座加 8-bit "恢复"适配器，你能获得接近 3-bit 模型的 VRAM 占用，同时质量接近全精度。
Text Encoder – 同样设为 float8 (default)。文本编码器很大，用 fp8 运行能省下大量 VRAM，质量损失很小。

无需在 UI 中手动配置 ARA 文件；选择 float8 选项就够了。

5.3.4 TARGET 面板 – LoRA 类型和 rank

这个面板告诉 AI Toolkit 你正在训练 LoRA 以及它应该有多大容量。

Target Type – 选择 LoRA。
Linear Rank – 对于 Qwen Edit 2509 LoRA微调，32 是个很好的默认值。它对于"把这个设计印到衬衫上"这类行为足够有表现力，同时训练和加载都很轻量。小显存 GPU 上可以降到 16；更复杂的行为可以试试 48–64（较高 rank 时要密切关注过拟合）。

5.3.5 SAVE 面板 – 检查点类型与频率

Data Type – 选择 BF16。Qwen‑Image‑Edit‑2509 通常以 bfloat16 运行，用 BF16 保存 LoRA 权重可保持兼容且体积合理。
Save Every – 250 步是实用的默认值；每 250 个训练步骤保存一个检查点。
Max Step Saves to Keep – 4 保留最后四个检查点，自动删除旧的，防止磁盘被撑爆。

5.3.6 TRAINING 面板 – 核心超参数

TRAINING 面板控制我们对 Qwen‑Image‑Edit‑2509 微调的力度。

对于单数据集 LoRA（768–1024px 的 10–40 张图像）的推荐起始值：

Batch Size – 默认设为 1。只在非常大的 GPU（A100 / H100 / H200 级别）上用 2。
Gradient Accumulation – 从 1 开始。如果想要更大的有效批次而不增加 VRAM，可以把它调到 2–4。有效批次大小 = Batch Size × Gradient Accumulation。
Steps – 使用 2500–3000。对于约 20–30 组三元组的衬衫设计示例，3000 效果很好。如果数据集很小（<15 张图像），考虑 1500–2200 以避免过拟合。
Optimizer – 选择 AdamW8Bit。8-bit Adam 大幅节省内存，行为和标准 AdamW 类似。
Learning Rate – 设为 0.0001。如果训练看起来噪声大或不稳定，可降到 0.00005。
Weight Decay – 设为 0.0001 作为轻度正则化，防止 LoRA 在小数据集上漂移太远。
Timestep Type – 设为 Weighted。这会偏向对 Qwen‑Image‑Edit 最重要的噪声级别进行训练。
Timestep Bias – 设为 Balanced，是个安全的默认值，不会过度强调非常早或非常晚的时间步。
Loss Type – 保持 Mean Squared Error，扩散 / rectified-flow 风格训练的标准选择。
EMA（指数移动平均 → Use EMA） – 对 LoRA 关闭。EMA 在训练完整模型时更有用。

5.3.7 正则化和文本编码器部分（TRAINING 面板右侧）

在 TRAINING 面板右侧，你会看到两个重要区域：Text Encoder Optimizations 和 Regularization。

Text Encoder Optimizations

Cache Text Embeddings – 对于 Qwen‑Image‑Edit + Differential Output Preservation（DOP），这必须保持关闭。DOP 会在每个批次内部重写提示文本，缓存的嵌入将无法匹配实际提示。当 DOP 关闭且你的描述是静态的时，可以开启 Cache Text Embeddings，一次性编码所有描述，把嵌入存储到磁盘，然后从 VRAM 中释放文本编码器。
Unload Text Encoder（Unload TE） – 这是一种特殊的仅触发词模式。开启后，AI Toolkit 只为你的 Trigger Word 和 Sample 提示缓存一次嵌入，卸载文本编码器从 VRAM，并忽略所有数据集描述。对于依赖正常描述的 Qwen Image Edit Plus (2509) LoRA训练（特别是当 Differential Output Preservation 开启时），你应该关闭 Unload TE。

由于 caption dropout 是通过在训练时随机丢弃描述来实现的，它需要每步都做新的文本编码。如果你启用了 Cache Text Embeddings，应在 DATASETS 面板中把 Caption Dropout Rate = 0（见下文），以避免缓存嵌入和预期 dropout 行为之间的冲突。

Regularization → Differential Output Preservation

Differential Output Preservation – 对大多数实际项目开启。这对 Qwen‑Image‑Edit 至关重要：它让基座模型在缺少触发短语时保持正常行为，只在触发词存在时注入你的行为。
DOP Loss Multiplier – 开始时保持 1。如果看到太多风格泄漏到非触发提示中，可以稍微调高。
DOP Preservation Class – 使用一个描述你最常编辑内容的中性类词。对于以人物为中心的编辑，person 是个好默认值；对于仅产品的编辑，用 product 或 object 之类的词。

DOP 如何与你的描述和触发词关联：

假设描述是 "[trigger] a person walking down the street, wearing the design on their shirt"
Trigger Word = put this design on their shirt
DOP Preservation Class = person

AI Toolkit 内部会创建两个提示：

put this design on their shirt a person walking down the street, wearing the design on their shirt – LoRA 路径。
person a person walking down the street, wearing the design on their shirt – 基座模型路径。

LoRA 只在这两者的差异上进行训练。不含触发短语的生成会更接近原版 Qwen‑Image‑Edit‑2509，因为 DOP 明确保留了该行为。

Blank Prompt Preservation – 保持关闭，除非你有非常特殊的理由要保留空提示的行为。

5.3.8 ADVANCED 面板 – Differential Guidance

Do Differential Guidance – 开启。
Differential Guidance Scale – 从 3 开始。

Differential Guidance 是 AI Toolkit 特有的技巧，它会放大 LoRA 看到的误差信号。更大的缩放会让"你这里错了"的信号更响亮，LoRA 通常能更快学会期望的变化，而无需提高学习率。

如果样本在训练早期看起来不稳定或过于"锐利"，把它降到 2。如果学习感觉很慢，可以稍后试试 4。

5.3.9 DATASETS 面板 – 连接目标图、控制图和设计图

对于 Qwen Edit 2509 LoRA训练，必须提供至少一个目标数据集和一个控制数据集。

在 Dataset 1 内：

Target Dataset – 选择你的输出 / 编辑后数据集，即代表"应用 LoRA 行为后"的图像。
Control Dataset 1 – 选择包含你输入图像的数据集（你想编辑的原始照片）。每个文件应通过名称与目标图像匹配（例如 scene_001.png → scene_001.png）。
Control Dataset 2 / 3 – 这些是可选的。对于衬衫 LoRA，把 Control Dataset 2 设为 shirt_design，这样模型会把 logo 或图案视为第二个控制流。除非有额外条件如深度图或关键点，否则控制槽留空即可。
LoRA Weight – 保持 1，除非你添加了更多数据集。添加更多数据集时可以在这里重新平衡它们的影响。
Default Caption – 如果你的图像已有 .txt 描述，可以留空。否则输入类似：
"[trigger] put this design on their shirt, full‑body street photo"

记住：[trigger] 会被 JOB 面板中的触发词替换。
Caption Dropout Rate – 当你不缓存文本嵌入时，0.05 是个好的起始值；大约每二十步会忽略描述一次，防止模型过拟合到确切的措辞。如果打算在 TRAINING 面板中开启 Cache Text Embeddings，把 Caption Dropout Rate = 0，因为 dropout 需要每步重新编码描述，无法与缓存嵌入配合使用。
Settings → Cache Latents – 开启。AI Toolkit 会一次性把每张目标图像编码为 VAE latents 并复用，缓存完成后会从 GPU 中移除沉重的 VAE，显著加速训练。
Settings → Is Regularization – 对主数据集保持关闭。如果后来添加了第二个纯粹用于正则化图像的数据集（例如通用人物照片），再把那个数据集的 Is Regularization 设为 ON。
Flipping（Flip X / Flip Y） – 对大多数人物 / 产品 LoRA，两者都保持关闭，除非你确定镜像翻转对你的主题是安全的（Flip X 会镜像衬衫上的任何文字）。
Resolutions – 启用你希望 Qwen‑Image‑Edit 训练的桶，例如 512、768 和 1024。768 是许多 Qwen LoRA 的甜蜜点；加上 512 和 1024 可以让训练对分辨率变化更鲁棒。

你可以用 Add Dataset 添加额外数据集（例如 LoRA Weight < 1 的正则化数据集），但对于大多数"把这个设计印到衬衫上"的用例，一个包含一个目标 + 一个或两个控制集的 Dataset 1 就足够了。

5.3.10 SAMPLE 面板 – 训练预览

SAMPLE 面板控制训练期间的定期预览。这些样本不影响训练损失，仅用于监控。

Sample Every – 设为 250，每 250 步生成一次预览，和检查点计划对齐。
Width / Height – 匹配主训练分辨率，例如 1024 × 1024 或 768 × 1024，取决于你的数据集。
Seed – 选择一个稳定的种子如 42。可以启用 Walk Seed，让每个预览批次使用连续种子并显示更多变化。
Sampler – 选择 FlowMatch（或你版本中的默认 Qwen 采样器）。这应该和 TRAINING 中使用的 FlowMatch scheduler 匹配。
Guidance Scale – 预览设为 4。稍后在 ComfyUI 或其他 UI 中推理时，通常会在 3–6 之间尝试。
Sample Steps – 约 25 步是预览的质量与速度的好折中。
Advanced Sampling – Skip First Sample、Force First Sample 和 Disable Sampling 都可保持关闭。只有在调试或想要最大速度且完全不要预览时才开启 Disable Sampling。
Sample Prompts – 添加 4–8 个代表你的 LoRA 真实用例的提示

5.4 第 3 步 – 启动训练并监控

配置完任务后，转到 Training Queue 标签页，选择你的任务，准备运行。

点击 Start / Play，主要关注两件事：

GPU VRAM / CPU RAM – 特别是在使用 Layer Offloading 的低 VRAM 显卡上，要密切关注系统 RAM 使用情况。
Sample images – 设计应该保持在衬衫上并跟随褶皱和姿势。如果开始渗透到整个图像或颜色变得极端，考虑提前停止或减少总步数。

6. 按 VRAM 级别推荐的 Qwen Edit 2509 LoRA训练配置

如果你只想要一个适用于 24GB 本地 GPU 和所有 H100/H200 云端运行的安全默认值，用第 3–6 节的设置即可：Low VRAM = ON，Transformer/Text Encoder 量化 = float8，Batch Size = 1，LoRA Rank = 32，Resolutions = 512 / 768 / 1024，Differential Output Preservation = ON，Cache Text Embeddings = OFF。

以下仅列出真正随硬件变化的设置。这里没提到的（Steps、Learning Rate、Optimizer 等）保持前面的推荐即可。

级别 1 – 低 VRAM (~10–12GB 本地)

MODEL → Low VRAM：开启。启用额外的检查点和重排，让 Qwen‑Image‑Edit‑2509 能塞进 10–12GB 显卡。
MODEL → Layer Offloading：如果仍遇到 CUDA OOM，开启。预计 CPU RAM 使用量高（≈60GB+），步骤更慢，但 GPU VRAM 可降到约 8–9GB。
QUANTIZATION → Transformer / Text Encoder：两者都设为 float8。在这个使用 Qwen 3-bit ARA 适配器的架构中，float8 是稳定质量的实际最低要求。
TRAINING → Batch Size：锁定为 1。如果想要更大的有效批次，增加 Gradient Accumulation 而不是 Batch Size。
DATASETS → Resolutions：启用 512 和 768 作为主要桶。如果能接受更慢、更脆弱的运行，可以加上 1024；把 1024×1024 加两个控制流视为这一级别的实际上限。
TRAINING → Text Encoder Optimizations / Regularization：如果即使用了 Low VRAM 和 Layer Offloading 仍无法跑 Differential Output Preservation，关闭 DOP 并开启 Cache Text Embeddings，这样描述只编码一次，文本编码器从 VRAM 中释放。你会损失一些基座模型保留，但能腾出几 GB 空间。

级别 2 – 紧张的 24GB（3090 / 4090 / 5090 级别）

相比级别 1 可以放松的内容：

MODEL → Low VRAM：为安全起见在 24GB 上保持开启；一旦确认你的分辨率和控制设置能舒适塞下，可以尝试关闭。
MODEL → Layer Offloading：通常关闭。只有在选定的分辨率和控制流数量下仍遇到 OOM 时才启用。
QUANTIZATION → Transformer / Text Encoder：两者都保持 float8。在这一级别禁用量化很少有帮助，只会烧掉本可用于分辨率或批次大小的 VRAM。
TRAINING → Batch Size：1 仍是默认值。如果 Low VRAM 开启且量化保持开启，在 768×768 加两个控制下，Batch Size 2 有时是可行的。
DATASETS → Resolutions：启用 512、768 和 1024。把 768 视为"总是安全"的桶，1024 视为可能需要 Low VRAM 甚至部分卸载的高端桶。
TRAINING → Text Encoder Optimizations / Regularization：通常可以保持 Differential Output Preservation ON 和 Cache Text Embeddings OFF，尤其是主要在 768×768 训练时。如果绝对需要在 24GB 显卡上用 1024×1024 且其他调整后仍遇到 OOM，下一个杠杆是关闭 DOP 并开启 Cache Text Embeddings。

级别 3 – 舒适的 32GB+ 本地和云端 H100/H200

在 32GB 本地显卡和 80–141GB 云端 GPU（H100 / H200）上，你不再需要和 VRAM 斗争，可以简化配置：

MODEL → Low VRAM：可选。在 32GB+ 本地 GPU 和 H100/H200 上可以关闭，获得略快的步骤和更简单的跟踪。
MODEL → Layer Offloading：保持关闭。所有 Qwen‑Image‑Edit‑2509 组件都可以驻留在 GPU 上。
QUANTIZATION → Transformer / Text Encoder：默认两者都保持 float8。在 H100/H200 上可以尝试禁用 Text Encoder 量化，但这并非获得好质量所必需的，与把这部分 VRAM 用于批次大小或分辨率相比收益很小。
TRAINING → Batch Size：在 32GB 本地 GPU 上用 1–2，在 H100/H200 上用 2–4，分辨率为 1024×1024 加两个控制流。
TARGET → LoRA Rank：32 是舒适的默认值。对于非常复杂的行为（例如多效果编辑 LoRA），可以在 H100/H200 上尝试 48–64，同时注意过拟合。
DATASETS → Resolutions：主要在 768 和 1024 训练。通常可以放弃 512，除非你特别关心低分辨率行为。
TRAINING → Text Encoder Optimizations / Regularization：默认使用 Differential Output Preservation ON 和 Cache Text Embeddings OFF 运行。VRAM 足以让文本编码器驻留，你能获得"有触发词"和"无触发词"行为之间最干净的分离。

7. Qwen Edit 2509 LoRA训练常见问题及解决方法

7.1 数据集配对错误（顺序错误 / 人物不匹配）

症状： 设计出现了，但在错误的位置、错误的人物上，或被扭曲。

检查目标和控制数据集是否对齐：shirt_target/img_0001.jpg 应与 shirt_control/img_0001.jpg 和 shirt_design/img_0001.png 配对，以此类推。如果你手动打乱了图像，保持文件名配对，使字母顺序仍然对齐。

7.2 即使量化后仍然 VRAM OOM

如果你用小目标分辨率（例如 512×512）训练，但控制数据集仍然使用 1024×1024 作为最高桶且 Match Target Res 关闭，每个控制流都会以 1024×1024 编码，而目标只有 512×512。两三个这样的控制流加起来，总 latent 大小会比预期大得多，即使启用量化也很容易遇到 CUDA OOM。

解决方法：

要么在 MODEL 面板中开启 Match Target Res，这样所有控制图会自动调整到与目标相同的分辨率桶（例如目标样本是 512×512 时，它们都变成 512×512），或者
保持 Match Target Res 关闭，但把控制数据集的最高分辨率桶降低到与目标匹配（放弃 1024，坚持 512/768）。

在云端的 H100/H200 上，目标和控制都用 1024×1024 桶也没问题，不太需要依赖这些技巧，但最安全的规则是：当 Match Target Res 禁用时，避免把小目标和非常大的控制混在一起。

7.3 训练永远不收敛 / 看起来是随机的

检查以下内容：

在 TRAINING 面板中，噪声调度器和时间步设置仍对应 FlowMatch。在导出的 YAML 中应该看到 noise_scheduler: "flowmatch"，在 SAMPLE 面板中采样器也应该设为 FlowMatch；如果采样器用了不同的调度器，即使 LoRA 正在正确训练，预览也可能看起来像纯噪声。
Learning Rate 不要太高。0.0001 是 Qwen Edit 2509 LoRA训练的安全默认值；如果预览在几百步后仍然振荡或非常不稳定，把它降到 0.00005 并从最后一个好的检查点恢复。

7.4 LoRA 过拟合（设计渗透到各处）

可能的解决方法：

减少总 Steps（例如从 5000 降到 3000）。
考虑稍低的 LoRA Rank（16 而不是 32）。
用不同的人物、姿势和光照来丰富数据集。
确保 Differential Output Preservation 已启用，如有需要可以稍微调高 DOP Loss Multiplier，以更强力地保留基础行为。

7.5 环境地狱

典型的本地问题包括 CUDA 版本不匹配、PyTorch 构建错误，或驱动程序与 GPU / 操作系统不匹配。在 RunComfy 云端 AI Toolkit 中这些问题统统消失：AI Toolkit 和依赖项都已预装，你可以直接从 UI 使用配置和数据集开始。

如果你发现修 CUDA 的时间比训练还多，这通常就是把这个任务挪到云端更省事的信号。

8. 训练完成后如何使用你的 Qwen Edit 2509 LoRA

训练完成后，你可以通过两种简单方式使用你的 Qwen Edit 2509 LoRA：

模型 Playground – 打开 Qwen‑Image‑Edit‑2509 LoRA playground，粘贴训练好的 LoRA 的 URL，快速查看它叠加在基座模型上的效果。
ComfyUI 工作流 – 启动一个 ComfyUI 实例，自己搭建工作流或加载现有的如 Qwen Edit 2509 MultipleAngles 工作流，在 LoRA 加载器节点中换入你的 LoRA，并微调 LoRA 权重和其他设置以进行更精细的控制。

OstrisAI-Toolkit

New Training Job

Job

Model

Quantization

Target

Save

Training

Advanced

Datasets

Dataset 1

Sample

目录