Qwen Image 2512 LoRA训练指南：Ostris AI Toolkit

Qwen‑Image‑2512（通常简称为 Qwen 2512）是一个大型文生图基础模型，可以通过小型适配器进行微调，从而可靠地学习角色（相似度）、风格或产品/概念。本指南将向您展示如何使用 Ostris AI Toolkit 进行实用的 Qwen Image 2512 LoRA训练，包含稳定的默认设置和常见问题的解决方案。

完成本 Qwen Image 2512 LoRA训练 指南后，您将能够：

为 Qwen-Image-2512 上的角色 vs 风格 vs 产品 LoRA 选择正确的默认设置。
规划 VRAM 需求并决定何时使用 ARA。
构建数据集、描述和触发词，避免常见的失败模式（过拟合/泄漏）。
运行简短的 smoke test，然后自信地确定步骤和设置。

本文是 AI Toolkit LoRA 训练系列的一部分。如果您是 Ostris AI Toolkit 新手，请在深入本 Qwen-Image-2512 LoRA训练指南之前先阅读 AI Toolkit LoRA 训练概述。

1. Qwen‑Image‑2512 概述：这个文生图模型能做什么
2. 环境选项：在 AI Toolkit 训练界面中工作
3. Qwen 2512 LoRA训练的硬件和 VRAM 要求
4. 构建 Qwen Image 2512 LoRA微调训练数据集
5. 分步骤：AI-Toolkit 训练 Qwen Image 2512 LoRA
6. 按 VRAM 等级推荐的 Qwen Image 2512 LoRA训练配置
7. 常见的 Qwen-Image-2512 LoRA训练问题及解决方法
8. 训练后使用您的 Qwen‑Image‑2512 LoRA

1. Qwen‑Image‑2512 概述：这个文生图模型能做什么

什么是 Qwen Image 2512 LoRA训练（以及什么是"好"）

在 Qwen Image 2512 LoRA训练 中，您不是在替换基础模型——而是添加一个小型适配器，将其引导向特定的身份、风格或产品概念。

一个强大的 LoRA 具有三个特质：

强度：激活时明显改变输出
控制：仅在您需要时激活
泛化：适用于新提示词，而不仅仅是训练图像

选择您的目标：角色 vs 风格 vs 产品/概念

您的目标决定了 Qwen 2512 LoRA训练中数据集设计和训练设置的最佳默认值。

角色 / 相似度

最适合：特定人物、角色、明星相似度、一致的面部/身份
主要风险：身份泄漏（影响其他人）、过度处理的面部、快速过拟合
需要：更严格的 timestep 策略、谨慎的步数、通常需要触发词、经常使用 DOP

风格

最适合：外观/色调、插画风格、光照风格、纹理语言
主要风险：变成"万能滤镜"、失去提示词保真度
需要：更多多样性、通常比角色更少的重复次数/图像、触发词可选

产品 / 概念

最适合：特定产品（鞋子、瓶子）、带标志的包装、新的对象概念
主要风险：形状漂移、材质不一致、几何形状不稳定
需要：一致的构图 + 干净的描述；通常推荐使用触发词

如果不确定，先将 Qwen Image 2512 LoRA训练作为 smoke test（短期运行）启动，然后在看到数据集"印记"速度后确定最终步骤。

2. 环境选项：本地 AI Toolkit vs RunComfy 云端 AI Toolkit

对于 Qwen-Image-2512 LoRA训练，您可以使用与其他 AI Toolkit LoRA 工作流程相同的两种环境：

在您自己的 GPU 上运行的本地 AI Toolkit
在 RunComfy 上使用大型 GPU（H100 / H200）的云端 AI Toolkit

两种情况下的训练界面、参数和工作流程都是相同的。唯一的区别是 GPU 的位置以及您可用的 VRAM 量。

2.1 本地 AI Toolkit（您自己的 GPU）

从 AI Toolkit GitHub 仓库安装 AI Toolkit，然后运行 Web UI。如果满足以下条件，本地训练是一个好选择：

您已经有 NVIDIA GPU（通常需要 24GB VRAM 或更多才能舒适地进行 1024 训练）
您熟悉管理 CUDA、驱动程序、磁盘空间和长时间运行的任务

2.2 RunComfy 云端 AI Toolkit（H100 / H200）

使用 RunComfy 云端 AI Toolkit，AI-Toolkit 训练 Qwen Image 2512 LoRA 完全在浏览器中运行：

您无需在本地安装任何东西
打开浏览器、登录，直接进入 AI Toolkit 训练界面
启动任务时可以选择 H100（80GB） 或 H200（141GB） 等大型 GPU
您将获得一个持久化工作区，数据集、配置和检查点会被保存，可以在会话之间重复使用

当您需要以下情况时，此环境对于 Qwen Image 2512 LoRA微调 特别有用：

希望在 1024×1024 下更快迭代，无需使用激进的内存技巧
想要尝试更大的 LoRA 秩、更多的桶或更大的批量大小
不想花时间调试 CUDA 或驱动程序问题

👉 在这里打开：RunComfy 云端 AI Toolkit

3. Qwen 2512 LoRA训练的硬件和 VRAM 要求

3.1 硬件规划：VRAM 等级以及何时需要 ARA

Qwen 2512 是大模型。对于实用的 Qwen Image 2512 LoRA训练，请按等级思考：

24GB VRAM（常见）：可行，但通常需要低位量化 + ARA 才能进行 1024 训练
40–48GB VRAM：较少妥协的舒适 1024 训练
80GB+ VRAM：最简单的设置、最快的迭代、较少需要优化内存

如果低于 24GB：有时可以使用激进的内存策略在较低分辨率（如 768）下训练，但预计运行速度较慢且稳定性较差。

3.2 ARA 解释：它是什么、何时使用以及如何影响训练

什么是 ARA

ARA（精度恢复适配器）是与极低位量化（通常是 3 位或 4 位）一起使用的恢复机制。基础模型以量化方式运行以节省 VRAM，而 ARA 帮助恢复因量化而损失的精度。

何时为 Qwen 2512 使用 ARA

如果您需要以下任何一项，请使用 ARA：

在 24GB 上以 1024×1024 训练 Qwen 2512
减少 OOM 问题
无需大量 CPU 卸载即可稳定收敛

ARA 如何影响训练（权衡）

优点

使消费级 GPU 上的 1024 训练成为可能
与"简单低位"量化相比，通常能提高稳定性

缺点

增加了额外的可变因素（工具/版本兼容性很重要）
如果量化失败，可能需要调整量化模式或更新环境

Qwen Image 2512 LoRA训练实用指南

在 24GB 上从 3 位 ARA 开始
如果出现量化错误，尝试 4 位 ARA
如果问题仍然存在，暂时使用更高精度的量化模式来验证管道的其余部分，然后返回 ARA

4. 构建 Qwen Image 2512 LoRA微调训练数据集

4.1 数据集设计：每个目标需要收集什么

大多数 Qwen Image 2512 LoRA训练失败实际上是伪装的数据集失败。

通用规则

将所有内容转换为 RGB（避免灰度/CMYK）
删除损坏的图像
避免几乎重复的图像，除非您有意希望该镜头占主导地位
尽可能保持分辨率一致（或使用少量桶）

角色数据集（15–50 张图像）

目标：

30–60% 特写 / 头肩照
30–50% 中景
10–20% 全身（可选，但有助于服装/姿势泛化）

保持光照和背景足够多样化，使"身份"成为一致的信号。

风格数据集（30–200 张图像）

目标：

广泛的主题多样性（人物、物体、环境）
多样的构图和颜色情况
一致的风格线索（笔触、阴影、调色板、胶片颗粒等）

在 Qwen-Image-2512 LoRA训练中，当风格是唯一一致的因素时，风格 LoRA 的泛化效果更好。

产品 / 概念数据集（20–80 张图像）

目标：

一致的角度和构图（正面/侧面/45度）
画面中产品比例一致（避免极端的缩放差异）
如果材质重要，多种照明条件（哑光 vs 光泽）
干净的背景在早期有帮助（您可以稍后添加复杂场景）

4.2 描述和触发词：角色 / 风格 / 产品模板

您可以使用仅触发词或简短一致的描述来训练 Qwen 2512。

4.2.1 关键描述规则

如果某个特征出现在许多训练图像中，但您从未在描述中提及它，模型可能会学习到触发词隐含地意味着该特征——因此每次使用触发词时都会尝试重现它。

这是 LoRA 激活时"强制"某种发型、服装、背景颜色或相机风格的常见原因。

4.2.2 角色描述模板

推荐：使用触发词。保持描述简短。

仅触发词：
[trigger]
简短描述：
portrait photo of [trigger], studio lighting, sharp focus

photo of [trigger], natural skin texture, realistic

避免过度描述面部部位（眼睛、鼻子等）。让模型从图像中学习身份。

4.2.3 风格描述模板

触发词是可选的。如果使用，您将获得一个开/关开关。

无触发词，简短描述：
in a watercolor illustration style, soft edges, pastel palette
触发词 + 简短描述：
[trigger], watercolor illustration, pastel palette, soft edges

对于风格，描述应该描述风格属性，而不是场景内容。

4.2.4 产品/概念描述模板

强烈建议使用触发词以进行控制。

简单：
product photo of [trigger], clean background, studio lighting
如果产品有定义性特征：
product photo of [trigger], transparent bottle, blue label, studio lighting

避免长描述。对于产品，一致的措辞可以提高几何稳定性。

5. 分步骤：AI-Toolkit 训练 Qwen Image 2512 LoRA

本节遵循与 AI Toolkit 训练界面相同的流程。首先创建数据集，然后逐个面板配置新任务。

5.1 步骤 0 – 选择您的目标（角色 vs 风格 vs 产品）

在接触设置之前，决定您要训练什么。这决定了描述、步骤和正则化的最佳默认值。

角色 / 相似度：最强的身份一致性（面部/外观）。泄漏和快速过拟合的风险最高。
风格：一致的视觉外观（调色板/纹理/照明）。变成"万能滤镜"的风险最高。
产品 / 概念：稳定的对象身份和几何形状。形状/材质漂移的风险最高。

如果不确定，先运行简短的 smoke test（见下面的 TRAINING + SAMPLE），然后在看到数据集"印记"速度后确定步骤。

5.2 步骤 1 – 在 AI Toolkit 中创建数据集

在 AI Toolkit 界面中，打开 Datasets 标签。

创建至少一个数据集（示例名称）：

my_dataset_2512

将您的图像上传到此数据集。

数据集质量规则（所有目标）

将所有内容转换为 RGB（避免灰度/CMYK）。
删除损坏的文件。
避免几乎重复的图像，除非您有意希望该外观/姿势占主导地位。

建议的数据集大小

角色：15–50 张图像
风格：30–200 张图像（更多多样性有帮助）
产品：20–80 张图像（一致的构图有帮助）

5.3 步骤 2 – 创建新任务

打开 New Job 标签。按照显示顺序配置每个面板。

5.3.1 JOB 面板 – Training Name, GPU ID, Trigger Word

Training Name
选择一个您以后能识别的清晰名称（如 qwen_2512_character_v1、qwen_2512_style_v1、qwen_2512_product_v1）。
GPU ID – 在本地安装中，选择您机器上的 GPU。在 RunComfy 云端 AI Toolkit 中，将 GPU ID 保留为默认值。实际的机器类型（H100 / H200）在您从 Training Queue 启动任务时稍后选择。
Trigger Word
根据您的目标推荐使用：

角色：强烈推荐（提供干净的开/关控制并帮助防止泄漏）。
风格：可选（如果您想要"可调用风格"而不是始终开启，请使用）。
产品：强烈推荐（帮助保持学习的概念可控）。

如果使用触发词，您的描述可以包含像 [trigger] 这样的占位符，并遵循一致的模板（见下文）。

5.3.2 MODEL 面板 – Model Architecture, Name or Path, Options

Model Architecture
选择 Qwen-Image-2512。
Name or Path
使用 Qwen/Qwen-Image-2512。在大多数 AI Toolkit 版本中，选择 Qwen‑Image‑2512 将自动填充此值。

如果覆盖，请使用 Hugging Face 仓库 ID 格式：org-or-user/model-name（可选 org-or-user/model-name@revision）。
Options

Low VRAM：在 24GB GPU 上进行 Qwen Image 2512 LoRA训练时打开。
Layer Offloading：如果在使用量化、较低秩和较少桶后仍然出现 OOM，将此视为最后手段。

卸载顺序（最佳实践）：

1) ARA + Low VRAM

2) 降低秩

3) 减少分辨率桶

4) 降低采样频率/分辨率

5) 然后启用 Layer Offloading

5.3.3 QUANTIZATION 面板 – Transformer, Text Encoder

这是大多数 24GB Qwen Image 2512 LoRA训练运行成功或失败的地方。

24GB 基准线（推荐用于 1024 训练）

量化 Transformer 并使用 ARA（先 3 位，需要时 4 位）。
如果需要额外的 VRAM 余量，将 Text Encoder 量化为 float8。

大 VRAM GPU
如果训练稳定且足够快，您可以减少量化或禁用它以简化。

如果量化失败（dtype/quantize 错误），首先将其视为工具兼容性问题：

在 3 位 ↔ 4 位 ARA 之间切换，
更新 AI Toolkit/依赖项，
或暂时使用更高精度模式来验证任务设置的其余部分，然后返回 ARA。

5.3.4 TARGET 面板 – Target Type, Linear Rank

Target Type：选择 LoRA。
Linear Rank
按目标推荐的起点：

角色：32
风格：16–32
产品：32

一般规则：

如果 OOM → 在触碰其他一切之前先降低秩。
如果欠拟合 → 先调整 timesteps/steps/LR，然后考虑增加秩。
如果过拟合 → 减少重复/步骤，降低秩，增加多样性，考虑 DOP。

5.3.5 SAVE 面板 – Data Type, Save Every, Max Step Saves to Keep

Data Type：BF16（稳定的默认值）。
Save Every：250（良好的检查点频率）。
Max Step Saves to Keep：4（控制磁盘使用量）。

5.3.6 TRAINING 面板 – 核心超参数

这些是大多数运行开始时的默认值：

Batch Size：1
Gradient Accumulation：1
Optimizer：AdamW8Bit
Learning Rate：0.0001
Weight Decay：0.0001
Timestep Type：Weighted
Timestep Bias：Balanced
Loss Type：Mean Squared Error
Use EMA：关闭（对于 Qwen 2512 LoRA）

按目标的 Timestep Type 指南

角色：Weighted 是安全的基准线；如果相似度没有锁定或看起来不一致，尝试更友好的身份 timestep 设置（通常能改善角色印记）。
风格：Weighted 通常可以；在增加步骤之前增加多样性。
产品：Weighted 是稳定的基准线；如果几何形状漂移，首先减少重复或收紧描述/触发词。

步骤：角色 vs 风格 vs 产品的推荐值

步骤不应该是单一的魔法数字。更可靠的方法是每张图像的重复次数：

重复次数 ≈ (steps × batch_size × grad_accum) ÷ num_images
当 batch_size=1 且 grad_accum=1 时：steps ≈ 重复次数 × num_images

如果将 gradient accumulation 增加到 2 或 4，请相应减少步骤。

角色（相似度）每张图像的重复次数

Smoke test：30–50
典型最佳点：50–90
高相似度推进：90–120（注意泄漏）

示例（batch=1，accum=1）：

图像	30–50 重复	50–90 重复	90–120 重复
15	450–750	750–1350	1350–1800
25	750–1250	1250–2250	2250–3000
40	1200–2000	2000–3600	3600–4800

风格每张图像的重复次数

Smoke test：15–30
典型最佳点：25–60
上限：60–80（仅适用于大型、多样化的数据集）

示例（batch=1，accum=1）：

图像	15–30 重复	25–60 重复	60–80 重复
30	450–900	750–1800	1800–2400
100	1500–3000	2500–6000	6000–8000

产品 / 概念每张图像的重复次数

Smoke test：20–40
典型最佳点：30–70
高保真度推进：70–90（仅当形状/材质仍然欠拟合时）

示例（batch=1，accum=1）：

图像	20–40 重复	30–70 重复	70–90 重复
20	400–800	600–1400	1400–1800
50	1000–2000	1500–3500	3500–4500
80	1600–3200	2400–5600	5600–7200

Text Encoder 优化（TRAINING 右侧）

Unload TE
仅用于仅使用触发词的工作流程，您希望最小化 VRAM 使用且不依赖每张图像的描述。
Cache Text Embeddings
仅在以下情况下启用：

描述是静态的，
caption dropout 关闭，
DOP 关闭。

如果您使用 caption dropout 或 DOP，请保持关闭。

正则化（TRAINING 右侧）

Differential Output Preservation (DOP) 可以帮助防止泄漏。

DOP 的作用
鼓励 LoRA 表现得像一个受控的增量：

当触发词存在时有强烈效果，
当触发词不存在时效果最小。

何时启用 DOP

角色：通常是（特别是为了干净的触发词开/关行为）。
风格：可选（如果您想要可调用的风格，请使用）。
产品：如果产品身份泄漏到所有内容中，推荐使用。

Qwen Image 2512 LoRA训练的关键兼容性规则

如果 DOP 开启，不要缓存 text embeddings。

Blank Prompt Preservation

除非您有特定原因要保留空提示词的行为，否则保持关闭。

5.3.7 ADVANCED 面板 – 速度和稳定性选项

Do Differential Guidance
增加"学习信号"的可选旋钮。如果启用，从保守值（中间值）开始，仅在学习感觉太慢时增加。
Latent caching
在 DATASETS 部分，您可以启用 Cache Latents（如果您有足够的磁盘空间并希望更快地迭代，推荐用于速度）。

5.3.8 DATASETS 面板 – Target Dataset, Default Caption, Settings, Resolutions

在 Dataset 1 内：

Target Dataset
选择您上传的数据集（如 my_dataset_2512）。
Default Caption
根据您的描述策略选择：

仅触发词：保持为空或仅 [trigger]
简短描述：为整个数据集使用一个一致的模板

描述模板：

角色：portrait photo of [trigger], studio lighting, sharp focus
风格：[trigger], watercolor illustration, pastel palette, soft edges（触发词可选）
产品：product photo of [trigger], clean background, studio lighting

关键描述规则

Caption Dropout Rate
当您不缓存 text embeddings 时，0.05 是常见的起点。

如果启用 text embedding 缓存，请将 dropout 设置为 0。
Settings

Cache Latents：推荐用于速度（特别是在大型数据集上）。
Is Regularization：仅当此数据集是正则化数据集时使用。
Flip X / Flip Y：默认关闭。仅当镜像翻转对您的主体/产品安全时启用（注意：翻转可能会破坏文字/标志）。

Resolutions
从简单开始：

角色：仅 1024（干净的印记），需要时稍后添加 768
风格：如果数据集混合尺寸，则为 768 + 1024
产品：早期仅 1024，形状稳定后添加另一个桶

5.3.9 SAMPLE 面板 – 训练预览

采样是 Qwen Image 2512 LoRA训练的早期预警系统。

推荐默认值：

Sample Every：250
Sampler：FlowMatch（匹配训练）
Guidance Scale：4
Sample Steps：25
Width/Height：匹配您的主要训练桶（通常是 1024×1024）
Seed：42
Walk Seed：可选（预览中更多多样性）

早期停止信号

角色：相似度达到峰值然后过度处理；身份泄漏开始；提示词保真度下降。
风格：变成"万能滤镜"；出现重复纹理；提示词不再被尊重。
产品：改善后几何形状变形；标签/标志变得过于强势；材质退化。

5.4 步骤 3 – 启动训练并监控

配置任务后，转到 Training Queue，选择您的任务并开始训练。

观察两件事：

VRAM 使用情况（特别是 24GB GPU）
样本图像（它们告诉您何时停止以及哪个检查点最好）

大多数用户通过从采样中选择最佳检查点（通常更早）而不是总是完成最大步骤来获得更好的 Qwen 2512 LoRA训练结果。

6. 按 VRAM 等级推荐的 Qwen Image 2512 LoRA训练配置

Qwen 2512 是大模型。对于实用的 Qwen-Image-2512 LoRA训练，请按等级思考：

24GB VRAM（常见）：可行，但通常需要低位量化 + ARA 才能进行 1024 训练
40–48GB VRAM：较少妥协的舒适 1024 训练
80GB+ VRAM：最简单的设置、最快的迭代、较少需要优化内存

如果低于 24GB：有时可以使用激进的内存策略在较低分辨率（如 768）下训练，但预计运行速度较慢且稳定性较差。

如果您需要以下任何一项，请使用 ARA：

在 24GB 上以 1024×1024 训练 Qwen 2512
减少 OOM 问题
无需大量 CPU 卸载即可稳定收敛

7. 常见的 Qwen-Image-2512 LoRA训练问题及解决方法

7.1 启动时量化失败（Qwen-Image-2512 上的 ARA / dtype 不匹配）

症状

训练在启动期间立即停止。
出现"Failed to quantize … Expected dtype …"等错误。

原因

选定的 ARA 或量化模式与当前的 AI Toolkit 版本或环境不完全兼容。

修复（最快顺序）

将 AI Toolkit 和依赖项更新到已知支持 Qwen-Image-2512 的版本。
切换 ARA 模式：

如果 3 位 ARA 失败 → 尝试 4 位 ARA。
如果 4 位 ARA 失败 → 尝试 3 位 ARA。

暂时使用更高精度的量化模式来确认训练设置的其余部分正常工作，然后切换回 ARA。

7.2 当 batch size > 1 时角色身份变得通用

症状

早期样本看起来很有希望，但最终的 LoRA 感觉"平均化"了。
角色不再看起来像特定的人。

原因

较大的批次可能会鼓励 Qwen 2512 LoRA训练中角色的过度泛化。

修复

优先选择 Batch Size = 1 和 Gradient Accumulation = 1。
如果需要更大的有效批次，增加 Gradient Accumulation 而不是 Batch Size，并密切监控样本。

7.3 相似度从未"锁定"（错误的 timestep 行为）

症状

服装、姿势或氛围是正确的，但面部或身份不一致。
结果在不同提示词之间差异很大。

原因

对于逼真的角色，Qwen-Image-2512 通常对 sigmoid 类型的 timestep 行为比加权 timesteps 响应更好。

修复

对于角色（通常也包括产品）LoRA，将 Timestep Type 切换为 sigmoid。
尽早评估样本；不要等到训练结束。

7.4 面部在后期检查点变得"焦糊"或蜡状

症状

一个检查点看起来很棒，但后面的检查点看起来过度锐化、塑料感或不稳定。
身份泄漏快速增加。

原因

Qwen Image 2512 LoRA训练中的角色 LoRA 一旦超过大约 ~100 次每张图像的重复，可能会快速退化。

修复

选择一个较早的检查点（通常是最佳解决方案）。
减少总重复/步骤数并保持在推荐范围内。
如果需要，在增加步骤之前降低 LoRA 秩或添加更多数据集多样性。

7.5 风格 LoRA 不一致或表现得像"万能滤镜"

症状

有时风格出现，有时不出现。
或者它总是覆盖提示词内容。

原因

风格 LoRA 通常需要比角色 LoRA 更多的数据集广度和更长的总体训练时间。

修复

添加更多多样化的风格示例（人物、物体、环境）。
保持每张图像的重复次数合理，通过更多图像而不是极端重复来增加总信号。
经常采样以避免风格变成粗暴的全局滤镜。

8. 训练后使用您的 Qwen 2512 LoRA

训练完成后，您可以通过两种简单方式使用您的 Qwen 2512 LoRA：

Run LoRA – 打开 Qwen‑Image‑2512 Run LoRA 页面。在这个基础模型的推理页面里，您可以直接选择您在 RunComfy 上训练出来的 LoRA 资产，也可以 import 您用 AI Toolkit 训练好的 LoRA 文件，然后通过 playground 或 API 进行推理。RunComfy 会使用与您训练配置一致的 base model，并复用训练配置里的完整 AI Toolkit pipeline 定义，所以训练时看到什么，推理就得到什么；这种 training/inference 的强对齐能特别保证推理效果与训练采样的一致。
ComfyUI 工作流程 – 启动一个 ComfyUI 实例，构建您自己的工作流程或加载一个像 Qwen Image 2512 这样的工作流程，添加一个 LoRA 加载器节点并放入您的 LoRA，然后微调 LoRA 权重和其他设置以进行更详细的控制。

在推理中测试您的 Qwen 2512 LoRA

角色测试

特写肖像提示词
中景提示词
全身提示词

风格测试

多个主体类别（人物/物体/环境）

产品测试

干净的工作室提示词 + 一个复杂场景提示词

OstrisAI-Toolkit

New Training Job

Job

Model

Quantization

Target

Save

Training

Advanced

Datasets

Dataset 1

Sample

目录

1. Qwen‑Image‑2512 概述：这个文生图模型能做什么

什么是 Qwen Image 2512 LoRA训练（以及什么是"好"）

选择您的目标：角色 vs 风格 vs 产品/概念

角色 / 相似度

风格

产品 / 概念

2. 环境选项：本地 AI Toolkit vs RunComfy 云端 AI Toolkit

2.1 本地 AI Toolkit（您自己的 GPU）

2.2 RunComfy 云端 AI Toolkit（H100 / H200）

3. Qwen 2512 LoRA训练 的硬件和 VRAM 要求

3.1 硬件规划：VRAM 等级以及何时需要 ARA

3.2 ARA 解释：它是什么、何时使用以及如何影响训练

什么是 ARA

何时为 Qwen 2512 使用 ARA

ARA 如何影响训练（权衡）

4. 构建 Qwen Image 2512 LoRA微调 训练数据集

4.1 数据集设计：每个目标需要收集什么

通用规则

角色数据集（15–50 张图像）

风格数据集（30–200 张图像）

产品 / 概念数据集（20–80 张图像）

4.2 描述和触发词：角色 / 风格 / 产品 模板

4.2.1 关键描述规则

4.2.2 角色描述模板

4.2.3 风格描述模板

4.2.4 产品/概念描述模板

5. 分步骤：AI-Toolkit 训练 Qwen Image 2512 LoRA

5.1 步骤 0 – 选择您的目标（角色 vs 风格 vs 产品）

5.2 步骤 1 – 在 AI Toolkit 中创建数据集

5.3 步骤 2 – 创建新任务

5.3.1 JOB 面板 – Training Name, GPU ID, Trigger Word

5.3.2 MODEL 面板 – Model Architecture, Name or Path, Options

5.3.3 QUANTIZATION 面板 – Transformer, Text Encoder

5.3.4 TARGET 面板 – Target Type, Linear Rank

5.3.5 SAVE 面板 – Data Type, Save Every, Max Step Saves to Keep

5.3.6 TRAINING 面板 – 核心超参数

步骤：角色 vs 风格 vs 产品 的推荐值

Text Encoder 优化（TRAINING 右侧）

正则化（TRAINING 右侧）

5.3.7 ADVANCED 面板 – 速度和稳定性选项

5.3.8 DATASETS 面板 – Target Dataset, Default Caption, Settings, Resolutions

5.3.9 SAMPLE 面板 – 训练预览

5.4 步骤 3 – 启动训练并监控

6. 按 VRAM 等级推荐的 Qwen Image 2512 LoRA训练 配置

7. 常见的 Qwen-Image-2512 LoRA训练 问题及解决方法

7.1 启动时量化失败（Qwen-Image-2512 上的 ARA / dtype 不匹配）

7.2 当 batch size > 1 时角色身份变得通用

7.3 相似度从未"锁定"（错误的 timestep 行为）

7.4 面部在后期检查点变得"焦糊"或蜡状

7.5 风格 LoRA 不一致或表现得像"万能滤镜"

8. 训练后使用您的 Qwen 2512 LoRA

更多 AI Toolkit LoRA 训练指南

3. Qwen 2512 LoRA训练的硬件和 VRAM 要求

4. 构建 Qwen Image 2512 LoRA微调训练数据集

4.2 描述和触发词：角色 / 风格 / 产品模板

步骤：角色 vs 风格 vs 产品的推荐值

6. 按 VRAM 等级推荐的 Qwen Image 2512 LoRA训练配置

7. 常见的 Qwen-Image-2512 LoRA训练问题及解决方法