Qwen Image 2512 LoRA訓練指南：Ostris AI Toolkit

Qwen‑Image‑2512（通常簡稱為 Qwen 2512）是一個大型文生圖基礎模型，可以透過小型適配器進行微調，從而可靠地學習角色（相似度）、風格或產品/概念。本指南將向您展示如何使用 Ostris AI Toolkit 進行實用的 Qwen Image 2512 LoRA 訓練，包含穩定的預設設定和常見問題的解決方案。

完成本 Qwen Image 2512 LoRA 訓練 指南後，您將能夠：

為 Qwen-Image-2512 上的角色 vs 風格 vs 產品 LoRA 選擇正確的預設設定。
規劃 VRAM 需求並決定何時使用 ARA。
建構資料集、描述和觸發詞，避免常見的失敗模式（過擬合/洩漏）。
執行簡短的 smoke test，然後自信地確定步驟和設定。

本文是 AI Toolkit LoRA 訓練系列的一部分。如果您是 Ostris AI Toolkit 新手，請在深入本 Qwen-Image-2512 LoRA 訓練指南之前先閱讀 AI Toolkit LoRA 訓練概述。

1. Qwen‑Image‑2512 概述：這個文生圖模型能做什麼
2. 環境選項：在 AI Toolkit 訓練介面中工作
3. Qwen 2512 LoRA 訓練的硬體和 VRAM 要求
4. 建構 Qwen Image 2512 LoRA 微調訓練資料集
5. 逐步驟：AI-Toolkit 訓練 Qwen Image 2512 LoRA
6. 按 VRAM 等級推薦的 Qwen Image 2512 LoRA 訓練配置
7. 常見的 Qwen-Image-2512 LoRA 訓練問題及解決方法
8. 訓練後使用您的 Qwen‑Image‑2512 LoRA

1. Qwen‑Image‑2512 概述：這個文生圖模型能做什麼

什麼是 Qwen Image 2512 LoRA 訓練（以及什麼是「好」）

在 Qwen Image 2512 LoRA 訓練 中，您不是在替換基礎模型——而是添加一個小型適配器，將其引導向特定的身份、風格或產品概念。

一個強大的 LoRA 具有三個特質：

強度：啟動時明顯改變輸出
控制：僅在您需要時啟動
泛化：適用於新提示詞，而不僅僅是訓練圖像

選擇您的目標：角色 vs 風格 vs 產品/概念

您的目標決定了 Qwen 2512 LoRA 訓練中資料集設計和訓練設定的最佳預設值。

角色 / 相似度

最適合：特定人物、角色、明星相似度、一致的面部/身份
主要風險：身份洩漏（影響其他人）、過度處理的面部、快速過擬合
需要：更嚴格的 timestep 策略、謹慎的步數、通常需要觸發詞、經常使用 DOP

風格

最適合：外觀/色調、插畫風格、光照風格、紋理語言
主要風險：變成「萬能濾鏡」、失去提示詞保真度
需要：更多多樣性、通常比角色更少的重複次數/圖像、觸發詞可選

產品 / 概念

最適合：特定產品（鞋子、瓶子）、帶標誌的包裝、新的物件概念
主要風險：形狀漂移、材質不一致、幾何形狀不穩定
需要：一致的構圖 + 乾淨的描述；通常推薦使用觸發詞

如果不確定，先將 Qwen Image 2512 LoRA 訓練作為 smoke test（短期執行）啟動，然後在看到資料集「印記」速度後確定最終步驟。

2. 環境選項：本地 AI Toolkit vs RunComfy 雲端 AI Toolkit

對於 Qwen-Image-2512 LoRA 訓練，您可以使用與其他 AI Toolkit LoRA 工作流程相同的兩種環境：

在您自己的 GPU 上執行的本地 AI Toolkit
在 RunComfy 上使用大型 GPU（H100 / H200）的雲端 AI Toolkit

兩種情況下的訓練介面、參數和工作流程都是相同的。唯一的差異是 GPU 的位置以及您可用的 VRAM 量。

2.1 本地 AI Toolkit（您自己的 GPU）

從 AI Toolkit GitHub 儲存庫安裝 AI Toolkit，然後執行 Web UI。如果滿足以下條件，本地訓練是一個好選擇：

您已經有 NVIDIA GPU（通常需要 24GB VRAM 或更多才能舒適地進行 1024 訓練）
您熟悉管理 CUDA、驅動程式、磁碟空間和長時間執行的任務

2.2 RunComfy 雲端 AI Toolkit（H100 / H200）

使用 RunComfy 雲端 AI Toolkit，AI-Toolkit 訓練 Qwen Image 2512 LoRA 完全在瀏覽器中執行：

您無需在本地安裝任何東西
開啟瀏覽器、登入，直接進入 AI Toolkit 訓練介面
啟動任務時可以選擇 H100（80GB） 或 H200（141GB） 等大型 GPU
您將獲得一個持久化工作區，資料集、配置和檢查點會被儲存，可以在工作階段之間重複使用

當您需要以下情況時，此環境對於 Qwen Image 2512 LoRA 微調 特別有用：

希望在 1024×1024 下更快迭代，無需使用激進的記憶體技巧
想要嘗試更大的 LoRA 秩、更多的桶或更大的批次大小
不想花時間除錯 CUDA 或驅動程式問題

👉 在這裡開啟：RunComfy 雲端 AI Toolkit

3. Qwen 2512 LoRA 訓練的硬體和 VRAM 要求

3.1 硬體規劃：VRAM 等級以及何時需要 ARA

Qwen 2512 是大模型。對於實用的 Qwen Image 2512 LoRA 訓練，請按等級思考：

24GB VRAM（常見）：可行，但通常需要低位元量化 + ARA 才能進行 1024 訓練
40–48GB VRAM：較少妥協的舒適 1024 訓練
80GB+ VRAM：最簡單的設定、最快的迭代、較少需要最佳化記憶體

如果低於 24GB：有時可以使用激進的記憶體策略在較低解析度（如 768）下訓練，但預計執行速度較慢且穩定性較差。

3.2 ARA 說明：它是什麼、何時使用以及如何影響訓練

什麼是 ARA

ARA（精度恢復適配器）是與極低位元量化（通常是 3 位元或 4 位元）一起使用的恢復機制。基礎模型以量化方式執行以節省 VRAM，而 ARA 幫助恢復因量化而損失的精度。

何時為 Qwen 2512 使用 ARA

如果您需要以下任何一項，請使用 ARA：

在 24GB 上以 1024×1024 訓練 Qwen 2512
減少 OOM 問題
無需大量 CPU 卸載即可穩定收斂

ARA 如何影響訓練（權衡）

優點

使消費級 GPU 上的 1024 訓練成為可能
與「簡單低位元」量化相比，通常能提高穩定性

缺點

增加了額外的可變因素（工具/版本相容性很重要）
如果量化失敗，可能需要調整量化模式或更新環境

Qwen Image 2512 LoRA 訓練實用指南

在 24GB 上從 3 位元 ARA 開始
如果出現量化錯誤，嘗試 4 位元 ARA
如果問題仍然存在，暫時使用更高精度的量化模式來驗證管道的其餘部分，然後返回 ARA

4. 建構 Qwen Image 2512 LoRA 微調訓練資料集

4.1 資料集設計：每個目標需要收集什麼

大多數 Qwen Image 2512 LoRA 訓練失敗實際上是偽裝的資料集失敗。

通用規則

將所有內容轉換為 RGB（避免灰階/CMYK）
刪除損壞的圖像
避免幾乎重複的圖像，除非您有意希望該鏡頭佔主導地位
盡可能保持解析度一致（或使用少量桶）

角色資料集（15–50 張圖像）

目標：

30–60% 特寫 / 頭肩照
30–50% 中景
10–20% 全身（可選，但有助於服裝/姿勢泛化）

保持光照和背景足夠多樣化，使「身份」成為一致的訊號。

風格資料集（30–200 張圖像）

目標：

廣泛的主題多樣性（人物、物體、環境）
多樣的構圖和顏色情況
一致的風格線索（筆觸、陰影、調色盤、膠片顆粒等）

在 Qwen-Image-2512 LoRA 訓練中，當風格是唯一一致的因素時，風格 LoRA 的泛化效果更好。

產品 / 概念資料集（20–80 張圖像）

目標：

一致的角度和構圖（正面/側面/45度）
畫面中產品比例一致（避免極端的縮放差異）
如果材質重要，多種照明條件（霧面 vs 光澤）
乾淨的背景在早期有幫助（您可以稍後添加複雜場景）

4.2 描述和觸發詞：角色 / 風格 / 產品範本

您可以使用僅觸發詞或簡短一致的描述來訓練 Qwen 2512。

4.2.1 關鍵描述規則

如果某個特徵出現在許多訓練圖像中，但您從未在描述中提及它，模型可能會學習到觸發詞隱含地意味著該特徵——因此每次使用觸發詞時都會嘗試重現它。

這是 LoRA 啟動時「強制」某種髮型、服裝、背景顏色或相機風格的常見原因。

4.2.2 角色描述範本

推薦：使用觸發詞。保持描述簡短。

僅觸發詞：
[trigger]
簡短描述：
portrait photo of [trigger], studio lighting, sharp focus

photo of [trigger], natural skin texture, realistic

避免過度描述面部部位（眼睛、鼻子等）。讓模型從圖像中學習身份。

4.2.3 風格描述範本

觸發詞是可選的。如果使用，您將獲得一個開/關開關。

無觸發詞，簡短描述：
in a watercolor illustration style, soft edges, pastel palette
觸發詞 + 簡短描述：
[trigger], watercolor illustration, pastel palette, soft edges

對於風格，描述應該描述風格屬性，而不是場景內容。

4.2.4 產品/概念描述範本

強烈建議使用觸發詞以進行控制。

簡單：
product photo of [trigger], clean background, studio lighting
如果產品有定義性特徵：
product photo of [trigger], transparent bottle, blue label, studio lighting

避免長描述。對於產品，一致的措辭可以提高幾何穩定性。

5. 逐步驟：AI-Toolkit 訓練 Qwen Image 2512 LoRA

本節遵循與 AI Toolkit 訓練介面相同的流程。首先建立資料集，然後逐個面板配置新任務。

5.1 步驟 0 – 選擇您的目標（角色 vs 風格 vs 產品）

在接觸設定之前，決定您要訓練什麼。這決定了描述、步驟和正則化的最佳預設值。

角色 / 相似度：最強的身份一致性（面部/外觀）。洩漏和快速過擬合的風險最高。
風格：一致的視覺外觀（調色盤/紋理/照明）。變成「萬能濾鏡」的風險最高。
產品 / 概念：穩定的物件身份和幾何形狀。形狀/材質漂移的風險最高。

如果不確定，先執行簡短的 smoke test（見下面的 TRAINING + SAMPLE），然後在看到資料集「印記」速度後確定步驟。

5.2 步驟 1 – 在 AI Toolkit 中建立資料集

在 AI Toolkit 介面中，開啟 Datasets 標籤。

建立至少一個資料集（範例名稱）：

my_dataset_2512

將您的圖像上傳到此資料集。

資料集品質規則（所有目標）

將所有內容轉換為 RGB（避免灰階/CMYK）。
刪除損壞的檔案。
避免幾乎重複的圖像，除非您有意希望該外觀/姿勢佔主導地位。

建議的資料集大小

角色：15–50 張圖像
風格：30–200 張圖像（更多多樣性有幫助）
產品：20–80 張圖像（一致的構圖有幫助）

5.3 步驟 2 – 建立新任務

開啟 New Job 標籤。按照顯示順序配置每個面板。

5.3.1 JOB 面板 – Training Name, GPU ID, Trigger Word

Training Name
選擇一個您以後能識別的清晰名稱（如 qwen_2512_character_v1、qwen_2512_style_v1、qwen_2512_product_v1）。
GPU ID – 在本地安裝中，選擇您機器上的 GPU。在 RunComfy 雲端 AI Toolkit 中，將 GPU ID 保留為預設值。實際的機器類型（H100 / H200）在您從 Training Queue 啟動任務時稍後選擇。
Trigger Word
根據您的目標推薦使用：

角色：強烈推薦（提供乾淨的開/關控制並幫助防止洩漏）。
風格：可選（如果您想要「可呼叫風格」而不是始終開啟，請使用）。
產品：強烈推薦（幫助保持學習的概念可控）。

如果使用觸發詞，您的描述可以包含像 [trigger] 這樣的佔位符，並遵循一致的範本（見下文）。

5.3.2 MODEL 面板 – Model Architecture, Name or Path, Options

Model Architecture
選擇 Qwen-Image-2512。
Name or Path
使用 Qwen/Qwen-Image-2512。在大多數 AI Toolkit 版本中，選擇 Qwen‑Image‑2512 將自動填充此值。

如果覆蓋，請使用 Hugging Face 儲存庫 ID 格式：org-or-user/model-name（可選 org-or-user/model-name@revision）。
Options

Low VRAM：在 24GB GPU 上進行 Qwen Image 2512 LoRA 訓練時開啟。
Layer Offloading：如果在使用量化、較低秩和較少桶後仍然出現 OOM，將此視為最後手段。

卸載順序（最佳實踐）：

1) ARA + Low VRAM

2) 降低秩

3) 減少解析度桶

4) 降低取樣頻率/解析度

5) 然後啟用 Layer Offloading

5.3.3 QUANTIZATION 面板 – Transformer, Text Encoder

這是大多數 24GB Qwen Image 2512 LoRA 訓練執行成功或失敗的地方。

24GB 基準線（推薦用於 1024 訓練）

量化 Transformer 並使用 ARA（先 3 位元，需要時 4 位元）。
如果需要額外的 VRAM 餘量，將 Text Encoder 量化為 float8。

大 VRAM GPU
如果訓練穩定且足夠快，您可以減少量化或停用它以簡化。

如果量化失敗（dtype/quantize 錯誤），首先將其視為工具相容性問題：

在 3 位元 ↔ 4 位元 ARA 之間切換，
更新 AI Toolkit/相依套件，
或暫時使用更高精度模式來驗證任務設定的其餘部分，然後返回 ARA。

5.3.4 TARGET 面板 – Target Type, Linear Rank

Target Type：選擇 LoRA。
Linear Rank
按目標推薦的起點：

角色：32
風格：16–32
產品：32

一般規則：

如果 OOM → 在觸碰其他一切之前先降低秩。
如果欠擬合 → 先調整 timesteps/steps/LR，然後考慮增加秩。
如果過擬合 → 減少重複/步驟，降低秩，增加多樣性，考慮 DOP。

5.3.5 SAVE 面板 – Data Type, Save Every, Max Step Saves to Keep

Data Type：BF16（穩定的預設值）。
Save Every：250（良好的檢查點頻率）。
Max Step Saves to Keep：4（控制磁碟使用量）。

5.3.6 TRAINING 面板 – 核心超參數

這些是大多數執行開始時的預設值：

Batch Size：1
Gradient Accumulation：1
Optimizer：AdamW8Bit
Learning Rate：0.0001
Weight Decay：0.0001
Timestep Type：Weighted
Timestep Bias：Balanced
Loss Type：Mean Squared Error
Use EMA：關閉（對於 Qwen 2512 LoRA）

按目標的 Timestep Type 指南

角色：Weighted 是安全的基準線；如果相似度沒有鎖定或看起來不一致，嘗試更友好的身份 timestep 設定（通常能改善角色印記）。
風格：Weighted 通常可以；在增加步驟之前增加多樣性。
產品：Weighted 是穩定的基準線；如果幾何形狀漂移，首先減少重複或收緊描述/觸發詞。

步驟：角色 vs 風格 vs 產品的推薦值

步驟不應該是單一的魔法數字。更可靠的方法是每張圖像的重複次數：

重複次數 ≈ (steps × batch_size × grad_accum) ÷ num_images
當 batch_size=1 且 grad_accum=1 時：steps ≈ 重複次數 × num_images

如果將 gradient accumulation 增加到 2 或 4，請相應減少步驟。

角色（相似度）每張圖像的重複次數

Smoke test：30–50
典型最佳點：50–90
高相似度推進：90–120（注意洩漏）

範例（batch=1，accum=1）：

圖像	30–50 重複	50–90 重複	90–120 重複
15	450–750	750–1350	1350–1800
25	750–1250	1250–2250	2250–3000
40	1200–2000	2000–3600	3600–4800

風格每張圖像的重複次數

Smoke test：15–30
典型最佳點：25–60
上限：60–80（僅適用於大型、多樣化的資料集）

範例（batch=1，accum=1）：

圖像	15–30 重複	25–60 重複	60–80 重複
30	450–900	750–1800	1800–2400
100	1500–3000	2500–6000	6000–8000

產品 / 概念每張圖像的重複次數

Smoke test：20–40
典型最佳點：30–70
高保真度推進：70–90（僅當形狀/材質仍然欠擬合時）

範例（batch=1，accum=1）：

圖像	20–40 重複	30–70 重複	70–90 重複
20	400–800	600–1400	1400–1800
50	1000–2000	1500–3500	3500–4500
80	1600–3200	2400–5600	5600–7200

Text Encoder 最佳化（TRAINING 右側）

Unload TE
僅用於僅使用觸發詞的工作流程，您希望最小化 VRAM 使用且不依賴每張圖像的描述。
Cache Text Embeddings
僅在以下情況下啟用：

描述是靜態的，
caption dropout 關閉，
DOP 關閉。

如果您使用 caption dropout 或 DOP，請保持關閉。

正則化（TRAINING 右側）

Differential Output Preservation (DOP) 可以幫助防止洩漏。

DOP 的作用
鼓勵 LoRA 表現得像一個受控的增量：

當觸發詞存在時有強烈效果，
當觸發詞不存在時效果最小。

何時啟用 DOP

角色：通常是（特別是為了乾淨的觸發詞開/關行為）。
風格：可選（如果您想要可呼叫的風格，請使用）。
產品：如果產品身份洩漏到所有內容中，推薦使用。

Qwen Image 2512 LoRA 訓練的關鍵相容性規則

如果 DOP 開啟，不要快取 text embeddings。

Blank Prompt Preservation

除非您有特定原因要保留空提示詞的行為，否則保持關閉。

5.3.7 ADVANCED 面板 – 速度和穩定性選項

Do Differential Guidance
增加「學習訊號」的可選旋鈕。如果啟用，從保守值（中間值）開始，僅在學習感覺太慢時增加。
Latent caching
在 DATASETS 部分，您可以啟用 Cache Latents（如果您有足夠的磁碟空間並希望更快地迭代，推薦用於速度）。

5.3.8 DATASETS 面板 – Target Dataset, Default Caption, Settings, Resolutions

在 Dataset 1 內：

Target Dataset
選擇您上傳的資料集（如 my_dataset_2512）。
Default Caption
根據您的描述策略選擇：

僅觸發詞：保持為空或僅 [trigger]
簡短描述：為整個資料集使用一個一致的範本

描述範本：

角色：portrait photo of [trigger], studio lighting, sharp focus
風格：[trigger], watercolor illustration, pastel palette, soft edges（觸發詞可選）
產品：product photo of [trigger], clean background, studio lighting

關鍵描述規則

Caption Dropout Rate
當您不快取 text embeddings 時，0.05 是常見的起點。

如果啟用 text embedding 快取，請將 dropout 設定為 0。
Settings

Cache Latents：推薦用於速度（特別是在大型資料集上）。
Is Regularization：僅當此資料集是正則化資料集時使用。
Flip X / Flip Y：預設關閉。僅當鏡像翻轉對您的主體/產品安全時啟用（注意：翻轉可能會破壞文字/標誌）。

Resolutions
從簡單開始：

角色：僅 1024（乾淨的印記），需要時稍後添加 768
風格：如果資料集混合尺寸，則為 768 + 1024
產品：早期僅 1024，形狀穩定後添加另一個桶

5.3.9 SAMPLE 面板 – 訓練預覽

取樣是 Qwen Image 2512 LoRA 訓練的早期預警系統。

推薦預設值：

Sample Every：250
Sampler：FlowMatch（匹配訓練）
Guidance Scale：4
Sample Steps：25
Width/Height：匹配您的主要訓練桶（通常是 1024×1024）
Seed：42
Walk Seed：可選（預覽中更多多樣性）

早期停止訊號

角色：相似度達到峰值然後過度處理；身份洩漏開始；提示詞保真度下降。
風格：變成「萬能濾鏡」；出現重複紋理；提示詞不再被尊重。
產品：改善後幾何形狀變形；標籤/標誌變得過於強勢；材質退化。

5.4 步驟 3 – 啟動訓練並監控

配置任務後，前往 Training Queue，選擇您的任務並開始訓練。

觀察兩件事：

VRAM 使用情況（特別是 24GB GPU）
樣本圖像（它們告訴您何時停止以及哪個檢查點最好）

大多數使用者透過從取樣中選擇最佳檢查點（通常更早）而不是總是完成最大步驟來獲得更好的 Qwen 2512 LoRA 訓練結果。

6. 按 VRAM 等級推薦的 Qwen Image 2512 LoRA 訓練配置

Qwen 2512 是大模型。對於實用的 Qwen-Image-2512 LoRA 訓練，請按等級思考：

24GB VRAM（常見）：可行，但通常需要低位元量化 + ARA 才能進行 1024 訓練
40–48GB VRAM：較少妥協的舒適 1024 訓練
80GB+ VRAM：最簡單的設定、最快的迭代、較少需要最佳化記憶體

如果低於 24GB：有時可以使用激進的記憶體策略在較低解析度（如 768）下訓練，但預計執行速度較慢且穩定性較差。

如果您需要以下任何一項，請使用 ARA：

在 24GB 上以 1024×1024 訓練 Qwen 2512
減少 OOM 問題
無需大量 CPU 卸載即可穩定收斂

7. 常見的 Qwen-Image-2512 LoRA 訓練問題及解決方法

7.1 啟動時量化失敗（Qwen-Image-2512 上的 ARA / dtype 不匹配）

症狀

訓練在啟動期間立即停止。
出現「Failed to quantize … Expected dtype …」等錯誤。

原因

選定的 ARA 或量化模式與當前的 AI Toolkit 版本或環境不完全相容。

修復（最快順序）

將 AI Toolkit 和相依套件更新到已知支援 Qwen-Image-2512 的版本。
切換 ARA 模式：

如果 3 位元 ARA 失敗 → 嘗試 4 位元 ARA。
如果 4 位元 ARA 失敗 → 嘗試 3 位元 ARA。

暫時使用更高精度的量化模式來確認訓練設定的其餘部分正常工作，然後切換回 ARA。

7.2 當 batch size > 1 時角色身份變得通用

症狀

早期樣本看起來很有希望，但最終的 LoRA 感覺「平均化」了。
角色不再看起來像特定的人。

原因

較大的批次可能會鼓勵 Qwen 2512 LoRA 訓練中角色的過度泛化。

修復

優先選擇 Batch Size = 1 和 Gradient Accumulation = 1。
如果需要更大的有效批次，增加 Gradient Accumulation 而不是 Batch Size，並密切監控樣本。

7.3 相似度從未「鎖定」（錯誤的 timestep 行為）

症狀

服裝、姿勢或氛圍是正確的，但面部或身份不一致。
結果在不同提示詞之間差異很大。

原因

對於逼真的角色，Qwen-Image-2512 通常對 sigmoid 類型的 timestep 行為比加權 timesteps 回應更好。

修復

對於角色（通常也包括產品）LoRA，將 Timestep Type 切換為 sigmoid。
盡早評估樣本；不要等到訓練結束。

7.4 面部在後期檢查點變得「焦糊」或蠟狀

症狀

一個檢查點看起來很棒，但後面的檢查點看起來過度銳化、塑膠感或不穩定。
身份洩漏快速增加。

原因

Qwen Image 2512 LoRA 訓練中的角色 LoRA 一旦超過大約 ~100 次每張圖像的重複，可能會快速退化。

修復

選擇一個較早的檢查點（通常是最佳解決方案）。
減少總重複/步驟數並保持在推薦範圍內。
如果需要，在增加步驟之前降低 LoRA 秩或添加更多資料集多樣性。

7.5 風格 LoRA 不一致或表現得像「萬能濾鏡」

症狀

有時風格出現，有時不出現。
或者它總是覆蓋提示詞內容。

原因

風格 LoRA 通常需要比角色 LoRA 更多的資料集廣度和更長的總體訓練時間。

修復

添加更多多樣化的風格範例（人物、物體、環境）。
保持每張圖像的重複次數合理，透過更多圖像而不是極端重複來增加總訊號。
經常取樣以避免風格變成粗暴的全域濾鏡。

8. 訓練後使用您的 Qwen 2512 LoRA

訓練完成後，您可以透過兩種簡單方式使用您的 Qwen 2512 LoRA：

Run LoRA – 開啟 Qwen‑Image‑2512 Run LoRA 頁面。在這個基礎模型的推論頁面裡，您可以直接選擇您在 RunComfy 上訓練出來的 LoRA 資產，也可以 import 您用 AI Toolkit 訓練好的 LoRA 檔案，接著透過 playground 或 API 進行推論。RunComfy 會使用與您訓練設定一致的 base model，並復用訓練設定裡完整的 AI Toolkit pipeline 定義，所以訓練時看到什麼，推論就得到什麼；這種 training/inference 的強對齊能特別保證推論效果與訓練採樣的一致。
ComfyUI 工作流程 – 啟動一個 ComfyUI 實例，建構您自己的工作流程或載入一個像 Qwen Image 2512 這樣的工作流程，添加一個 LoRA 載入器節點並放入您的 LoRA，然後微調 LoRA 權重和其他設定以進行更詳細的控制。

在推理中測試您的 Qwen 2512 LoRA

角色測試

特寫肖像提示詞
中景提示詞
全身提示詞

風格測試

多個主體類別（人物/物體/環境）

產品測試

乾淨的工作室提示詞 + 一個複雜場景提示詞

OstrisAI-Toolkit

New Training Job

Job

Model

Quantization

Target

Save

Training

Advanced

Datasets

Dataset 1

Sample

目錄

1. Qwen‑Image‑2512 概述：這個文生圖模型能做什麼

什麼是 Qwen Image 2512 LoRA 訓練（以及什麼是「好」）

選擇您的目標：角色 vs 風格 vs 產品/概念

角色 / 相似度

風格

產品 / 概念

2. 環境選項：本地 AI Toolkit vs RunComfy 雲端 AI Toolkit

2.1 本地 AI Toolkit（您自己的 GPU）

2.2 RunComfy 雲端 AI Toolkit（H100 / H200）

3. Qwen 2512 LoRA 訓練 的硬體和 VRAM 要求

3.1 硬體規劃：VRAM 等級以及何時需要 ARA

3.2 ARA 說明：它是什麼、何時使用以及如何影響訓練

什麼是 ARA

何時為 Qwen 2512 使用 ARA

ARA 如何影響訓練（權衡）

4. 建構 Qwen Image 2512 LoRA 微調 訓練資料集

4.1 資料集設計：每個目標需要收集什麼

通用規則

角色資料集（15–50 張圖像）

風格資料集（30–200 張圖像）

產品 / 概念資料集（20–80 張圖像）

4.2 描述和觸發詞：角色 / 風格 / 產品 範本

4.2.1 關鍵描述規則

4.2.2 角色描述範本

4.2.3 風格描述範本

4.2.4 產品/概念描述範本

5. 逐步驟：AI-Toolkit 訓練 Qwen Image 2512 LoRA

5.1 步驟 0 – 選擇您的目標（角色 vs 風格 vs 產品）

5.2 步驟 1 – 在 AI Toolkit 中建立資料集

5.3 步驟 2 – 建立新任務

5.3.1 JOB 面板 – Training Name, GPU ID, Trigger Word

5.3.2 MODEL 面板 – Model Architecture, Name or Path, Options

5.3.3 QUANTIZATION 面板 – Transformer, Text Encoder

5.3.4 TARGET 面板 – Target Type, Linear Rank

5.3.5 SAVE 面板 – Data Type, Save Every, Max Step Saves to Keep

5.3.6 TRAINING 面板 – 核心超參數

步驟：角色 vs 風格 vs 產品 的推薦值

Text Encoder 最佳化（TRAINING 右側）

正則化（TRAINING 右側）

5.3.7 ADVANCED 面板 – 速度和穩定性選項

5.3.8 DATASETS 面板 – Target Dataset, Default Caption, Settings, Resolutions

5.3.9 SAMPLE 面板 – 訓練預覽

5.4 步驟 3 – 啟動訓練並監控

6. 按 VRAM 等級推薦的 Qwen Image 2512 LoRA 訓練 配置

7. 常見的 Qwen-Image-2512 LoRA 訓練 問題及解決方法

7.1 啟動時量化失敗（Qwen-Image-2512 上的 ARA / dtype 不匹配）

7.2 當 batch size > 1 時角色身份變得通用

7.3 相似度從未「鎖定」（錯誤的 timestep 行為）

7.4 面部在後期檢查點變得「焦糊」或蠟狀

7.5 風格 LoRA 不一致或表現得像「萬能濾鏡」

8. 訓練後使用您的 Qwen 2512 LoRA

更多 AI Toolkit LoRA 訓練指南

3. Qwen 2512 LoRA 訓練的硬體和 VRAM 要求

4. 建構 Qwen Image 2512 LoRA 微調訓練資料集

4.2 描述和觸發詞：角色 / 風格 / 產品範本

步驟：角色 vs 風格 vs 產品的推薦值

6. 按 VRAM 等級推薦的 Qwen Image 2512 LoRA 訓練配置

7. 常見的 Qwen-Image-2512 LoRA 訓練問題及解決方法