Qwen‑Image‑2512(通常簡稱為 Qwen 2512)是一個大型文生圖基礎模型,可以透過小型適配器進行微調,從而可靠地學習角色(相似度)、風格或產品/概念。本指南將向您展示如何使用 Ostris AI Toolkit 進行實用的 Qwen Image 2512 LoRA 訓練,包含穩定的預設設定和常見問題的解決方案。
完成本 Qwen Image 2512 LoRA 訓練 指南後,您將能夠:
- 為 Qwen-Image-2512 上的角色 vs 風格 vs 產品 LoRA 選擇正確的預設設定。
- 規劃 VRAM 需求並決定何時使用 ARA。
- 建構資料集、描述和觸發詞,避免常見的失敗模式(過擬合/洩漏)。
- 執行簡短的 smoke test,然後自信地確定步驟和設定。
本文是 AI Toolkit LoRA 訓練系列的一部分。如果您是 Ostris AI Toolkit 新手,請在深入本 Qwen-Image-2512 LoRA 訓練 指南之前先閱讀 AI Toolkit LoRA 訓練概述。
目錄
- 1. Qwen‑Image‑2512 概述:這個文生圖模型能做什麼
- 2. 環境選項:在 AI Toolkit 訓練介面中工作
- 3. Qwen 2512 LoRA 訓練 的硬體和 VRAM 要求
- 4. 建構 Qwen Image 2512 LoRA 微調 訓練資料集
- 5. 逐步驟:AI-Toolkit 訓練 Qwen Image 2512 LoRA
- 6. 按 VRAM 等級推薦的 Qwen Image 2512 LoRA 訓練 配置
- 7. 常見的 Qwen-Image-2512 LoRA 訓練 問題及解決方法
- 8. 訓練後使用您的 Qwen‑Image‑2512 LoRA
1. Qwen‑Image‑2512 概述:這個文生圖模型能做什麼
什麼是 Qwen Image 2512 LoRA 訓練(以及什麼是「好」)
在 Qwen Image 2512 LoRA 訓練 中,您不是在替換基礎模型——而是添加一個小型適配器,將其引導向特定的身份、風格或產品概念。
一個強大的 LoRA 具有三個特質:
- 強度:啟動時明顯改變輸出
- 控制:僅在您需要時啟動
- 泛化:適用於新提示詞,而不僅僅是訓練圖像
選擇您的目標:角色 vs 風格 vs 產品/概念
您的目標決定了 Qwen 2512 LoRA 訓練 中資料集設計和訓練設定的最佳預設值。
角色 / 相似度
- 最適合:特定人物、角色、明星相似度、一致的面部/身份
- 主要風險:身份洩漏(影響其他人)、過度處理的面部、快速過擬合
- 需要:更嚴格的 timestep 策略、謹慎的步數、通常需要觸發詞、經常使用 DOP
風格
- 最適合:外觀/色調、插畫風格、光照風格、紋理語言
- 主要風險:變成「萬能濾鏡」、失去提示詞保真度
- 需要:更多多樣性、通常比角色更少的重複次數/圖像、觸發詞可選
產品 / 概念
- 最適合:特定產品(鞋子、瓶子)、帶標誌的包裝、新的物件概念
- 主要風險:形狀漂移、材質不一致、幾何形狀不穩定
- 需要:一致的構圖 + 乾淨的描述;通常推薦使用觸發詞
如果不確定,先將 Qwen Image 2512 LoRA 訓練 作為 smoke test(短期執行)啟動,然後在看到資料集「印記」速度後確定最終步驟。
2. 環境選項:本地 AI Toolkit vs RunComfy 雲端 AI Toolkit
對於 Qwen-Image-2512 LoRA 訓練,您可以使用與其他 AI Toolkit LoRA 工作流程相同的兩種環境:
- 在您自己的 GPU 上執行的本地 AI Toolkit
- 在 RunComfy 上使用大型 GPU(H100 / H200)的雲端 AI Toolkit
兩種情況下的訓練介面、參數和工作流程都是相同的。唯一的差異是 GPU 的位置以及您可用的 VRAM 量。
2.1 本地 AI Toolkit(您自己的 GPU)
從 AI Toolkit GitHub 儲存庫 安裝 AI Toolkit,然後執行 Web UI。如果滿足以下條件,本地訓練是一個好選擇:
- 您已經有 NVIDIA GPU(通常需要 24GB VRAM 或更多才能舒適地進行 1024 訓練)
- 您熟悉管理 CUDA、驅動程式、磁碟空間和長時間執行的任務
2.2 RunComfy 雲端 AI Toolkit(H100 / H200)
使用 RunComfy 雲端 AI Toolkit,AI-Toolkit 訓練 Qwen Image 2512 LoRA 完全在瀏覽器中執行:
- 您無需在本地安裝任何東西
- 開啟瀏覽器、登入,直接進入 AI Toolkit 訓練介面
- 啟動任務時可以選擇 H100(80GB) 或 H200(141GB) 等大型 GPU
- 您將獲得一個持久化工作區,資料集、配置和檢查點會被儲存,可以在工作階段之間重複使用
當您需要以下情況時,此環境對於 Qwen Image 2512 LoRA 微調 特別有用:
- 希望在 1024×1024 下更快迭代,無需使用激進的記憶體技巧
- 想要嘗試更大的 LoRA 秩、更多的桶或更大的批次大小
- 不想花時間除錯 CUDA 或驅動程式問題
👉 在這裡開啟:RunComfy 雲端 AI Toolkit
3. Qwen 2512 LoRA 訓練 的硬體和 VRAM 要求
3.1 硬體規劃:VRAM 等級以及何時需要 ARA
Qwen 2512 是大模型。對於實用的 Qwen Image 2512 LoRA 訓練,請按等級思考:
- 24GB VRAM(常見):可行,但通常需要低位元量化 + ARA 才能進行 1024 訓練
- 40–48GB VRAM:較少妥協的舒適 1024 訓練
- 80GB+ VRAM:最簡單的設定、最快的迭代、較少需要最佳化記憶體
如果低於 24GB:有時可以使用激進的記憶體策略在較低解析度(如 768)下訓練,但預計執行速度較慢且穩定性較差。
3.2 ARA 說明:它是什麼、何時使用以及如何影響訓練
什麼是 ARA
ARA(精度恢復適配器)是與極低位元量化(通常是 3 位元或 4 位元)一起使用的恢復機制。基礎模型以量化方式執行以節省 VRAM,而 ARA 幫助恢復因量化而損失的精度。
何時為 Qwen 2512 使用 ARA
如果您需要以下任何一項,請使用 ARA:
- 在 24GB 上以 1024×1024 訓練 Qwen 2512
- 減少 OOM 問題
- 無需大量 CPU 卸載即可穩定收斂
ARA 如何影響訓練(權衡)
優點
- 使消費級 GPU 上的 1024 訓練成為可能
- 與「簡單低位元」量化相比,通常能提高穩定性
缺點
- 增加了額外的可變因素(工具/版本相容性很重要)
- 如果量化失敗,可能需要調整量化模式或更新環境
Qwen Image 2512 LoRA 訓練 實用指南
- 在 24GB 上從 3 位元 ARA 開始
- 如果出現量化錯誤,嘗試 4 位元 ARA
- 如果問題仍然存在,暫時使用更高精度的量化模式來驗證管道的其餘部分,然後返回 ARA
4. 建構 Qwen Image 2512 LoRA 微調 訓練資料集
4.1 資料集設計:每個目標需要收集什麼
大多數 Qwen Image 2512 LoRA 訓練 失敗實際上是偽裝的資料集失敗。
通用規則
- 將所有內容轉換為 RGB(避免灰階/CMYK)
- 刪除損壞的圖像
- 避免幾乎重複的圖像,除非您有意希望該鏡頭佔主導地位
- 盡可能保持解析度一致(或使用少量桶)
角色資料集(15–50 張圖像)
目標:
- 30–60% 特寫 / 頭肩照
- 30–50% 中景
- 10–20% 全身(可選,但有助於服裝/姿勢泛化)
保持光照和背景足夠多樣化,使「身份」成為一致的訊號。
風格資料集(30–200 張圖像)
目標:
- 廣泛的主題多樣性(人物、物體、環境)
- 多樣的構圖和顏色情況
- 一致的風格線索(筆觸、陰影、調色盤、膠片顆粒等)
在 Qwen-Image-2512 LoRA 訓練 中,當風格是唯一一致的因素時,風格 LoRA 的泛化效果更好。
產品 / 概念資料集(20–80 張圖像)
目標:
- 一致的角度和構圖(正面/側面/45度)
- 畫面中產品比例一致(避免極端的縮放差異)
- 如果材質重要,多種照明條件(霧面 vs 光澤)
- 乾淨的背景在早期有幫助(您可以稍後添加複雜場景)
4.2 描述和觸發詞:角色 / 風格 / 產品 範本
您可以使用僅觸發詞或簡短一致的描述來訓練 Qwen 2512。
4.2.1 關鍵描述規則
如果某個特徵出現在許多訓練圖像中,但您從未在描述中提及它,模型可能會學習到觸發詞隱含地意味著該特徵——因此每次使用觸發詞時都會嘗試重現它。
這是 LoRA 啟動時「強制」某種髮型、服裝、背景顏色或相機風格的常見原因。
4.2.2 角色描述範本
推薦:使用觸發詞。保持描述簡短。
- 僅觸發詞:
[trigger] - 簡短描述:
portrait photo of [trigger], studio lighting, sharp focusphoto of [trigger], natural skin texture, realistic
避免過度描述面部部位(眼睛、鼻子等)。讓模型從圖像中學習身份。
4.2.3 風格描述範本
觸發詞是可選的。如果使用,您將獲得一個開/關開關。
- 無觸發詞,簡短描述:
in a watercolor illustration style, soft edges, pastel palette - 觸發詞 + 簡短描述:
[trigger], watercolor illustration, pastel palette, soft edges
對於風格,描述應該描述風格屬性,而不是場景內容。
4.2.4 產品/概念描述範本
強烈建議使用觸發詞以進行控制。
- 簡單:
product photo of [trigger], clean background, studio lighting - 如果產品有定義性特徵:
product photo of [trigger], transparent bottle, blue label, studio lighting
避免長描述。對於產品,一致的措辭可以提高幾何穩定性。
5. 逐步驟:AI-Toolkit 訓練 Qwen Image 2512 LoRA
本節遵循與 AI Toolkit 訓練介面相同的流程。首先建立資料集,然後逐個面板配置新任務。
5.1 步驟 0 – 選擇您的目標(角色 vs 風格 vs 產品)
在接觸設定之前,決定您要訓練什麼。這決定了描述、步驟和正則化的最佳預設值。
- 角色 / 相似度:最強的身份一致性(面部/外觀)。洩漏和快速過擬合的風險最高。
- 風格:一致的視覺外觀(調色盤/紋理/照明)。變成「萬能濾鏡」的風險最高。
- 產品 / 概念:穩定的物件身份和幾何形狀。形狀/材質漂移的風險最高。
如果不確定,先執行簡短的 smoke test(見下面的 TRAINING + SAMPLE),然後在看到資料集「印記」速度後確定步驟。
5.2 步驟 1 – 在 AI Toolkit 中建立資料集
在 AI Toolkit 介面中,開啟 Datasets 標籤。
建立至少一個資料集(範例名稱):
my_dataset_2512
將您的圖像上傳到此資料集。
資料集品質規則(所有目標)
- 將所有內容轉換為 RGB(避免灰階/CMYK)。
- 刪除損壞的檔案。
- 避免幾乎重複的圖像,除非您有意希望該外觀/姿勢佔主導地位。
建議的資料集大小
- 角色:15–50 張圖像
- 風格:30–200 張圖像(更多多樣性有幫助)
- 產品:20–80 張圖像(一致的構圖有幫助)
5.3 步驟 2 – 建立新任務
開啟 New Job 標籤。按照顯示順序配置每個面板。
5.3.1 JOB 面板 – Training Name, GPU ID, Trigger Word
- Training Name
選擇一個您以後能識別的清晰名稱(如
qwen_2512_character_v1、qwen_2512_style_v1、qwen_2512_product_v1)。 - GPU ID – 在本地安裝中,選擇您機器上的 GPU。在 RunComfy 雲端 AI Toolkit 中,將
GPU ID保留為預設值。實際的機器類型(H100 / H200)在您從 Training Queue 啟動任務時稍後選擇。 - Trigger Word
根據您的目標推薦使用:
- 角色:強烈推薦(提供乾淨的開/關控制並幫助防止洩漏)。
- 風格:可選(如果您想要「可呼叫風格」而不是始終開啟,請使用)。
- 產品:強烈推薦(幫助保持學習的概念可控)。
如果使用觸發詞,您的描述可以包含像 [trigger] 這樣的佔位符,並遵循一致的範本(見下文)。
5.3.2 MODEL 面板 – Model Architecture, Name or Path, Options
- Model Architecture
選擇
Qwen-Image-2512。 - Name or Path
使用
Qwen/Qwen-Image-2512。在大多數 AI Toolkit 版本中,選擇Qwen‑Image‑2512將自動填充此值。如果覆蓋,請使用 Hugging Face 儲存庫 ID 格式:
org-or-user/model-name(可選org-or-user/model-name@revision)。 - Options
- Low VRAM:在 24GB GPU 上進行 Qwen Image 2512 LoRA 訓練 時開啟。
- Layer Offloading:如果在使用量化、較低秩和較少桶後仍然出現 OOM,將此視為最後手段。
卸載順序(最佳實踐):
1) ARA + Low VRAM
2) 降低秩
3) 減少解析度桶
4) 降低取樣頻率/解析度
5) 然後啟用 Layer Offloading
5.3.3 QUANTIZATION 面板 – Transformer, Text Encoder
這是大多數 24GB Qwen Image 2512 LoRA 訓練 執行成功或失敗的地方。
- 24GB 基準線(推薦用於 1024 訓練)
- 量化 Transformer 並使用 ARA(先 3 位元,需要時 4 位元)。
- 如果需要額外的 VRAM 餘量,將 Text Encoder 量化為 float8。
- 大 VRAM GPU
如果訓練穩定且足夠快,您可以減少量化或停用它以簡化。
如果量化失敗(dtype/quantize 錯誤),首先將其視為工具相容性問題:
- 在 3 位元 ↔ 4 位元 ARA 之間切換,
- 更新 AI Toolkit/相依套件,
- 或暫時使用更高精度模式來驗證任務設定的其餘部分,然後返回 ARA。
5.3.4 TARGET 面板 – Target Type, Linear Rank
- Target Type:選擇
LoRA。 - Linear Rank
按目標推薦的起點:
- 角色:32
- 風格:16–32
- 產品:32
一般規則:
- 如果 OOM → 在觸碰其他一切之前先降低秩。
- 如果欠擬合 → 先調整 timesteps/steps/LR,然後考慮增加秩。
- 如果過擬合 → 減少重複/步驟,降低秩,增加多樣性,考慮 DOP。
5.3.5 SAVE 面板 – Data Type, Save Every, Max Step Saves to Keep
- Data Type:
BF16(穩定的預設值)。 - Save Every:
250(良好的檢查點頻率)。 - Max Step Saves to Keep:
4(控制磁碟使用量)。
5.3.6 TRAINING 面板 – 核心超參數
這些是大多數執行開始時的預設值:
- Batch Size:1
- Gradient Accumulation:1
- Optimizer:AdamW8Bit
- Learning Rate:0.0001
- Weight Decay:0.0001
- Timestep Type:Weighted
- Timestep Bias:Balanced
- Loss Type:Mean Squared Error
- Use EMA:關閉(對於 Qwen 2512 LoRA)
按目標的 Timestep Type 指南
- 角色:Weighted 是安全的基準線;如果相似度沒有鎖定或看起來不一致,嘗試更友好的身份 timestep 設定(通常能改善角色印記)。
- 風格:Weighted 通常可以;在增加步驟之前增加多樣性。
- 產品:Weighted 是穩定的基準線;如果幾何形狀漂移,首先減少重複或收緊描述/觸發詞。
步驟:角色 vs 風格 vs 產品 的推薦值
步驟不應該是單一的魔法數字。更可靠的方法是每張圖像的重複次數:
- 重複次數 ≈ (steps × batch_size × grad_accum) ÷ num_images
- 當 batch_size=1 且 grad_accum=1 時:steps ≈ 重複次數 × num_images
如果將 gradient accumulation 增加到 2 或 4,請相應減少步驟。
角色(相似度)每張圖像的重複次數
- Smoke test:30–50
- 典型最佳點:50–90
- 高相似度推進:90–120(注意洩漏)
範例(batch=1,accum=1):
| 圖像 | 30–50 重複 | 50–90 重複 | 90–120 重複 |
|---|---|---|---|
| 15 | 450–750 | 750–1350 | 1350–1800 |
| 25 | 750–1250 | 1250–2250 | 2250–3000 |
| 40 | 1200–2000 | 2000–3600 | 3600–4800 |
風格每張圖像的重複次數
- Smoke test:15–30
- 典型最佳點:25–60
- 上限:60–80(僅適用於大型、多樣化的資料集)
範例(batch=1,accum=1):
| 圖像 | 15–30 重複 | 25–60 重複 | 60–80 重複 |
|---|---|---|---|
| 30 | 450–900 | 750–1800 | 1800–2400 |
| 100 | 1500–3000 | 2500–6000 | 6000–8000 |
產品 / 概念每張圖像的重複次數
- Smoke test:20–40
- 典型最佳點:30–70
- 高保真度推進:70–90(僅當形狀/材質仍然欠擬合時)
範例(batch=1,accum=1):
| 圖像 | 20–40 重複 | 30–70 重複 | 70–90 重複 |
|---|---|---|---|
| 20 | 400–800 | 600–1400 | 1400–1800 |
| 50 | 1000–2000 | 1500–3500 | 3500–4500 |
| 80 | 1600–3200 | 2400–5600 | 5600–7200 |
Text Encoder 最佳化(TRAINING 右側)
- Unload TE
僅用於僅使用觸發詞的工作流程,您希望最小化 VRAM 使用且不依賴每張圖像的描述。
- Cache Text Embeddings
僅在以下情況下啟用:
- 描述是靜態的,
- caption dropout 關閉,
- DOP 關閉。
如果您使用 caption dropout 或 DOP,請保持關閉。
正則化(TRAINING 右側)
Differential Output Preservation (DOP) 可以幫助防止洩漏。
- DOP 的作用
鼓勵 LoRA 表現得像一個受控的增量:
- 當觸發詞存在時有強烈效果,
- 當觸發詞不存在時效果最小。
- 何時啟用 DOP
- 角色:通常是(特別是為了乾淨的觸發詞開/關行為)。
- 風格:可選(如果您想要可呼叫的風格,請使用)。
- 產品:如果產品身份洩漏到所有內容中,推薦使用。
Qwen Image 2512 LoRA 訓練 的關鍵相容性規則
如果 DOP 開啟,不要快取 text embeddings。
Blank Prompt Preservation
除非您有特定原因要保留空提示詞的行為,否則保持關閉。
5.3.7 ADVANCED 面板 – 速度和穩定性選項
- Do Differential Guidance
增加「學習訊號」的可選旋鈕。如果啟用,從保守值(中間值)開始,僅在學習感覺太慢時增加。
- Latent caching
在 DATASETS 部分,您可以啟用 Cache Latents(如果您有足夠的磁碟空間並希望更快地迭代,推薦用於速度)。
5.3.8 DATASETS 面板 – Target Dataset, Default Caption, Settings, Resolutions
在 Dataset 1 內:
- Target Dataset
選擇您上傳的資料集(如
my_dataset_2512)。 - Default Caption
根據您的描述策略選擇:
- 僅觸發詞:保持為空或僅
[trigger] - 簡短描述:為整個資料集使用一個一致的範本
描述範本:
- 角色:
portrait photo of [trigger], studio lighting, sharp focus - 風格:
[trigger], watercolor illustration, pastel palette, soft edges(觸發詞可選) - 產品:
product photo of [trigger], clean background, studio lighting
關鍵描述規則
如果某個特徵出現在許多訓練圖像中,但您從未在描述中提及它,模型可能會學習到觸發詞隱含地意味著該特徵——因此每次使用觸發詞時都會嘗試重現它。
- Caption Dropout Rate
當您不快取 text embeddings 時,
0.05是常見的起點。如果啟用 text embedding 快取,請將 dropout 設定為
0。 - Settings
- Cache Latents:推薦用於速度(特別是在大型資料集上)。
- Is Regularization:僅當此資料集是正則化資料集時使用。
- Flip X / Flip Y:預設關閉。僅當鏡像翻轉對您的主體/產品安全時啟用(注意:翻轉可能會破壞文字/標誌)。
- Resolutions
從簡單開始:
- 角色:僅 1024(乾淨的印記),需要時稍後添加 768
- 風格:如果資料集混合尺寸,則為 768 + 1024
- 產品:早期僅 1024,形狀穩定後添加另一個桶
5.3.9 SAMPLE 面板 – 訓練預覽
取樣是 Qwen Image 2512 LoRA 訓練 的早期預警系統。
推薦預設值:
- Sample Every:250
- Sampler:FlowMatch(匹配訓練)
- Guidance Scale:4
- Sample Steps:25
- Width/Height:匹配您的主要訓練桶(通常是 1024×1024)
- Seed:42
- Walk Seed:可選(預覽中更多多樣性)
早期停止訊號
- 角色:相似度達到峰值然後過度處理;身份洩漏開始;提示詞保真度下降。
- 風格:變成「萬能濾鏡」;出現重複紋理;提示詞不再被尊重。
- 產品:改善後幾何形狀變形;標籤/標誌變得過於強勢;材質退化。
5.4 步驟 3 – 啟動訓練並監控
配置任務後,前往 Training Queue,選擇您的任務並開始訓練。
觀察兩件事:
- VRAM 使用情況(特別是 24GB GPU)
- 樣本圖像(它們告訴您何時停止以及哪個檢查點最好)
大多數使用者透過從取樣中選擇最佳檢查點(通常更早)而不是總是完成最大步驟來獲得更好的 Qwen 2512 LoRA 訓練 結果。
6. 按 VRAM 等級推薦的 Qwen Image 2512 LoRA 訓練 配置
Qwen 2512 是大模型。對於實用的 Qwen-Image-2512 LoRA 訓練,請按等級思考:
- 24GB VRAM(常見):可行,但通常需要低位元量化 + ARA 才能進行 1024 訓練
- 40–48GB VRAM:較少妥協的舒適 1024 訓練
- 80GB+ VRAM:最簡單的設定、最快的迭代、較少需要最佳化記憶體
如果低於 24GB:有時可以使用激進的記憶體策略在較低解析度(如 768)下訓練,但預計執行速度較慢且穩定性較差。
如果您需要以下任何一項,請使用 ARA:
- 在 24GB 上以 1024×1024 訓練 Qwen 2512
- 減少 OOM 問題
- 無需大量 CPU 卸載即可穩定收斂
7. 常見的 Qwen-Image-2512 LoRA 訓練 問題及解決方法
7.1 啟動時量化失敗(Qwen-Image-2512 上的 ARA / dtype 不匹配)
症狀
- 訓練在啟動期間立即停止。
- 出現「Failed to quantize … Expected dtype …」等錯誤。
原因
- 選定的 ARA 或量化模式與當前的 AI Toolkit 版本或環境不完全相容。
修復(最快順序)
- 將 AI Toolkit 和相依套件更新到已知支援 Qwen-Image-2512 的版本。
- 切換 ARA 模式:
- 如果 3 位元 ARA 失敗 → 嘗試 4 位元 ARA。
- 如果 4 位元 ARA 失敗 → 嘗試 3 位元 ARA。
- 暫時使用更高精度的量化模式來確認訓練設定的其餘部分正常工作,然後切換回 ARA。
7.2 當 batch size > 1 時角色身份變得通用
症狀
- 早期樣本看起來很有希望,但最終的 LoRA 感覺「平均化」了。
- 角色不再看起來像特定的人。
原因
- 較大的批次可能會鼓勵 Qwen 2512 LoRA 訓練 中角色的過度泛化。
修復
- 優先選擇 Batch Size = 1 和 Gradient Accumulation = 1。
- 如果需要更大的有效批次,增加 Gradient Accumulation 而不是 Batch Size,並密切監控樣本。
7.3 相似度從未「鎖定」(錯誤的 timestep 行為)
症狀
- 服裝、姿勢或氛圍是正確的,但面部或身份不一致。
- 結果在不同提示詞之間差異很大。
原因
- 對於逼真的角色,Qwen-Image-2512 通常對 sigmoid 類型的 timestep 行為比加權 timesteps 回應更好。
修復
- 對於角色(通常也包括產品)LoRA,將 Timestep Type 切換為
sigmoid。 - 盡早評估樣本;不要等到訓練結束。
7.4 面部在後期檢查點變得「焦糊」或蠟狀
症狀
- 一個檢查點看起來很棒,但後面的檢查點看起來過度銳化、塑膠感或不穩定。
- 身份洩漏快速增加。
原因
- Qwen Image 2512 LoRA 訓練 中的角色 LoRA 一旦超過大約 ~100 次每張圖像的重複,可能會快速退化。
修復
- 選擇一個較早的檢查點(通常是最佳解決方案)。
- 減少總重複/步驟數並保持在推薦範圍內。
- 如果需要,在增加步驟之前降低 LoRA 秩或添加更多資料集多樣性。
7.5 風格 LoRA 不一致或表現得像「萬能濾鏡」
症狀
- 有時風格出現,有時不出現。
- 或者它總是覆蓋提示詞內容。
原因
- 風格 LoRA 通常需要比角色 LoRA 更多的資料集廣度和更長的總體訓練時間。
修復
- 添加更多多樣化的風格範例(人物、物體、環境)。
- 保持每張圖像的重複次數合理,透過更多圖像而不是極端重複來增加總訊號。
- 經常取樣以避免風格變成粗暴的全域濾鏡。
8. 訓練後使用您的 Qwen 2512 LoRA
訓練完成後,您可以透過兩種簡單方式使用您的 Qwen 2512 LoRA:
- Model playground – 開啟 Qwen‑Image‑2512 LoRA playground 並貼上您訓練的 LoRA 的 URL,快速查看它在基礎模型上的表現。
- ComfyUI 工作流程 – 啟動一個 ComfyUI 實例,建構您自己的工作流程或載入一個像 Qwen Image 2512 這樣的工作流程,添加一個 LoRA 載入器節點並放入您的 LoRA,然後微調 LoRA 權重和其他設定以進行更詳細的控制。
在推理中測試您的 Qwen 2512 LoRA
角色測試
- 特寫肖像提示詞
- 中景提示詞
- 全身提示詞
風格測試
- 多個主體類別(人物/物體/環境)
產品測試
- 乾淨的工作室提示詞 + 一個複雜場景提示詞
更多 AI Toolkit LoRA 訓練指南
Ready to start training?

