AI Toolkit LoRA Training Guides

使用Ostris AI Toolkit進行Qwen 2512 LoRA訓練(Qwen-Image-2512)

本教學說明如何用Ostris AI Toolkit訓練Qwen-Image-2512 LoRA:適用於角色、風格與產品/概念的推薦預設,資料集與觸發詞設定,何時啟用ARA + Low VRAM(例如24GB顯存),如何透過取樣監控訓練效果,以及常見訓練失敗的排查與修復方法。

Train Diffusion Models with Ostris AI Toolkit

水平滾動查看完整表單

Ostris AI ToolkitOstrisAI-Toolkit

New Training Job

Job

Model

Quantization

Target

Save

Training

Datasets

Dataset 1

Sample

Qwen‑Image‑2512(通常簡稱為 Qwen 2512)是一個大型文生圖基礎模型,可以透過小型適配器進行微調,從而可靠地學習角色(相似度)風格產品/概念。本指南將向您展示如何使用 Ostris AI Toolkit 進行實用的 Qwen Image 2512 LoRA 訓練,包含穩定的預設設定和常見問題的解決方案。

完成本 Qwen Image 2512 LoRA 訓練 指南後,您將能夠:

  • 為 Qwen-Image-2512 上的角色 vs 風格 vs 產品 LoRA 選擇正確的預設設定。
  • 規劃 VRAM 需求並決定何時使用 ARA
  • 建構資料集、描述和觸發詞,避免常見的失敗模式(過擬合/洩漏)。
  • 執行簡短的 smoke test,然後自信地確定步驟和設定。
本文是 AI Toolkit LoRA 訓練系列的一部分。如果您是 Ostris AI Toolkit 新手,請在深入本 Qwen-Image-2512 LoRA 訓練 指南之前先閱讀 AI Toolkit LoRA 訓練概述

目錄


1. Qwen‑Image‑2512 概述:這個文生圖模型能做什麼

什麼是 Qwen Image 2512 LoRA 訓練(以及什麼是「好」)

Qwen Image 2512 LoRA 訓練 中,您不是在替換基礎模型——而是添加一個小型適配器,將其引導向特定的身份、風格或產品概念。

一個強大的 LoRA 具有三個特質:

  • 強度:啟動時明顯改變輸出
  • 控制:僅在您需要時啟動
  • 泛化:適用於新提示詞,而不僅僅是訓練圖像

選擇您的目標:角色 vs 風格 vs 產品/概念

您的目標決定了 Qwen 2512 LoRA 訓練 中資料集設計和訓練設定的最佳預設值。

角色 / 相似度

  • 最適合:特定人物、角色、明星相似度、一致的面部/身份
  • 主要風險:身份洩漏(影響其他人)、過度處理的面部、快速過擬合
  • 需要:更嚴格的 timestep 策略、謹慎的步數、通常需要觸發詞、經常使用 DOP

風格

  • 最適合:外觀/色調、插畫風格、光照風格、紋理語言
  • 主要風險:變成「萬能濾鏡」、失去提示詞保真度
  • 需要:更多多樣性、通常比角色更少的重複次數/圖像、觸發詞可選

產品 / 概念

  • 最適合:特定產品(鞋子、瓶子)、帶標誌的包裝、新的物件概念
  • 主要風險:形狀漂移、材質不一致、幾何形狀不穩定
  • 需要:一致的構圖 + 乾淨的描述;通常推薦使用觸發詞
如果不確定,先將 Qwen Image 2512 LoRA 訓練 作為 smoke test(短期執行)啟動,然後在看到資料集「印記」速度後確定最終步驟。

2. 環境選項:本地 AI Toolkit vs RunComfy 雲端 AI Toolkit

對於 Qwen-Image-2512 LoRA 訓練,您可以使用與其他 AI Toolkit LoRA 工作流程相同的兩種環境

  • 在您自己的 GPU 上執行的本地 AI Toolkit
  • 在 RunComfy 上使用大型 GPU(H100 / H200)的雲端 AI Toolkit

兩種情況下的訓練介面、參數和工作流程都是相同的。唯一的差異是 GPU 的位置以及您可用的 VRAM 量。


2.1 本地 AI Toolkit(您自己的 GPU)

AI Toolkit GitHub 儲存庫 安裝 AI Toolkit,然後執行 Web UI。如果滿足以下條件,本地訓練是一個好選擇:

  • 您已經有 NVIDIA GPU(通常需要 24GB VRAM 或更多才能舒適地進行 1024 訓練)
  • 您熟悉管理 CUDA、驅動程式、磁碟空間和長時間執行的任務

2.2 RunComfy 雲端 AI Toolkit(H100 / H200)

使用 RunComfy 雲端 AI Toolkit,AI-Toolkit 訓練 Qwen Image 2512 LoRA 完全在瀏覽器中執行:

  • 無需在本地安裝任何東西
  • 開啟瀏覽器、登入,直接進入 AI Toolkit 訓練介面
  • 啟動任務時可以選擇 H100(80GB)H200(141GB)大型 GPU
  • 您將獲得一個持久化工作區,資料集、配置和檢查點會被儲存,可以在工作階段之間重複使用

當您需要以下情況時,此環境對於 Qwen Image 2512 LoRA 微調 特別有用:

  • 希望在 1024×1024 下更快迭代,無需使用激進的記憶體技巧
  • 想要嘗試更大的 LoRA 秩、更多的桶或更大的批次大小
  • 不想花時間除錯 CUDA 或驅動程式問題

👉 在這裡開啟:RunComfy 雲端 AI Toolkit


3. Qwen 2512 LoRA 訓練 的硬體和 VRAM 要求

3.1 硬體規劃:VRAM 等級以及何時需要 ARA

Qwen 2512 是大模型。對於實用的 Qwen Image 2512 LoRA 訓練,請按等級思考:

  • 24GB VRAM(常見):可行,但通常需要低位元量化 + ARA 才能進行 1024 訓練
  • 40–48GB VRAM:較少妥協的舒適 1024 訓練
  • 80GB+ VRAM:最簡單的設定、最快的迭代、較少需要最佳化記憶體

如果低於 24GB:有時可以使用激進的記憶體策略在較低解析度(如 768)下訓練,但預計執行速度較慢且穩定性較差。


3.2 ARA 說明:它是什麼、何時使用以及如何影響訓練

什麼是 ARA

ARA(精度恢復適配器)是與極低位元量化(通常是 3 位元或 4 位元)一起使用的恢復機制。基礎模型以量化方式執行以節省 VRAM,而 ARA 幫助恢復因量化而損失的精度。

何時為 Qwen 2512 使用 ARA

如果您需要以下任何一項,請使用 ARA:

  • 24GB 上以 1024×1024 訓練 Qwen 2512
  • 減少 OOM 問題
  • 無需大量 CPU 卸載即可穩定收斂

ARA 如何影響訓練(權衡)

優點

  • 使消費級 GPU 上的 1024 訓練成為可能
  • 與「簡單低位元」量化相比,通常能提高穩定性

缺點

  • 增加了額外的可變因素(工具/版本相容性很重要)
  • 如果量化失敗,可能需要調整量化模式或更新環境

Qwen Image 2512 LoRA 訓練 實用指南

  • 在 24GB 上從 3 位元 ARA 開始
  • 如果出現量化錯誤,嘗試 4 位元 ARA
  • 如果問題仍然存在,暫時使用更高精度的量化模式來驗證管道的其餘部分,然後返回 ARA

4. 建構 Qwen Image 2512 LoRA 微調 訓練資料集

4.1 資料集設計:每個目標需要收集什麼

大多數 Qwen Image 2512 LoRA 訓練 失敗實際上是偽裝的資料集失敗。

通用規則

  • 將所有內容轉換為 RGB(避免灰階/CMYK)
  • 刪除損壞的圖像
  • 避免幾乎重複的圖像,除非您有意希望該鏡頭佔主導地位
  • 盡可能保持解析度一致(或使用少量桶)

角色資料集(15–50 張圖像)

目標:

  • 30–60% 特寫 / 頭肩照
  • 30–50% 中景
  • 10–20% 全身(可選,但有助於服裝/姿勢泛化)

保持光照和背景足夠多樣化,使「身份」成為一致的訊號。

風格資料集(30–200 張圖像)

目標:

  • 廣泛的主題多樣性(人物、物體、環境)
  • 多樣的構圖和顏色情況
  • 一致的風格線索(筆觸、陰影、調色盤、膠片顆粒等)

在 Qwen-Image-2512 LoRA 訓練 中,當風格是唯一一致的因素時,風格 LoRA 的泛化效果更好。

產品 / 概念資料集(20–80 張圖像)

目標:

  • 一致的角度和構圖(正面/側面/45度)
  • 畫面中產品比例一致(避免極端的縮放差異)
  • 如果材質重要,多種照明條件(霧面 vs 光澤)
  • 乾淨的背景在早期有幫助(您可以稍後添加複雜場景)

4.2 描述和觸發詞:角色 / 風格 / 產品 範本

您可以使用僅觸發詞簡短一致的描述來訓練 Qwen 2512。

4.2.1 關鍵描述規則

如果某個特徵出現在許多訓練圖像中,但您從未在描述中提及它,模型可能會學習到觸發詞隱含地意味著該特徵——因此每次使用觸發詞時都會嘗試重現它。

這是 LoRA 啟動時「強制」某種髮型、服裝、背景顏色或相機風格的常見原因。

4.2.2 角色描述範本

推薦:使用觸發詞。保持描述簡短。

  • 僅觸發詞:

    [trigger]

  • 簡短描述:

    portrait photo of [trigger], studio lighting, sharp focus

    photo of [trigger], natural skin texture, realistic

避免過度描述面部部位(眼睛、鼻子等)。讓模型從圖像中學習身份。

4.2.3 風格描述範本

觸發詞是可選的。如果使用,您將獲得一個開/關開關。

  • 無觸發詞,簡短描述:

    in a watercolor illustration style, soft edges, pastel palette

  • 觸發詞 + 簡短描述:

    [trigger], watercolor illustration, pastel palette, soft edges

對於風格,描述應該描述風格屬性,而不是場景內容。

4.2.4 產品/概念描述範本

強烈建議使用觸發詞以進行控制。

  • 簡單:

    product photo of [trigger], clean background, studio lighting

  • 如果產品有定義性特徵:

    product photo of [trigger], transparent bottle, blue label, studio lighting

避免長描述。對於產品,一致的措辭可以提高幾何穩定性。


5. 逐步驟:AI-Toolkit 訓練 Qwen Image 2512 LoRA

本節遵循與 AI Toolkit 訓練介面相同的流程。首先建立資料集,然後逐個面板配置新任務。

5.1 步驟 0 – 選擇您的目標(角色 vs 風格 vs 產品)

在接觸設定之前,決定您要訓練什麼。這決定了描述、步驟和正則化的最佳預設值。

  • 角色 / 相似度:最強的身份一致性(面部/外觀)。洩漏和快速過擬合的風險最高。
  • 風格:一致的視覺外觀(調色盤/紋理/照明)。變成「萬能濾鏡」的風險最高。
  • 產品 / 概念:穩定的物件身份和幾何形狀。形狀/材質漂移的風險最高。

如果不確定,先執行簡短的 smoke test(見下面的 TRAINING + SAMPLE),然後在看到資料集「印記」速度後確定步驟。


5.2 步驟 1 – 在 AI Toolkit 中建立資料集

在 AI Toolkit 介面中,開啟 Datasets 標籤。

建立至少一個資料集(範例名稱):

  • my_dataset_2512

將您的圖像上傳到此資料集。

資料集品質規則(所有目標)

  • 將所有內容轉換為 RGB(避免灰階/CMYK)。
  • 刪除損壞的檔案。
  • 避免幾乎重複的圖像,除非您有意希望該外觀/姿勢佔主導地位。

建議的資料集大小

  • 角色:15–50 張圖像
  • 風格:30–200 張圖像(更多多樣性有幫助)
  • 產品:20–80 張圖像(一致的構圖有幫助)

5.3 步驟 2 – 建立新任務

開啟 New Job 標籤。按照顯示順序配置每個面板。


5.3.1 JOB 面板 – Training Name, GPU ID, Trigger Word

  • Training Name

    選擇一個您以後能識別的清晰名稱(如 qwen_2512_character_v1qwen_2512_style_v1qwen_2512_product_v1)。

  • GPU ID – 在本地安裝中,選擇您機器上的 GPU。在 RunComfy 雲端 AI Toolkit 中,將 GPU ID 保留為預設值。實際的機器類型(H100 / H200)在您從 Training Queue 啟動任務時稍後選擇。
  • Trigger Word

    根據您的目標推薦使用:

    • 角色:強烈推薦(提供乾淨的開/關控制並幫助防止洩漏)。
    • 風格:可選(如果您想要「可呼叫風格」而不是始終開啟,請使用)。
    • 產品:強烈推薦(幫助保持學習的概念可控)。

如果使用觸發詞,您的描述可以包含像 [trigger] 這樣的佔位符,並遵循一致的範本(見下文)。


5.3.2 MODEL 面板 – Model Architecture, Name or Path, Options

  • Model Architecture

    選擇 Qwen-Image-2512

  • Name or Path

    使用 Qwen/Qwen-Image-2512。在大多數 AI Toolkit 版本中,選擇 Qwen‑Image‑2512自動填充此值。

    如果覆蓋,請使用 Hugging Face 儲存庫 ID 格式:org-or-user/model-name(可選 org-or-user/model-name@revision)。

  • Options
    • Low VRAM:在 24GB GPU 上進行 Qwen Image 2512 LoRA 訓練 時開啟。
    • Layer Offloading:如果在使用量化、較低秩和較少桶後仍然出現 OOM,將此視為最後手段。

卸載順序(最佳實踐):

1) ARA + Low VRAM

2) 降低秩

3) 減少解析度桶

4) 降低取樣頻率/解析度

5) 然後啟用 Layer Offloading


5.3.3 QUANTIZATION 面板 – Transformer, Text Encoder

這是大多數 24GB Qwen Image 2512 LoRA 訓練 執行成功或失敗的地方。

  • 24GB 基準線(推薦用於 1024 訓練)
    • 量化 Transformer 並使用 ARA(先 3 位元,需要時 4 位元)。
    • 如果需要額外的 VRAM 餘量,將 Text Encoder 量化為 float8。
  • 大 VRAM GPU

    如果訓練穩定且足夠快,您可以減少量化或停用它以簡化。

如果量化失敗(dtype/quantize 錯誤),首先將其視為工具相容性問題:

  • 在 3 位元 ↔ 4 位元 ARA 之間切換,
  • 更新 AI Toolkit/相依套件,
  • 或暫時使用更高精度模式來驗證任務設定的其餘部分,然後返回 ARA。

5.3.4 TARGET 面板 – Target Type, Linear Rank

  • Target Type:選擇 LoRA
  • Linear Rank

    按目標推薦的起點:

    • 角色:32
    • 風格:16–32
    • 產品:32

一般規則:

  • 如果 OOM → 在觸碰其他一切之前先降低秩。
  • 如果欠擬合 → 先調整 timesteps/steps/LR,然後考慮增加秩。
  • 如果過擬合 → 減少重複/步驟,降低秩,增加多樣性,考慮 DOP。

5.3.5 SAVE 面板 – Data Type, Save Every, Max Step Saves to Keep

  • Data TypeBF16(穩定的預設值)。
  • Save Every250(良好的檢查點頻率)。
  • Max Step Saves to Keep4(控制磁碟使用量)。

5.3.6 TRAINING 面板 – 核心超參數

這些是大多數執行開始時的預設值:

  • Batch Size:1
  • Gradient Accumulation:1
  • Optimizer:AdamW8Bit
  • Learning Rate:0.0001
  • Weight Decay:0.0001
  • Timestep Type:Weighted
  • Timestep Bias:Balanced
  • Loss Type:Mean Squared Error
  • Use EMA:關閉(對於 Qwen 2512 LoRA)

按目標的 Timestep Type 指南

  • 角色:Weighted 是安全的基準線;如果相似度沒有鎖定或看起來不一致,嘗試更友好的身份 timestep 設定(通常能改善角色印記)。
  • 風格:Weighted 通常可以;在增加步驟之前增加多樣性。
  • 產品:Weighted 是穩定的基準線;如果幾何形狀漂移,首先減少重複或收緊描述/觸發詞。
步驟:角色 vs 風格 vs 產品 的推薦值

步驟不應該是單一的魔法數字。更可靠的方法是每張圖像的重複次數

  • 重複次數 ≈ (steps × batch_size × grad_accum) ÷ num_images
  • 當 batch_size=1 且 grad_accum=1 時:steps ≈ 重複次數 × num_images

如果將 gradient accumulation 增加到 2 或 4,請相應減少步驟。

角色(相似度)每張圖像的重複次數

  • Smoke test:30–50
  • 典型最佳點:50–90
  • 高相似度推進:90–120(注意洩漏)

範例(batch=1,accum=1):

圖像 30–50 重複 50–90 重複 90–120 重複
15 450–750 750–1350 1350–1800
25 750–1250 1250–2250 2250–3000
40 1200–2000 2000–3600 3600–4800

風格每張圖像的重複次數

  • Smoke test:15–30
  • 典型最佳點:25–60
  • 上限:60–80(僅適用於大型、多樣化的資料集)

範例(batch=1,accum=1):

圖像 15–30 重複 25–60 重複 60–80 重複
30 450–900 750–1800 1800–2400
100 1500–3000 2500–6000 6000–8000

產品 / 概念每張圖像的重複次數

  • Smoke test:20–40
  • 典型最佳點:30–70
  • 高保真度推進:70–90(僅當形狀/材質仍然欠擬合時)

範例(batch=1,accum=1):

圖像 20–40 重複 30–70 重複 70–90 重複
20 400–800 600–1400 1400–1800
50 1000–2000 1500–3500 3500–4500
80 1600–3200 2400–5600 5600–7200

Text Encoder 最佳化(TRAINING 右側)
  • Unload TE

    僅用於僅使用觸發詞的工作流程,您希望最小化 VRAM 使用且不依賴每張圖像的描述。

  • Cache Text Embeddings

    僅在以下情況下啟用:

    • 描述是靜態的,
    • caption dropout 關閉,
    • DOP 關閉。

如果您使用 caption dropout 或 DOP,請保持關閉。


正則化(TRAINING 右側)

Differential Output Preservation (DOP) 可以幫助防止洩漏。

  • DOP 的作用

    鼓勵 LoRA 表現得像一個受控的增量:

    • 當觸發詞存在時有強烈效果,
    • 當觸發詞不存在時效果最小。
  • 何時啟用 DOP
    • 角色:通常是(特別是為了乾淨的觸發詞開/關行為)。
    • 風格:可選(如果您想要可呼叫的風格,請使用)。
    • 產品:如果產品身份洩漏到所有內容中,推薦使用。

Qwen Image 2512 LoRA 訓練 的關鍵相容性規則

如果 DOP 開啟,不要快取 text embeddings。

Blank Prompt Preservation

除非您有特定原因要保留空提示詞的行為,否則保持關閉。


5.3.7 ADVANCED 面板 – 速度和穩定性選項

  • Do Differential Guidance

    增加「學習訊號」的可選旋鈕。如果啟用,從保守值(中間值)開始,僅在學習感覺太慢時增加。

  • Latent caching

    DATASETS 部分,您可以啟用 Cache Latents(如果您有足夠的磁碟空間並希望更快地迭代,推薦用於速度)。


5.3.8 DATASETS 面板 – Target Dataset, Default Caption, Settings, Resolutions

Dataset 1 內:

  • Target Dataset

    選擇您上傳的資料集(如 my_dataset_2512)。

  • Default Caption

    根據您的描述策略選擇:

    • 僅觸發詞:保持為空或僅 [trigger]
    • 簡短描述:為整個資料集使用一個一致的範本

描述範本:

  • 角色:portrait photo of [trigger], studio lighting, sharp focus
  • 風格:[trigger], watercolor illustration, pastel palette, soft edges(觸發詞可選)
  • 產品:product photo of [trigger], clean background, studio lighting

關鍵描述規則

如果某個特徵出現在許多訓練圖像中,但您從未在描述中提及它,模型可能會學習到觸發詞隱含地意味著該特徵——因此每次使用觸發詞時都會嘗試重現它。

  • Caption Dropout Rate

    當您不快取 text embeddings 時,0.05 是常見的起點。

    如果啟用 text embedding 快取,請將 dropout 設定為 0

  • Settings
    • Cache Latents:推薦用於速度(特別是在大型資料集上)。
    • Is Regularization:僅當此資料集是正則化資料集時使用。
    • Flip X / Flip Y:預設關閉。僅當鏡像翻轉對您的主體/產品安全時啟用(注意:翻轉可能會破壞文字/標誌)。
  • Resolutions

    從簡單開始:

    • 角色:僅 1024(乾淨的印記),需要時稍後添加 768
    • 風格:如果資料集混合尺寸,則為 768 + 1024
    • 產品:早期僅 1024,形狀穩定後添加另一個桶

5.3.9 SAMPLE 面板 – 訓練預覽

取樣是 Qwen Image 2512 LoRA 訓練 的早期預警系統。

推薦預設值:

  • Sample Every:250
  • Sampler:FlowMatch(匹配訓練)
  • Guidance Scale:4
  • Sample Steps:25
  • Width/Height:匹配您的主要訓練桶(通常是 1024×1024)
  • Seed:42
  • Walk Seed:可選(預覽中更多多樣性)

早期停止訊號

  • 角色:相似度達到峰值然後過度處理;身份洩漏開始;提示詞保真度下降。
  • 風格:變成「萬能濾鏡」;出現重複紋理;提示詞不再被尊重。
  • 產品:改善後幾何形狀變形;標籤/標誌變得過於強勢;材質退化。

5.4 步驟 3 – 啟動訓練並監控

配置任務後,前往 Training Queue,選擇您的任務並開始訓練。

觀察兩件事:

  • VRAM 使用情況(特別是 24GB GPU)
  • 樣本圖像(它們告訴您何時停止以及哪個檢查點最好)

大多數使用者透過從取樣中選擇最佳檢查點(通常更早)而不是總是完成最大步驟來獲得更好的 Qwen 2512 LoRA 訓練 結果。


6. 按 VRAM 等級推薦的 Qwen Image 2512 LoRA 訓練 配置

Qwen 2512 是大模型。對於實用的 Qwen-Image-2512 LoRA 訓練,請按等級思考:

  • 24GB VRAM(常見):可行,但通常需要低位元量化 + ARA 才能進行 1024 訓練
  • 40–48GB VRAM:較少妥協的舒適 1024 訓練
  • 80GB+ VRAM:最簡單的設定、最快的迭代、較少需要最佳化記憶體

如果低於 24GB:有時可以使用激進的記憶體策略在較低解析度(如 768)下訓練,但預計執行速度較慢且穩定性較差。

如果您需要以下任何一項,請使用 ARA:

  • 24GB 上以 1024×1024 訓練 Qwen 2512
  • 減少 OOM 問題
  • 無需大量 CPU 卸載即可穩定收斂

7. 常見的 Qwen-Image-2512 LoRA 訓練 問題及解決方法

7.1 啟動時量化失敗(Qwen-Image-2512 上的 ARA / dtype 不匹配)

症狀

  • 訓練在啟動期間立即停止。
  • 出現「Failed to quantize … Expected dtype …」等錯誤。

原因

  • 選定的 ARA 或量化模式與當前的 AI Toolkit 版本或環境不完全相容。

修復(最快順序)

  1. 將 AI Toolkit 和相依套件更新到已知支援 Qwen-Image-2512 的版本。
  2. 切換 ARA 模式:
    • 如果 3 位元 ARA 失敗 → 嘗試 4 位元 ARA
    • 如果 4 位元 ARA 失敗 → 嘗試 3 位元 ARA
  3. 暫時使用更高精度的量化模式來確認訓練設定的其餘部分正常工作,然後切換回 ARA。

7.2 當 batch size > 1 時角色身份變得通用

症狀

  • 早期樣本看起來很有希望,但最終的 LoRA 感覺「平均化」了。
  • 角色不再看起來像特定的人。

原因

  • 較大的批次可能會鼓勵 Qwen 2512 LoRA 訓練 中角色的過度泛化。

修復

  • 優先選擇 Batch Size = 1Gradient Accumulation = 1
  • 如果需要更大的有效批次,增加 Gradient Accumulation 而不是 Batch Size,並密切監控樣本。

7.3 相似度從未「鎖定」(錯誤的 timestep 行為)

症狀

  • 服裝、姿勢或氛圍是正確的,但面部或身份不一致。
  • 結果在不同提示詞之間差異很大。

原因

  • 對於逼真的角色,Qwen-Image-2512 通常對 sigmoid 類型的 timestep 行為比加權 timesteps 回應更好。

修復

  • 對於角色(通常也包括產品)LoRA,將 Timestep Type 切換為 sigmoid
  • 盡早評估樣本;不要等到訓練結束。

7.4 面部在後期檢查點變得「焦糊」或蠟狀

症狀

  • 一個檢查點看起來很棒,但後面的檢查點看起來過度銳化、塑膠感或不穩定。
  • 身份洩漏快速增加。

原因

  • Qwen Image 2512 LoRA 訓練 中的角色 LoRA 一旦超過大約 ~100 次每張圖像的重複,可能會快速退化。

修復

  1. 選擇一個較早的檢查點(通常是最佳解決方案)。
  2. 減少總重複/步驟數並保持在推薦範圍內。
  3. 如果需要,在增加步驟之前降低 LoRA 秩或添加更多資料集多樣性。

7.5 風格 LoRA 不一致或表現得像「萬能濾鏡」

症狀

  • 有時風格出現,有時不出現。
  • 或者它總是覆蓋提示詞內容。

原因

  • 風格 LoRA 通常需要比角色 LoRA 更多的資料集廣度和更長的總體訓練時間。

修復

  • 添加更多多樣化的風格範例(人物、物體、環境)。
  • 保持每張圖像的重複次數合理,透過更多圖像而不是極端重複來增加總訊號。
  • 經常取樣以避免風格變成粗暴的全域濾鏡。

8. 訓練後使用您的 Qwen 2512 LoRA

訓練完成後,您可以透過兩種簡單方式使用您的 Qwen 2512 LoRA:

  • Model playground – 開啟 Qwen‑Image‑2512 LoRA playground 並貼上您訓練的 LoRA 的 URL,快速查看它在基礎模型上的表現。
  • ComfyUI 工作流程 – 啟動一個 ComfyUI 實例,建構您自己的工作流程或載入一個像 Qwen Image 2512 這樣的工作流程,添加一個 LoRA 載入器節點並放入您的 LoRA,然後微調 LoRA 權重和其他設定以進行更詳細的控制。

在推理中測試您的 Qwen 2512 LoRA

角色測試

  • 特寫肖像提示詞
  • 中景提示詞
  • 全身提示詞

風格測試

  • 多個主體類別(人物/物體/環境)

產品測試

  • 乾淨的工作室提示詞 + 一個複雜場景提示詞

更多 AI Toolkit LoRA 訓練指南

Ready to start training?