AI Toolkit LoRA 訓練指南

使用Ostris AI Toolkit進行Qwen-Image-Edit-2509 LoRA訓練

本教學說明如何用Ostris AI Toolkit訓練Qwen-Image-Edit-2509 LoRA,用於多圖、geometry-aware指令編輯。你將學到試穿(try-on)、重打光(relighting)與物件替換(replacement)的三元組資料集建置方式,如何啟用3-bit ARA量化與Low VRAM模式,以及如何依顯存檔位(<10GB到H100/H200)調整DOP(Differential Output Preservation)等關鍵參數,穩定獲得可控的編輯效果。

使用 Ostris AI Toolkit 訓練擴散模型

水平滾動查看完整表單

Ostris AI ToolkitOstrisAI-Toolkit

New Training Job

Job

Model

Use a Hugging Face repo ID (e.g. owner/model-name).
⚠️ full URLs, .safetensors files, and local files are not supported.

Quantization

Target

Save

Training

Datasets

Dataset 1

Sample

Qwen‑Image‑Edit‑2509 是一個 20B 參數的多圖編輯模型,可同時處理最多三張圖片(目標圖、控制圖和設計圖),實現精準的幾何感知編輯。本指南將教你如何進行 Qwen Edit 2509 LoRA 訓練。學完本教程後,你將能夠:

  • 使用 AI Toolkit by Ostris 完成 Qwen Edit 2509 LoRA 訓練,實現可靠的定向編輯任務(例如將任意設計圖印到襯衫上)。
  • 本地運行整個 Qwen-Edit-2509 LoRA 訓練流程(即使 VRAM < 10GB 也能通過層卸載實現),或者在瀏覽器中使用 RunComfy 雲端 AI Toolkit(H100 / H200,80GB / 141GB VRAM)。
  • 深入理解本模型各項關鍵參數的作用Match Target ResLow VRAM 選項、Transformer/Text Encoder 量化Layer Offloading(層卸載)Cache Text EmbeddingsDifferential Output Preservation(差分輸出保留)Differential Guidance(差分引導),以及 Batch SizeStepsLoRA Rank 等核心超參數。
  • 自信地為自己的編輯 LoRA 調參(補光、換裝、皮膚、物體替換……)。

如果你想用更新的檢查點,追求更強的「一致性優先」編輯效果,請參閱 Qwen 2511 LoRA 訓練教程

本文屬於 AI Toolkit LoRA 訓練系列。如果你是 Ostris AI Toolkit 新手,建議先閱讀 AI Toolkit LoRA 訓練概述,再進入本指南。

目錄

1. Qwen‑Image‑Edit‑2509 概述:這個編輯模型能做什麼

Qwen‑Image‑Edit‑2509(常簡稱為 Qwen Edit 2509Qwen Image Edit Plus)是 Qwen‑Image‑Edit 模型的 2025 年 9 月版本。它建立在 20B Qwen‑Image 基礎之上,官方權重可在 Hugging Face 的 Qwen‑Image‑Edit‑2509 模型頁面 獲取。

相比第一版 Qwen‑Image‑Edit,2509 新增了:

  • 多圖編輯 — 模型可以同時接收 1–3 張輸入圖片(例如人物 + 衣服 + 姿勢,或來源照片 + 光照參考)。
  • 圖片拼接行為 — 在官方管線中,每張輸入圖片會縮放到約 1 百萬像素,然後一起處理。即使你提供多個控制圖,模型看到的像素預算也是固定的。
  • 更好的文字和細節編輯 — 由 Qwen2.5-VL 和專用 VAE 驅動,對小文字、Logo 和精細細節的處理能力大大提升。

已經在使用 Qwen Image Edit Plus (2509) LoRA 訓練的典型 LoRA 應用場景:

Qwen‑Image‑Edit 和 Qwen‑Image 本質上共用同一個基礎。社群測試顯示,在 Qwen‑Image 上訓練的 LoRA 與 Qwen‑Image‑Edit / 2509 相容,反之亦然,因為適配器連接的是同一個主幹網路。


2. 環境選項:本地 AI Toolkit vs RunComfy 雲端 AI Toolkit

2.1 本地 AI Toolkit(使用你自己的 GPU)

AI Toolkit GitHub 倉庫 安裝 AI Toolkit,然後執行 Web UI。如果你已經有一張 24GB 以上的 NVIDIA 顯卡,熟悉 CUDA / 驅動 / 磁碟空間管理,並且不介意讓訓練過夜運行,本地訓練是個不錯的選擇。


2.2 RunComfy 雲端 AI Toolkit(H100 / H200)

使用 RunComfy 雲端 AI Toolkit 時,AI Toolkit 完全在雲端運行:

  • 不需要安裝任何東西 — 只需打開瀏覽器、登入,就能進入 AI Toolkit UI。
  • 你可以使用 H100(80GB)和 H200(141GB)等大型 GPU 來執行繁重的 Qwen Edit 2509 LoRA 訓練任務。
  • 你會獲得一個持久化工作區 — 資料集、配置和過去的任務都會綁定到你的帳戶,隨時可以回來繼續迭代。

👉 在這裡打開:RunComfy 雲端 AI Toolkit

本教程的其餘部分在兩種環境中的操作完全相同;唯一區別只是 GPU 所在位置不同。


3. Qwen Edit 2509 LoRA 訓練的硬體與 VRAM 需求

Qwen‑Image‑Edit‑2509 是個很重的模型:

  • 基礎模型約有 20B 參數
  • 編輯管線可以一次將 最多 3 × ~1MP 圖片 送入 Transformer。

在 2509 的標準 32GB 範例配置train_lora_qwen_image_edit_2509_32gb.yaml)中,用戶報告大約:

  • 1024×1024 訓練需要 27–28.5GB VRAM
  • 768×768 訓練需要 25–26GB VRAM — 對 24GB 顯卡依然塞不下。

這就是為什麼官方範例明確是 32GB 配置。但透過 3-bit ARA 量化 + Low VRAM 模式 + Layer Offloading(RAMTorch),Ostris 展示了可以用僅 ~8–9GB GPU VRAM 完成 Qwen Edit 2509 LoRA 訓練,代價是需要高 CPU RAM(60GB+)和更慢的訓練速度。

等級 位置 範例硬體 情況
低 VRAM(~10–12GB) 本地 RTX 3060 12GB、4070 等 必須在 QUANTIZATION 面板啟用量化(基礎模型用 3-bit ARA)並使用激進的 Layer Offloading。預期 ~8–9GB GPU VRAM 和 60GB+ CPU RAM,中階 CPU 上約 ~10–12秒/步。這個配置(2 個控制流)可以舒適地訓練到 1024×1024;在此等級將 1024² 視為實際最大解析度。
緊張的 24GB 本地 RTX 3090 / 4090 / 5090 24GB 無法在不使用 offloading 的情況下運行 1024² 帶 2 個控制的標準 32GB Qwen‑Edit LoRA 配置(峰值約 ~24.7GB VRAM),所以你仍然需要 Low VRAM 技巧如 3-bit ARA、gradient checkpointing 和/或部分 offload。除非你添加一些 offloading,否則將 768×768 視為帶 2 個控制的實際最大目標解析度。
舒適的 32GB 本地 RTX 4090 32GB、較新顯卡 這是官方 train_lora_qwen_image_edit_32gb.yaml 針對的等級:3-bit ARA 量化、1024² 解析度桶、中等 LoRA rank、無 offloading。有了 32GB,你可以將 1024×1024(帶 2–3 個控制流)作為正常工作解析度。
高 VRAM(80–141GB) RunComfy 雲端 AI Toolkit H100 80GB / H200 141GB 你可以保持配置簡單(量化開啟、offloading 關閉),使用更大的 batch(4–8),預設在 1024×1024 訓練而不用擔心 OOM。在此等級你還可以嘗試稍高的解析度(如 1280–1536px),但 1024² 仍然是最安全、經過最多測試的目標大小。

在使用完整 offloading 的 4090 上,Ostris 的範例達到 ~9GB VRAM 和 ~64GB CPU RAM,運行 ~5k 步約需一天。在不使用 offload 的 5090 上,迭代約快 2–3 倍。


4. 建構 Qwen Edit 2509 LoRA 訓練資料集

我們將參考 Ostris 教程中的「襯衫設計」範例,並將其泛化以便你可以適應其他任務。

4.1 三個邏輯圖片流

對於服裝設計 LoRA,模型需要學習:給定一個穿著空白襯衫的人和一張設計圖,將這個設計印到他們的襯衫上,同時保持姿勢、光照和褶皺。

  • 目標圖片(你想要的結果) — 穿著已印有設計襯衫的人。這些是你希望模型重現的輸出。
  • 控制圖片(空白襯衫,相同的人) — 與目標相同的對象和姿勢,但沒有設計(或穿著素色襯衫)。它們控制幾何、褶皺、光照和遮擋(手臂、頭髮、項鍊等)。
  • 設計圖片 — 設計本身在中性背景上(灰色、黑色或白色)。你可以加入一些變體(不同的背景顏色)以提高穩健性。

在 Ostris 的範例中,約 26 組三元組(人物 + 空白襯衫 + 設計)就足以獲得非常強的效能,包括 QR 碼和複雜 Logo 正確映射到布料上。對於生產 LoRA,從 20–60 組精心策劃的三元組(目標 + 控制 + 設計)開始是個好基準。


4.2 解析度與寬高比

Qwen‑Image‑Edit‑2509:

  • 在內部將每個輸入縮放到約 1MP(例如 1024×1024 或等效)。
  • 當你的訓練圖片是正方形或接近正方形(我們這裡使用 1024×1024),或一致的寬高比(例如全部 3:4)時效果最好。

在本教程中,我們假設是正方形圖片,這樣分桶會很簡單:

  • 目標、控制和設計圖片都在 1024×1024 左右。AI Toolkit 會根據你在 DATASETS 面板啟用的內容分到 512 / 768 / 1024 桶。

4.3 圖說

對於這個服裝設計 LoRA,我們不使用每張圖片的圖說,只使用一個資料集級別的預設圖說put this design on their shirt

這樣做有效是因為:

  • 語義簡單且在所有樣本中相同。
  • 控制圖和設計圖承載了大部分有趣的資訊。

對於更複雜的編輯 LoRA(如「像工作室邊光一樣重新打光」vs「黃金時段」),你應該使用描述所需編輯的每張圖片圖說。


5. 逐步操作:在 AI Toolkit 中進行 Qwen Edit 2509 LoRA 訓練

5.1 步驟 0 — 選擇在哪裡運行 AI Toolkit

本教程中你可以用兩種方式運行 AI Toolkit:

  • 本地 AI Toolkit(使用你自己的 GPU) — 安裝 AI Toolkit,運行 Web UI,在本地打開。確保你有至少 10–12GB VRAM 的 NVIDIA GPU(建議 24GB+)和足夠的 CPU RAM(如果計劃使用 Layer Offloading,理想情況下需要 64GB+)。
  • RunComfy 雲端 AI Toolkit — 登入 RunComfy 雲端 AI Toolkit。你會直接進入在雲端運行的 AI Toolkit UI。當你從 Training Queue 啟動任務時,選擇 H100(80GB)H200(141GB) 機器。

5.2 步驟 1 — 在 AI Toolkit 中建立資料集

在 AI Toolkit UI 中,打開 Datasets 標籤。

建立三個資料集(名稱只是範例):

  • shirt_target
  • shirt_control
  • shirt_design

上傳你的圖片,讓每個資料集有明確的角色:

  • shirt_target — 20–60 張穿著有設計襯衫的人物照片。
  • shirt_control — 相同的人和姿勢沒有設計(或穿著空白襯衫)。
  • shirt_design — 在簡單背景(灰色、黑色或白色)上的正方形設計圖片。

如果你沒有準備好 .txt 檔案形式的圖說,暫時將每張圖片的圖說留空。我們稍後會在任務級別添加一個預設圖說

重要的配對說明

目標圖片和控制圖片應該盡可能按順序配對(相同的人,相同的姿勢)。為了保持配對穩定,在資料夾之間使用匹配的檔名,這樣字母順序就會對齊,例如:shirt_target/img_0001.jpgshirt_control/img_0001.jpgshirt_design/img_0001.png。每張目標圖片應該有相同索引的對應控制圖片和設計圖片。


5.3 步驟 2 — 建立新任務

打開 New Job 標籤。讓我們按照它們出現的順序配置每個面板。


5.3.1 JOB 面板 — 任務名稱、GPU、觸發詞

  • Training Name — 設定任何描述性名稱,例如 qwen_edit2509_shirt_lora_v1。這會成為任務名稱和儲存檢查點的資料夾名稱。
  • GPU ID — 在本地安裝中,選擇你機器上的 GPU。在 RunComfy 雲端 AI Toolkit 中,將 GPU ID 保留為預設值。實際的機器類型(H100 / H200)會在你從 Training Queue 啟動任務時選擇。
  • Trigger Word — 輸入你想在推理時輸入的短語,例如:put this design on their shirt。在你的資料集圖說中,你可以使用 [trigger] 作為佔位符。AI Toolkit 會在訓練期間將 [trigger] 替換為 Trigger Word。清晰的觸發短語為你提供一個乾淨的 LoRA 開/關開關:不包含它的提示應該保持接近 Qwen‑Image‑Edit‑2509 的基礎行為,特別是如果你還啟用了稍後推薦的 Differential Output Preservation(DOP)。

5.3.2 MODEL 面板 — 基礎模型和 VRAM 選項

  • Model Architecture — 選擇 Qwen‑Image‑Edit‑2509
  • Name or Path — 基礎檢查點的 Hugging Face model id(repo id),例如:Qwen/Qwen-Image-Edit-2509

    在大多數 AI Toolkit 版本中,選擇 Qwen‑Image‑Edit‑2509自動填入這個值;除非你有理由更改,否則保持原樣。

Options 中:

  • Low VRAM — 對於 ≤ 24GB VRAM 的 GPU 設為 ON。這會在主幹網路內啟用額外的檢查點和記憶體節省技巧,讓大型 Qwen 模型更容易塞進去。
  • Match Target Res — 對於 Qwen Edit 2509 LoRA 訓練任務設為 ON。這會將控制圖片縮放到與目標圖片相同的解析度桶(例如 768×768 或 1024×1024)。這保持編輯幾何對齊,避免在過大的控制圖上浪費 VRAM。
  • Layer Offloading — 將其視為安全閥。如果在啟用 Low VRAM 和量化後仍然遇到 CUDA OOM,在非常小的 GPU 上設為 ON;這會將一些層卸載到 CPU RAM,代價是步驟變慢。在 24GB 以上或 RunComfy 雲端 GPU 上保持 OFF 以獲得最佳速度。

5.3.3 QUANTIZATION 面板 — 適配大型 Transformer

Qwen‑Image‑Edit‑2509 足夠大,量化幾乎總是個好主意。

  • Transformer — 設為 float8 (default)。在 AI Toolkit 中,這通常對應於 3-bit ARA 基礎加上 8-bit「恢復」適配器,所以你獲得接近 3-bit 模型的 VRAM 使用量和接近全精度的品質。
  • Text Encoder — 也設為 float8 (default)。Text encoder 很大,用 fp8 運行可以節省大量 VRAM,品質損失最小。

你不需要在 UI 中手動配置 ARA 檔案;選擇 float8 選項就足夠了。


5.3.4 TARGET 面板 — LoRA 類型和 Rank

這個面板告訴 AI Toolkit 你正在訓練一個 LoRA 以及它應該有多大的容量。

  • Target Type — 選擇 LoRA
  • Linear Rank — 對於 Qwen Edit 2509 LoRA 訓練,32 是個強大的預設值。它對於像「將這個設計印到他們的襯衫上」這樣的行為足夠有表現力,但訓練和載入仍然輕便。在非常小的 GPU 上你可以降到 16;對於更複雜的行為,你可以嘗試 48–64(在較高 rank 時密切注意過擬合)。

5.3.5 SAVE 面板 — 檢查點類型和頻率

  • Data Type — 選擇 BF16。Qwen‑Image‑Edit‑2509 通常以 bfloat16 運行,將 LoRA 權重保存為 BF16 可以保持相容性且大小合理。
  • Save Every250 步是個實用的預設值;你會每 250 個訓練步驟獲得一個檢查點。
  • Max Step Saves to Keep4 保留最後四個檢查點並自動刪除較舊的,這樣你的磁碟就不會填滿。

5.3.6 TRAINING 面板 — 核心超參數

TRAINING 面板控制我們對 Qwen‑Image‑Edit‑2509 進行微調的激進程度。

單資料集 LoRA(768–1024px 的 10–40 張圖片)的推薦起始值:

  • Batch Size — 預設設為 1。只在非常大的 GPU(A100 / H100 / H200 等級)上使用 2
  • Gradient Accumulation — 從 1 開始。如果你想要更大的有效批次大小而不增加 VRAM,將其增加到 2–4。有效批次大小 = Batch Size × Gradient Accumulation
  • Steps — 使用 2500–3000。對於有 ~20–30 組三元組的襯衫設計範例,3000 效果很好。如果你的資料集很小(<15 張圖片),考慮 1500–2200 以避免過擬合。
  • Optimizer — 選擇 AdamW8Bit。8-bit Adam 大幅減少記憶體使用,同時行為像標準 AdamW。
  • Learning Rate — 設為 0.0001。如果訓練看起來嘈雜或不穩定,降低到 0.00005
  • Weight Decay — 設為 0.0001 作為輕度正則化,這樣 LoRA 在小資料集上不會偏離太遠。
  • Timestep Type — 設為 Weighted。這會將訓練偏向對 Qwen‑Image‑Edit 最重要的噪聲級別。
  • Timestep Bias — 設為 Balanced,一個安全的預設值,不會過度強調非常早或非常晚的時間步。
  • Loss Type — 保持 Mean Squared Error,擴散/整流流訓練的標準選擇。
  • EMA(Exponential Moving Average → Use EMA) — 對於 LoRA 保持 OFF。EMA 在訓練完整模型時更有用。

5.3.7 正則化和 Text Encoder 部分(TRAINING 面板右側)

在 TRAINING 面板的右側,你會看到兩個重要區域:Text Encoder OptimizationsRegularization

Text Encoder Optimizations

  • Cache Text Embeddings — 對於 Qwen‑Image‑Edit + Differential Output Preservation(DOP),這必須保持 OFF。DOP 會在每個批次內部重寫提示文字,所以快取的 embedding 將不再與實際提示匹配。當 DOP OFF 且你的圖說是靜態的時,你可以將 Cache Text Embeddings 設為 ON,一次編碼所有圖說,將 embedding 儲存到磁碟,然後從 VRAM 釋放 text encoder。
  • Unload Text Encoder(Unload TE) — 這是一個特殊的僅觸發詞模式。當你將其設為 ON 時,AI Toolkit 會一次快取你的 Trigger WordSample 提示的 embedding,從 VRAM 卸載 text encoder,並忽略所有資料集圖說。對於依賴正常圖說的 Qwen‑Image‑Edit‑2509 LoRA(特別是當 Differential Output Preservation ON 時),你應該將 Unload TE 保持 OFF

由於 caption dropout 是通過在訓練期間隨機丟棄圖說來實現的,它依賴於每一步的新鮮文字編碼。如果你啟用 Cache Text Embeddings,你應該在 DATASETS 面板設定 Caption Dropout Rate = 0(見下文),這樣快取的 embedding 和預期的 dropout 行為之間就不會有不匹配。

Regularization → Differential Output Preservation

  • Differential Output Preservation — 對於大多數實際專案設為 ON。這對 Qwen‑Image‑Edit 至關重要:當觸發短語不存在時讓基礎模型正常行為,只有當觸發詞存在時才注入你的行為。
  • DOP Loss Multiplier — 最初保持 1。如果你看到太多風格洩漏到無觸發詞的提示中,可以稍微增加。
  • DOP Preservation Class — 使用一個中性的類別詞,描述你最常編輯的內容。對於以人物為中心的編輯,person 是個好預設;對於純產品編輯,使用像 productobject 這樣的詞。

DOP 如何與你的圖說和 Trigger Word 連接:

  • 假設一個圖說是 "[trigger] a person walking down the street, wearing the design on their shirt"
  • Trigger Word = put this design on their shirt
  • DOP Preservation Class = person

AI Toolkit 內部建立兩個提示:

  1. put this design on their shirt a person walking down the street, wearing the design on their shirt — LoRA 路徑。
  2. person a person walking down the street, wearing the design on their shirt — 基礎模型路徑。

LoRA 只在這兩者的差異上訓練。沒有觸發短語的生成會更接近原版 Qwen‑Image‑Edit‑2509,因為 DOP 明確保留了那個行為。

  • Blank Prompt Preservation — 保持 OFF,除非你有非常特殊的理由需要保留空提示的行為。

5.3.8 ADVANCED 面板 — Differential Guidance

  • Do Differential Guidance — 設為 ON
  • Differential Guidance Scale — 從 3 開始。

Differential Guidance 是一個 AI Toolkit 特有的技巧,它縮放 LoRA 看到的誤差信號。更大的縮放使「你這裡錯了」的信號更響亮,所以 LoRA 通常會更快地學習期望的變化,而不需要增加學習率。

如果在訓練早期樣本看起來不穩定或過度「銳利」,降低到 2。如果學習感覺非常慢,你可以稍後嘗試 4


5.3.9 DATASETS 面板 — 連接目標、控制和設計圖片

對於 Qwen Edit 2509 LoRA 訓練,你必須提供至少一個目標資料集一個控制資料集

Dataset 1 內:

  • Target Dataset — 選擇你的輸出/已編輯資料集,即代表「應用 LoRA 行為後」的圖片。
  • Control Dataset 1 — 選擇包含你的輸入圖片(你想編輯的原始照片)的資料集。每個檔案應該按名稱與目標圖片匹配(例如 scene_001.pngscene_001.png)。
  • Control Dataset 2 / 3 — 這些是可選的。對於襯衫 LoRA,將 Control Dataset 2 設為 shirt_design,這樣模型會將 logo 或 artwork 視為第二個控制流。除非你有額外的條件如深度圖或關鍵點,否則將控制槽留空。
  • LoRA Weight — 除非你添加更多資料集,否則保持 1。當你添加更多資料集時,可以在這裡重新平衡它們的影響。
  • Default Caption — 如果你的圖片已經有 .txt 圖說,你可以留空。否則輸入類似:

    "[trigger] put this design on their shirt, full‑body street photo"

    記住:[trigger] 會被 JOB 面板的 Trigger Word 替換。

  • Caption Dropout Rate當你不快取 text embedding 時0.05 是個好的起始值;大約每二十步會忽略圖說一次,這樣模型就不會過擬合到精確的措辭。如果你計劃在 TRAINING 面板將 Cache Text Embeddings 設為 ON,設定 Caption Dropout Rate = 0,因為 dropout 需要每步重新編碼圖說,與快取的 embedding 無法正確配合。
  • Settings → Cache Latents — 設為 ON。AI Toolkit 會一次將每張目標圖片編碼為 VAE latent 並重複使用,這會在快取後從 GPU 移除繁重的 VAE,顯著加速訓練。
  • Settings → Is Regularization — 對於你的主要資料集保持 OFF。如果你後來添加一個純粹用於正則化圖片的第二個資料集(例如通用人物照片),你會將該第二個資料集的 Is Regularization 設為 ON
  • Flipping(Flip X / Flip Y) — 對於大多數人物/產品 LoRA,將兩者都保持 OFF,除非你確定鏡像翻轉對你的主題是安全的(Flip X 會鏡像襯衫上的任何文字)。
  • Resolutions — 啟用你希望 Qwen‑Image‑Edit 訓練的桶,例如 5127681024。768 是許多 Qwen LoRA 的甜蜜點;添加 512 和 1024 使訓練對輕微的解析度變化更穩健。

你可以使用 Add Dataset 添加額外的資料集(例如 LoRA Weight < 1 的正則化資料集),但對於大多數「將這個設計印到他們的襯衫上」的使用案例,一個帶有目標 + 一個或兩個控制集的單一 Dataset 1 就足夠了。


5.3.10 SAMPLE 面板 — 訓練預覽

SAMPLE 面板控制訓練期間的定期預覽。這些樣本不會影響訓練損失;它們僅用於監控。

  • Sample Every — 設為 250,這樣你每 250 步生成預覽,與你的檢查點計劃很好地對齊。
  • Width / Height — 匹配你的主要訓練解析度,例如 1024 × 1024768 × 1024,取決於你的資料集。
  • Seed — 選擇一個穩定的種子如 42。如果你希望每個預覽批次使用連續的種子並顯示更多變化,可以啟用 Walk Seed
  • Sampler — 選擇 FlowMatch(或你版本中的預設 Qwen sampler)。這應該與 TRAINING 中使用的 FlowMatch scheduler 匹配。
  • Guidance Scale — 預覽設為 4。當你稍後在 ComfyUI 或其他 UI 中進行推理時,你通常會在 3–6 之間實驗。
  • Sample Steps — 約 25 步對預覽來說是品質與速度的好折衷。
  • Advanced Sampling — 你可以將 Skip First SampleForce First SampleDisable Sampling 都保持 OFF。只有在你正在除錯或想要完全沒有預覽的最大速度時才將 Disable Sampling 設為 ON
  • Sample Prompts — 添加 4–8 個代表你 LoRA 實際使用案例的提示。

5.4 步驟 3 — 啟動訓練並監控

配置好任務後,前往 Training Queue 標籤,選擇你的任務,準備運行。

點擊 Start / Play 並主要觀察兩件事:

  • GPU VRAM / CPU RAM — 特別是在使用 Layer Offloading 的低 VRAM 顯卡上,留意系統 RAM 使用量。
  • 樣本圖片 — 設計應該保持在襯衫上並跟隨褶皺和姿勢。如果它開始滲入整個圖片或顏色變得極端,考慮提前停止或減少總步數。

6. 按 VRAM 等級推薦的 Qwen Edit 2509 LoRA 訓練配置

如果你只想要一個適用於 24GB 本地 GPU 和所有 H100/H200 雲端運行的安全預設,使用第 3–6 節的設定:Low VRAM = ONTransformer/Text Encoder 量化 = float8Batch Size = 1LoRA Rank = 32Resolutions = 512 / 768 / 1024Differential Output Preservation = ONCache Text Embeddings = OFF

以下只有真正隨硬體變化的設定。這裡沒有提到的任何內容(Steps、Learning Rate、Optimizer 等)可以保持之前的建議。


等級 1 — 低 VRAM(~10–12GB 本地)

  • MODEL → Low VRAM:設為 ON。這啟用額外的檢查點和 shuffling,讓 Qwen‑Image‑Edit‑2509 能塞進 10–12GB 顯卡。
  • MODEL → Layer Offloading:如果你仍然遇到 CUDA OOM,設為 ON。預期高 CPU RAM 使用量(≈60GB+)和更慢的步驟,但 GPU VRAM 可以降到約 8–9GB。
  • QUANTIZATION → Transformer / Text Encoder:兩者都設為 float8。在這個使用 Qwen 3-bit ARA 適配器的架構中,float8 是穩定品質的實際最低要求。
  • TRAINING → Batch Size:鎖定在 1。如果你想要更大的有效批次,增加 Gradient Accumulation 而不是 Batch Size。
  • DATASETS → Resolutions:啟用 512768 作為你的主要桶。如果你接受較慢和較脆弱的運行,可以添加 1024;在此等級將帶兩個控制流的 1024×1024 視為實際上限。
  • TRAINING → Text Encoder Optimizations / Regularization:如果即使有 Low VRAM 和 Layer Offloading 你也無法塞進 Differential Output Preservation,關閉 DOP 並開啟 Cache Text Embeddings,這樣圖說只編碼一次,text encoder 從 VRAM 釋放。你會失去一些基礎模型保留,但獲得幾 GB 的空間。

等級 2 — 緊張的 24GB(3090 / 4090 / 5090 級別)

相比等級 1 你可以放寬什麼:

  • MODEL → Low VRAM:在 24GB 上為安全起見保持 ON;一旦你知道你的解析度和控制設定可以舒適地塞進去,你可以嘗試關閉它。
  • MODEL → Layer Offloading:通常 OFF。只有在你選擇的解析度和控制流數量上仍然遇到 OOM 時才啟用。
  • QUANTIZATION → Transformer / Text Encoder:兩者都保持 float8。在此等級禁用量化很少有幫助,只會燒掉你可以用於解析度或批次大小的 VRAM。
  • TRAINING → Batch Size1 仍然是預設。如果 Low VRAM ON 且量化保持 ON,在 768×768 帶兩個控制時有時可以使用 Batch Size 2
  • DATASETS → Resolutions:啟用 5127681024。將 768 視為你的「永遠安全」桶,1024 是可能需要 Low VRAM 和可能的部分 offload 的高端桶。
  • TRAINING → Text Encoder Optimizations / Regularization:你通常可以保持 Differential Output Preservation ONCache Text Embeddings OFF,特別是如果你主要在 768×768 訓練。如果你在 24GB 顯卡上絕對需要 1024×1024 且在其他調整後仍然遇到 OOM,下一個槓桿是關閉 DOP 並開啟 Cache Text Embeddings

等級 3 — 舒適的 32GB+ 本地和雲端 H100/H200

在 32GB 本地顯卡和 80–141GB 雲端 GPU(H100 / H200)上,你停止與 VRAM 戰鬥,可以簡化配置:

  • MODEL → Low VRAM:可選。你可以在 32GB+ 本地 GPU 和 H100/H200 上關閉它,獲得稍快的步驟和更簡單的追蹤。
  • MODEL → Layer Offloading:保持 OFF。所有 Qwen‑Image‑Edit‑2509 組件都可以駐留在 GPU 上。
  • QUANTIZATION → Transformer / Text Encoder:預設兩者都保持 float8。在 H100/H200 上你可以嘗試禁用 Text Encoder 量化,但這不是獲得好品質所必需的,與將該 VRAM 用於批次大小或解析度相比收益很小。
  • TRAINING → Batch Size:在 32GB 本地 GPU 上使用 1–2,在 H100/H200 上使用 2–4,在 1024×1024 帶兩個控制流。
  • TARGET → LoRA Rank32 是個舒適的預設。對於非常複雜的行為(例如多效果編輯 LoRA),如果你注意過擬合,可以在 H100/H200 上嘗試 48–64
  • DATASETS → Resolutions:主要在 7681024 訓練。你通常可以去掉 512,除非你特別關心低解析度行為。
  • TRAINING → Text Encoder Optimizations / Regularization:預設運行 Differential Output Preservation ONCache Text Embeddings OFF。VRAM 足以保持 text encoder 駐留,你獲得「有觸發詞」和「無觸發詞」行為之間最乾淨的分離。

7. Qwen Edit 2509 LoRA 訓練常見問題及解決方案

7.1 配對錯誤的資料集(順序錯誤 / 人物不匹配)

症狀: 設計出現了,但在錯誤的位置、錯誤的人身上或變形了。

檢查目標和控制資料集是否對齊:shirt_target/img_0001.jpg 應該與 shirt_control/img_0001.jpgshirt_design/img_0001.png 配對,依此類推。如果你手動混合圖片,保持檔名配對,這樣字母順序仍然對齊。


7.2 即使有量化也 VRAM OOM

如果你用小的目標解析度(例如 512×512)訓練,但你的控制資料集仍然使用 1024×1024 作為最高桶且 Match Target Res 關閉,每個控制流將以 1024×1024 編碼,而目標只有 512×512。有兩個或三個這樣的控制流,總 latent 大小會比預期大得多,即使啟用了量化你也可能很容易遇到 CUDA OOM。

要解決這個問題:

  • 在 MODEL 面板將 Match Target Res 設為 ON,這樣所有控制圖片會自動縮放到與目標相同的解析度桶,或者
  • 保持 Match Target Res OFF,但將控制資料集的最高解析度桶降低以匹配目標(去掉 1024,保持 512/768)。

在雲端的 H100/H200 上,你可以為目標和控制都保持 1024×1024 桶,較少依賴這些技巧,但最安全的規則是:當 Match Target Res 禁用時,避免將小目標與非常大的控制混合。


7.3 訓練從不收斂 / 看起來隨機

檢查以下內容:

  • TRAINING 面板中,noise scheduler 和 timestep 設定仍然對應 FlowMatch。在匯出的 YAML 中你應該看到 noise_scheduler: "flowmatch",在 SAMPLE 面板中 sampler 也應該設為 FlowMatch;如果 sampler 使用不同的 scheduler,即使 LoRA 正在正確訓練,預覽也可能看起來像純噪聲。
  • Learning Rate 不是太高。0.0001 是 Qwen Edit 2509 LoRA 訓練的安全預設;如果預覽在幾百步後繼續振盪或看起來非常不穩定,降低到 0.00005 並從最後一個好的檢查點繼續。

7.4 LoRA 過擬合(設計到處滲透)

可能的解決方案:

  • 減少總 Steps(例如從 5000 到 3000)。
  • 考慮稍低的 LoRA Rank(16 而不是 32)。
  • 用不同的人物、姿勢和光照多樣化資料集。
  • 確保 Differential Output Preservation 已啟用,如果需要的話稍微增加 DOP Loss Multiplier,這樣基礎行為會被更強地保留。

7.5 環境地獄

典型的本地問題包括 CUDA 版本不匹配、錯誤的 PyTorch 構建或與你的 GPU / 作業系統不匹配的驅動程式。在 RunComfy 雲端 AI Toolkit 中這些問題消失了:AI Toolkit 和依賴項已預裝,你直接從 UI 開始使用配置和資料集。

如果你發現修 CUDA 的時間比訓練還多,這通常是將這個特定任務移到雲端更容易的時候。


8. 訓練後使用你的 Qwen Edit 2509 LoRA

訓練完成後,你可以用兩種簡單的方式使用你的 Qwen Edit 2509 LoRA:

  • 模型 Playground — 打開 Qwen‑Image‑Edit‑2509 LoRA Playground 並貼上你訓練好的 LoRA 的 URL,快速查看它在基礎模型上的表現。
  • ComfyUI 工作流 — 啟動一個 ComfyUI 實例,構建你自己的工作流或載入像 Qwen Edit 2509 MultipleAngles 這樣的工作流,在 LoRA 載入節點中換入你的 LoRA,並調整 LoRA 權重和其他設定以獲得更精細的控制。

更多 AI Toolkit LoRA 訓練指南

準備好開始訓練了嗎?