Qwen‑Image‑Edit‑2509 是一個 20B 參數的多圖編輯模型,可同時處理最多三張圖片(目標圖、控制圖和設計圖),實現精準的幾何感知編輯。本指南將教你如何進行 Qwen Edit 2509 LoRA 訓練。學完本教程後,你將能夠:
- 使用 AI Toolkit by Ostris 完成 Qwen Edit 2509 LoRA 訓練,實現可靠的定向編輯任務(例如將任意設計圖印到襯衫上)。
- 本地運行整個 Qwen-Edit-2509 LoRA 訓練流程(即使 VRAM < 10GB 也能通過層卸載實現),或者在瀏覽器中使用 RunComfy 雲端 AI Toolkit(H100 / H200,80GB / 141GB VRAM)。
- 深入理解本模型各項關鍵參數的作用:Match Target Res 與 Low VRAM 選項、Transformer/Text Encoder 量化、Layer Offloading(層卸載)、Cache Text Embeddings、Differential Output Preservation(差分輸出保留)、Differential Guidance(差分引導),以及 Batch Size、Steps、LoRA Rank 等核心超參數。
- 自信地為自己的編輯 LoRA 調參(補光、換裝、皮膚、物體替換……)。
如果你想用更新的檢查點,追求更強的「一致性優先」編輯效果,請參閱 Qwen 2511 LoRA 訓練教程。
本文屬於 AI Toolkit LoRA 訓練系列。如果你是 Ostris AI Toolkit 新手,建議先閱讀 AI Toolkit LoRA 訓練概述,再進入本指南。
目錄
- 1. Qwen‑Image‑Edit‑2509 概述:這個編輯模型能做什麼
- 2. 環境選項:本地 AI Toolkit vs RunComfy 雲端 AI Toolkit
- 3. Qwen Edit 2509 LoRA 訓練的硬體與 VRAM 需求
- 4. 建構 Qwen Image Edit 2509 LoRA 訓練資料集
- 5. 逐步操作:在 AI Toolkit 中進行 Qwen Edit 2509 LoRA 微調
- 6. 按 VRAM 等級推薦的 Qwen Edit 2509 LoRA 訓練配置
- 7. Qwen Edit 2509 LoRA 訓練常見問題及解決方案
- 8. 訓練後使用你的 Qwen Edit 2509 LoRA
1. Qwen‑Image‑Edit‑2509 概述:這個編輯模型能做什麼
Qwen‑Image‑Edit‑2509(常簡稱為 Qwen Edit 2509 或 Qwen Image Edit Plus)是 Qwen‑Image‑Edit 模型的 2025 年 9 月版本。它建立在 20B Qwen‑Image 基礎之上,官方權重可在 Hugging Face 的 Qwen‑Image‑Edit‑2509 模型頁面 獲取。
相比第一版 Qwen‑Image‑Edit,2509 新增了:
- 多圖編輯 — 模型可以同時接收 1–3 張輸入圖片(例如人物 + 衣服 + 姿勢,或來源照片 + 光照參考)。
- 圖片拼接行為 — 在官方管線中,每張輸入圖片會縮放到約 1 百萬像素,然後一起處理。即使你提供多個控制圖,模型看到的像素預算也是固定的。
- 更好的文字和細節編輯 — 由 Qwen2.5-VL 和專用 VAE 驅動,對小文字、Logo 和精細細節的處理能力大大提升。
已經在使用 Qwen Image Edit Plus (2509) LoRA 訓練的典型 LoRA 應用場景:
- 試衣 / 換裝 — Qwen‑Image‑Edit‑2509‑Clothing‑Tryon‑LoRA。
- 重新打光 / 光照優化 — Qwen‑Image‑Edit‑2509‑Relight‑LoRA。
- 多效果風格與細節融合 — Qwen‑Image‑Edit‑2509‑Multi‑Effect‑Fusion‑LoRA。
- 輕度修復,加上將白底照片轉換為完整場景 — Qwen‑Image‑Edit‑2509‑White‑Film‑To‑Rendering‑LoRA。
- 照片轉動漫風格化 — Qwen‑Image‑Edit‑2509‑Anime‑Stylization‑LoRA。
- 浪漫/親吻姿勢編輯 — Qwen‑Image‑Edit‑2509‑Passionate‑Kiss‑LoRA。
- 漫畫/誇張肖像風格 — Qwen‑Image‑Edit‑2509‑Caricature‑LoRA。
Qwen‑Image‑Edit 和 Qwen‑Image 本質上共用同一個基礎。社群測試顯示,在 Qwen‑Image 上訓練的 LoRA 與 Qwen‑Image‑Edit / 2509 相容,反之亦然,因為適配器連接的是同一個主幹網路。
2. 環境選項:本地 AI Toolkit vs RunComfy 雲端 AI Toolkit
2.1 本地 AI Toolkit(使用你自己的 GPU)
從 AI Toolkit GitHub 倉庫 安裝 AI Toolkit,然後執行 Web UI。如果你已經有一張 24GB 以上的 NVIDIA 顯卡,熟悉 CUDA / 驅動 / 磁碟空間管理,並且不介意讓訓練過夜運行,本地訓練是個不錯的選擇。
2.2 RunComfy 雲端 AI Toolkit(H100 / H200)
使用 RunComfy 雲端 AI Toolkit 時,AI Toolkit 完全在雲端運行:
- 你不需要安裝任何東西 — 只需打開瀏覽器、登入,就能進入 AI Toolkit UI。
- 你可以使用 H100(80GB)和 H200(141GB)等大型 GPU 來執行繁重的 Qwen Edit 2509 LoRA 訓練任務。
- 你會獲得一個持久化工作區 — 資料集、配置和過去的任務都會綁定到你的帳戶,隨時可以回來繼續迭代。
👉 在這裡打開:RunComfy 雲端 AI Toolkit
本教程的其餘部分在兩種環境中的操作完全相同;唯一區別只是 GPU 所在位置不同。
3. Qwen Edit 2509 LoRA 訓練的硬體與 VRAM 需求
Qwen‑Image‑Edit‑2509 是個很重的模型:
- 基礎模型約有 20B 參數。
- 編輯管線可以一次將 最多 3 × ~1MP 圖片 送入 Transformer。
在 2509 的標準 32GB 範例配置(train_lora_qwen_image_edit_2509_32gb.yaml)中,用戶報告大約:
- 1024×1024 訓練需要 27–28.5GB VRAM。
- 768×768 訓練需要 25–26GB VRAM — 對 24GB 顯卡依然塞不下。
這就是為什麼官方範例明確是 32GB 配置。但透過 3-bit ARA 量化 + Low VRAM 模式 + Layer Offloading(RAMTorch),Ostris 展示了可以用僅 ~8–9GB GPU VRAM 完成 Qwen Edit 2509 LoRA 訓練,代價是需要高 CPU RAM(60GB+)和更慢的訓練速度。
| 等級 | 位置 | 範例硬體 | 情況 |
|---|---|---|---|
| 低 VRAM(~10–12GB) | 本地 | RTX 3060 12GB、4070 等 | 你必須在 QUANTIZATION 面板啟用量化(基礎模型用 3-bit ARA)並使用激進的 Layer Offloading。預期 ~8–9GB GPU VRAM 和 60GB+ CPU RAM,中階 CPU 上約 ~10–12秒/步。這個配置(2 個控制流)可以舒適地訓練到 1024×1024;在此等級將 1024² 視為實際最大解析度。 |
| 緊張的 24GB | 本地 | RTX 3090 / 4090 / 5090 | 24GB 無法在不使用 offloading 的情況下運行 1024² 帶 2 個控制的標準 32GB Qwen‑Edit LoRA 配置(峰值約 ~24.7GB VRAM),所以你仍然需要 Low VRAM 技巧如 3-bit ARA、gradient checkpointing 和/或部分 offload。除非你添加一些 offloading,否則將 768×768 視為帶 2 個控制的實際最大目標解析度。 |
| 舒適的 32GB | 本地 | RTX 4090 32GB、較新顯卡 | 這是官方 train_lora_qwen_image_edit_32gb.yaml 針對的等級:3-bit ARA 量化、1024² 解析度桶、中等 LoRA rank、無 offloading。有了 32GB,你可以將 1024×1024(帶 2–3 個控制流)作為正常工作解析度。 |
| 高 VRAM(80–141GB) | RunComfy 雲端 AI Toolkit | H100 80GB / H200 141GB | 你可以保持配置簡單(量化開啟、offloading 關閉),使用更大的 batch(4–8),預設在 1024×1024 訓練而不用擔心 OOM。在此等級你還可以嘗試稍高的解析度(如 1280–1536px),但 1024² 仍然是最安全、經過最多測試的目標大小。 |
在使用完整 offloading 的 4090 上,Ostris 的範例達到 ~9GB VRAM 和 ~64GB CPU RAM,運行 ~5k 步約需一天。在不使用 offload 的 5090 上,迭代約快 2–3 倍。
4. 建構 Qwen Edit 2509 LoRA 訓練資料集
我們將參考 Ostris 教程中的「襯衫設計」範例,並將其泛化以便你可以適應其他任務。
4.1 三個邏輯圖片流
對於服裝設計 LoRA,模型需要學習:給定一個穿著空白襯衫的人和一張設計圖,將這個設計印到他們的襯衫上,同時保持姿勢、光照和褶皺。
- 目標圖片(你想要的結果) — 穿著已印有設計襯衫的人。這些是你希望模型重現的輸出。
- 控制圖片(空白襯衫,相同的人) — 與目標相同的對象和姿勢,但沒有設計(或穿著素色襯衫)。它們控制幾何、褶皺、光照和遮擋(手臂、頭髮、項鍊等)。
- 設計圖片 — 設計本身在中性背景上(灰色、黑色或白色)。你可以加入一些變體(不同的背景顏色)以提高穩健性。
在 Ostris 的範例中,約 26 組三元組(人物 + 空白襯衫 + 設計)就足以獲得非常強的效能,包括 QR 碼和複雜 Logo 正確映射到布料上。對於生產 LoRA,從 20–60 組精心策劃的三元組(目標 + 控制 + 設計)開始是個好基準。
4.2 解析度與寬高比
Qwen‑Image‑Edit‑2509:
- 在內部將每個輸入縮放到約 1MP(例如 1024×1024 或等效)。
- 當你的訓練圖片是正方形或接近正方形(我們這裡使用 1024×1024),或一致的寬高比(例如全部 3:4)時效果最好。
在本教程中,我們假設是正方形圖片,這樣分桶會很簡單:
- 目標、控制和設計圖片都在 1024×1024 左右。AI Toolkit 會根據你在 DATASETS 面板啟用的內容分到 512 / 768 / 1024 桶。
4.3 圖說
對於這個服裝設計 LoRA,我們不使用每張圖片的圖說,只使用一個資料集級別的預設圖說:put this design on their shirt
這樣做有效是因為:
- 語義簡單且在所有樣本中相同。
- 控制圖和設計圖承載了大部分有趣的資訊。
對於更複雜的編輯 LoRA(如「像工作室邊光一樣重新打光」vs「黃金時段」),你應該使用描述所需編輯的每張圖片圖說。
5. 逐步操作:在 AI Toolkit 中進行 Qwen Edit 2509 LoRA 訓練
5.1 步驟 0 — 選擇在哪裡運行 AI Toolkit
本教程中你可以用兩種方式運行 AI Toolkit:
- 本地 AI Toolkit(使用你自己的 GPU) — 安裝 AI Toolkit,運行 Web UI,在本地打開。確保你有至少 10–12GB VRAM 的 NVIDIA GPU(建議 24GB+)和足夠的 CPU RAM(如果計劃使用 Layer Offloading,理想情況下需要 64GB+)。
- RunComfy 雲端 AI Toolkit — 登入 RunComfy 雲端 AI Toolkit。你會直接進入在雲端運行的 AI Toolkit UI。當你從 Training Queue 啟動任務時,選擇 H100(80GB) 或 H200(141GB) 機器。
5.2 步驟 1 — 在 AI Toolkit 中建立資料集
在 AI Toolkit UI 中,打開 Datasets 標籤。
建立三個資料集(名稱只是範例):
shirt_targetshirt_controlshirt_design
上傳你的圖片,讓每個資料集有明確的角色:
shirt_target— 20–60 張穿著有設計襯衫的人物照片。shirt_control— 相同的人和姿勢沒有設計(或穿著空白襯衫)。shirt_design— 在簡單背景(灰色、黑色或白色)上的正方形設計圖片。
如果你沒有準備好 .txt 檔案形式的圖說,暫時將每張圖片的圖說留空。我們稍後會在任務級別添加一個預設圖說。
重要的配對說明
目標圖片和控制圖片應該盡可能按順序配對(相同的人,相同的姿勢)。為了保持配對穩定,在資料夾之間使用匹配的檔名,這樣字母順序就會對齊,例如:shirt_target/img_0001.jpg、shirt_control/img_0001.jpg、shirt_design/img_0001.png。每張目標圖片應該有相同索引的對應控制圖片和設計圖片。
5.3 步驟 2 — 建立新任務
打開 New Job 標籤。讓我們按照它們出現的順序配置每個面板。
5.3.1 JOB 面板 — 任務名稱、GPU、觸發詞
- Training Name — 設定任何描述性名稱,例如
qwen_edit2509_shirt_lora_v1。這會成為任務名稱和儲存檢查點的資料夾名稱。 - GPU ID — 在本地安裝中,選擇你機器上的 GPU。在 RunComfy 雲端 AI Toolkit 中,將
GPU ID保留為預設值。實際的機器類型(H100 / H200)會在你從 Training Queue 啟動任務時選擇。 - Trigger Word — 輸入你想在推理時輸入的短語,例如:
put this design on their shirt。在你的資料集圖說中,你可以使用[trigger]作為佔位符。AI Toolkit 會在訓練期間將[trigger]替換為 Trigger Word。清晰的觸發短語為你提供一個乾淨的 LoRA 開/關開關:不包含它的提示應該保持接近 Qwen‑Image‑Edit‑2509 的基礎行為,特別是如果你還啟用了稍後推薦的 Differential Output Preservation(DOP)。
5.3.2 MODEL 面板 — 基礎模型和 VRAM 選項
- Model Architecture — 選擇
Qwen‑Image‑Edit‑2509。 - Name or Path — 基礎檢查點的 Hugging Face model id(repo id),例如:
Qwen/Qwen-Image-Edit-2509。在大多數 AI Toolkit 版本中,選擇
Qwen‑Image‑Edit‑2509會自動填入這個值;除非你有理由更改,否則保持原樣。
在 Options 中:
- Low VRAM — 對於 ≤ 24GB VRAM 的 GPU 設為 ON。這會在主幹網路內啟用額外的檢查點和記憶體節省技巧,讓大型 Qwen 模型更容易塞進去。
- Match Target Res — 對於 Qwen Edit 2509 LoRA 訓練任務設為 ON。這會將控制圖片縮放到與目標圖片相同的解析度桶(例如 768×768 或 1024×1024)。這保持編輯幾何對齊,避免在過大的控制圖上浪費 VRAM。
- Layer Offloading — 將其視為安全閥。如果在啟用 Low VRAM 和量化後仍然遇到 CUDA OOM,在非常小的 GPU 上設為 ON;這會將一些層卸載到 CPU RAM,代價是步驟變慢。在 24GB 以上或 RunComfy 雲端 GPU 上保持 OFF 以獲得最佳速度。
5.3.3 QUANTIZATION 面板 — 適配大型 Transformer
Qwen‑Image‑Edit‑2509 足夠大,量化幾乎總是個好主意。
- Transformer — 設為
float8 (default)。在 AI Toolkit 中,這通常對應於 3-bit ARA 基礎加上 8-bit「恢復」適配器,所以你獲得接近 3-bit 模型的 VRAM 使用量和接近全精度的品質。 - Text Encoder — 也設為
float8 (default)。Text encoder 很大,用 fp8 運行可以節省大量 VRAM,品質損失最小。
你不需要在 UI 中手動配置 ARA 檔案;選擇 float8 選項就足夠了。
5.3.4 TARGET 面板 — LoRA 類型和 Rank
這個面板告訴 AI Toolkit 你正在訓練一個 LoRA 以及它應該有多大的容量。
- Target Type — 選擇
LoRA。 - Linear Rank — 對於 Qwen Edit 2509 LoRA 訓練,
32是個強大的預設值。它對於像「將這個設計印到他們的襯衫上」這樣的行為足夠有表現力,但訓練和載入仍然輕便。在非常小的 GPU 上你可以降到 16;對於更複雜的行為,你可以嘗試 48–64(在較高 rank 時密切注意過擬合)。
5.3.5 SAVE 面板 — 檢查點類型和頻率
- Data Type — 選擇
BF16。Qwen‑Image‑Edit‑2509 通常以 bfloat16 運行,將 LoRA 權重保存為 BF16 可以保持相容性且大小合理。 - Save Every —
250步是個實用的預設值;你會每 250 個訓練步驟獲得一個檢查點。 - Max Step Saves to Keep —
4保留最後四個檢查點並自動刪除較舊的,這樣你的磁碟就不會填滿。
5.3.6 TRAINING 面板 — 核心超參數
TRAINING 面板控制我們對 Qwen‑Image‑Edit‑2509 進行微調的激進程度。
單資料集 LoRA(768–1024px 的 10–40 張圖片)的推薦起始值:
- Batch Size — 預設設為
1。只在非常大的 GPU(A100 / H100 / H200 等級)上使用2。 - Gradient Accumulation — 從
1開始。如果你想要更大的有效批次大小而不增加 VRAM,將其增加到2–4。有效批次大小 =Batch Size × Gradient Accumulation。 - Steps — 使用
2500–3000。對於有 ~20–30 組三元組的襯衫設計範例,3000效果很好。如果你的資料集很小(<15 張圖片),考慮1500–2200以避免過擬合。 - Optimizer — 選擇
AdamW8Bit。8-bit Adam 大幅減少記憶體使用,同時行為像標準 AdamW。 - Learning Rate — 設為
0.0001。如果訓練看起來嘈雜或不穩定,降低到0.00005。 - Weight Decay — 設為
0.0001作為輕度正則化,這樣 LoRA 在小資料集上不會偏離太遠。 - Timestep Type — 設為
Weighted。這會將訓練偏向對 Qwen‑Image‑Edit 最重要的噪聲級別。 - Timestep Bias — 設為
Balanced,一個安全的預設值,不會過度強調非常早或非常晚的時間步。 - Loss Type — 保持
Mean Squared Error,擴散/整流流訓練的標準選擇。 - EMA(Exponential Moving Average → Use EMA) — 對於 LoRA 保持 OFF。EMA 在訓練完整模型時更有用。
5.3.7 正則化和 Text Encoder 部分(TRAINING 面板右側)
在 TRAINING 面板的右側,你會看到兩個重要區域:Text Encoder Optimizations 和 Regularization。
Text Encoder Optimizations
- Cache Text Embeddings — 對於 Qwen‑Image‑Edit + Differential Output Preservation(DOP),這必須保持 OFF。DOP 會在每個批次內部重寫提示文字,所以快取的 embedding 將不再與實際提示匹配。當 DOP OFF 且你的圖說是靜態的時,你可以將 Cache Text Embeddings 設為 ON,一次編碼所有圖說,將 embedding 儲存到磁碟,然後從 VRAM 釋放 text encoder。
- Unload Text Encoder(Unload TE) — 這是一個特殊的僅觸發詞模式。當你將其設為 ON 時,AI Toolkit 會一次快取你的 Trigger Word 和 Sample 提示的 embedding,從 VRAM 卸載 text encoder,並忽略所有資料集圖說。對於依賴正常圖說的 Qwen‑Image‑Edit‑2509 LoRA(特別是當 Differential Output Preservation ON 時),你應該將 Unload TE 保持 OFF。
由於 caption dropout 是通過在訓練期間隨機丟棄圖說來實現的,它依賴於每一步的新鮮文字編碼。如果你啟用 Cache Text Embeddings,你應該在 DATASETS 面板設定 Caption Dropout Rate = 0(見下文),這樣快取的 embedding 和預期的 dropout 行為之間就不會有不匹配。
Regularization → Differential Output Preservation
- Differential Output Preservation — 對於大多數實際專案設為 ON。這對 Qwen‑Image‑Edit 至關重要:當觸發短語不存在時讓基礎模型正常行為,只有當觸發詞存在時才注入你的行為。
- DOP Loss Multiplier — 最初保持
1。如果你看到太多風格洩漏到無觸發詞的提示中,可以稍微增加。 - DOP Preservation Class — 使用一個中性的類別詞,描述你最常編輯的內容。對於以人物為中心的編輯,
person是個好預設;對於純產品編輯,使用像product或object這樣的詞。
DOP 如何與你的圖說和 Trigger Word 連接:
- 假設一個圖說是
"[trigger] a person walking down the street, wearing the design on their shirt" - Trigger Word =
put this design on their shirt - DOP Preservation Class =
person
AI Toolkit 內部建立兩個提示:
put this design on their shirt a person walking down the street, wearing the design on their shirt— LoRA 路徑。person a person walking down the street, wearing the design on their shirt— 基礎模型路徑。
LoRA 只在這兩者的差異上訓練。沒有觸發短語的生成會更接近原版 Qwen‑Image‑Edit‑2509,因為 DOP 明確保留了那個行為。
- Blank Prompt Preservation — 保持 OFF,除非你有非常特殊的理由需要保留空提示的行為。
5.3.8 ADVANCED 面板 — Differential Guidance
- Do Differential Guidance — 設為 ON。
- Differential Guidance Scale — 從
3開始。
Differential Guidance 是一個 AI Toolkit 特有的技巧,它縮放 LoRA 看到的誤差信號。更大的縮放使「你這裡錯了」的信號更響亮,所以 LoRA 通常會更快地學習期望的變化,而不需要增加學習率。
如果在訓練早期樣本看起來不穩定或過度「銳利」,降低到 2。如果學習感覺非常慢,你可以稍後嘗試 4。
5.3.9 DATASETS 面板 — 連接目標、控制和設計圖片
對於 Qwen Edit 2509 LoRA 訓練,你必須提供至少一個目標資料集和一個控制資料集。
在 Dataset 1 內:
- Target Dataset — 選擇你的輸出/已編輯資料集,即代表「應用 LoRA 行為後」的圖片。
- Control Dataset 1 — 選擇包含你的輸入圖片(你想編輯的原始照片)的資料集。每個檔案應該按名稱與目標圖片匹配(例如
scene_001.png→scene_001.png)。 - Control Dataset 2 / 3 — 這些是可選的。對於襯衫 LoRA,將 Control Dataset 2 設為
shirt_design,這樣模型會將 logo 或 artwork 視為第二個控制流。除非你有額外的條件如深度圖或關鍵點,否則將控制槽留空。 - LoRA Weight — 除非你添加更多資料集,否則保持
1。當你添加更多資料集時,可以在這裡重新平衡它們的影響。 - Default Caption — 如果你的圖片已經有
.txt圖說,你可以留空。否則輸入類似:"[trigger] put this design on their shirt, full‑body street photo"記住:
[trigger]會被 JOB 面板的 Trigger Word 替換。 - Caption Dropout Rate — 當你不快取 text embedding 時,
0.05是個好的起始值;大約每二十步會忽略圖說一次,這樣模型就不會過擬合到精確的措辭。如果你計劃在 TRAINING 面板將 Cache Text Embeddings 設為 ON,設定 Caption Dropout Rate = 0,因為 dropout 需要每步重新編碼圖說,與快取的 embedding 無法正確配合。 - Settings → Cache Latents — 設為 ON。AI Toolkit 會一次將每張目標圖片編碼為 VAE latent 並重複使用,這會在快取後從 GPU 移除繁重的 VAE,顯著加速訓練。
- Settings → Is Regularization — 對於你的主要資料集保持 OFF。如果你後來添加一個純粹用於正則化圖片的第二個資料集(例如通用人物照片),你會將該第二個資料集的 Is Regularization 設為 ON。
- Flipping(Flip X / Flip Y) — 對於大多數人物/產品 LoRA,將兩者都保持 OFF,除非你確定鏡像翻轉對你的主題是安全的(Flip X 會鏡像襯衫上的任何文字)。
- Resolutions — 啟用你希望 Qwen‑Image‑Edit 訓練的桶,例如
512、768和1024。768 是許多 Qwen LoRA 的甜蜜點;添加 512 和 1024 使訓練對輕微的解析度變化更穩健。
你可以使用 Add Dataset 添加額外的資料集(例如 LoRA Weight < 1 的正則化資料集),但對於大多數「將這個設計印到他們的襯衫上」的使用案例,一個帶有目標 + 一個或兩個控制集的單一 Dataset 1 就足夠了。
5.3.10 SAMPLE 面板 — 訓練預覽
SAMPLE 面板控制訓練期間的定期預覽。這些樣本不會影響訓練損失;它們僅用於監控。
- Sample Every — 設為
250,這樣你每 250 步生成預覽,與你的檢查點計劃很好地對齊。 - Width / Height — 匹配你的主要訓練解析度,例如
1024 × 1024或768 × 1024,取決於你的資料集。 - Seed — 選擇一個穩定的種子如
42。如果你希望每個預覽批次使用連續的種子並顯示更多變化,可以啟用 Walk Seed。 - Sampler — 選擇
FlowMatch(或你版本中的預設 Qwen sampler)。這應該與 TRAINING 中使用的 FlowMatch scheduler 匹配。 - Guidance Scale — 預覽設為
4。當你稍後在 ComfyUI 或其他 UI 中進行推理時,你通常會在3–6之間實驗。 - Sample Steps — 約
25步對預覽來說是品質與速度的好折衷。 - Advanced Sampling — 你可以將 Skip First Sample、Force First Sample 和 Disable Sampling 都保持 OFF。只有在你正在除錯或想要完全沒有預覽的最大速度時才將 Disable Sampling 設為 ON。
- Sample Prompts — 添加 4–8 個代表你 LoRA 實際使用案例的提示。
5.4 步驟 3 — 啟動訓練並監控
配置好任務後,前往 Training Queue 標籤,選擇你的任務,準備運行。
點擊 Start / Play 並主要觀察兩件事:
- GPU VRAM / CPU RAM — 特別是在使用 Layer Offloading 的低 VRAM 顯卡上,留意系統 RAM 使用量。
- 樣本圖片 — 設計應該保持在襯衫上並跟隨褶皺和姿勢。如果它開始滲入整個圖片或顏色變得極端,考慮提前停止或減少總步數。
6. 按 VRAM 等級推薦的 Qwen Edit 2509 LoRA 訓練配置
如果你只想要一個適用於 24GB 本地 GPU 和所有 H100/H200 雲端運行的安全預設,使用第 3–6 節的設定:Low VRAM = ON、Transformer/Text Encoder 量化 = float8、Batch Size = 1、LoRA Rank = 32、Resolutions = 512 / 768 / 1024、Differential Output Preservation = ON、Cache Text Embeddings = OFF。
以下只有真正隨硬體變化的設定。這裡沒有提到的任何內容(Steps、Learning Rate、Optimizer 等)可以保持之前的建議。
等級 1 — 低 VRAM(~10–12GB 本地)
- MODEL → Low VRAM:設為 ON。這啟用額外的檢查點和 shuffling,讓 Qwen‑Image‑Edit‑2509 能塞進 10–12GB 顯卡。
- MODEL → Layer Offloading:如果你仍然遇到 CUDA OOM,設為 ON。預期高 CPU RAM 使用量(≈60GB+)和更慢的步驟,但 GPU VRAM 可以降到約 8–9GB。
- QUANTIZATION → Transformer / Text Encoder:兩者都設為
float8。在這個使用 Qwen 3-bit ARA 適配器的架構中,float8是穩定品質的實際最低要求。 - TRAINING → Batch Size:鎖定在 1。如果你想要更大的有效批次,增加 Gradient Accumulation 而不是 Batch Size。
- DATASETS → Resolutions:啟用 512 和 768 作為你的主要桶。如果你接受較慢和較脆弱的運行,可以添加 1024;在此等級將帶兩個控制流的 1024×1024 視為實際上限。
- TRAINING → Text Encoder Optimizations / Regularization:如果即使有 Low VRAM 和 Layer Offloading 你也無法塞進 Differential Output Preservation,關閉 DOP 並開啟 Cache Text Embeddings,這樣圖說只編碼一次,text encoder 從 VRAM 釋放。你會失去一些基礎模型保留,但獲得幾 GB 的空間。
等級 2 — 緊張的 24GB(3090 / 4090 / 5090 級別)
相比等級 1 你可以放寬什麼:
- MODEL → Low VRAM:在 24GB 上為安全起見保持 ON;一旦你知道你的解析度和控制設定可以舒適地塞進去,你可以嘗試關閉它。
- MODEL → Layer Offloading:通常 OFF。只有在你選擇的解析度和控制流數量上仍然遇到 OOM 時才啟用。
- QUANTIZATION → Transformer / Text Encoder:兩者都保持
float8。在此等級禁用量化很少有幫助,只會燒掉你可以用於解析度或批次大小的 VRAM。 - TRAINING → Batch Size:1 仍然是預設。如果 Low VRAM ON 且量化保持 ON,在 768×768 帶兩個控制時有時可以使用 Batch Size 2。
- DATASETS → Resolutions:啟用 512、768 和 1024。將 768 視為你的「永遠安全」桶,1024 是可能需要 Low VRAM 和可能的部分 offload 的高端桶。
- TRAINING → Text Encoder Optimizations / Regularization:你通常可以保持 Differential Output Preservation ON 和 Cache Text Embeddings OFF,特別是如果你主要在 768×768 訓練。如果你在 24GB 顯卡上絕對需要 1024×1024 且在其他調整後仍然遇到 OOM,下一個槓桿是關閉 DOP 並開啟 Cache Text Embeddings。
等級 3 — 舒適的 32GB+ 本地和雲端 H100/H200
在 32GB 本地顯卡和 80–141GB 雲端 GPU(H100 / H200)上,你停止與 VRAM 戰鬥,可以簡化配置:
- MODEL → Low VRAM:可選。你可以在 32GB+ 本地 GPU 和 H100/H200 上關閉它,獲得稍快的步驟和更簡單的追蹤。
- MODEL → Layer Offloading:保持 OFF。所有 Qwen‑Image‑Edit‑2509 組件都可以駐留在 GPU 上。
- QUANTIZATION → Transformer / Text Encoder:預設兩者都保持
float8。在 H100/H200 上你可以嘗試禁用 Text Encoder 量化,但這不是獲得好品質所必需的,與將該 VRAM 用於批次大小或解析度相比收益很小。 - TRAINING → Batch Size:在 32GB 本地 GPU 上使用 1–2,在 H100/H200 上使用 2–4,在 1024×1024 帶兩個控制流。
- TARGET → LoRA Rank:32 是個舒適的預設。對於非常複雜的行為(例如多效果編輯 LoRA),如果你注意過擬合,可以在 H100/H200 上嘗試 48–64。
- DATASETS → Resolutions:主要在 768 和 1024 訓練。你通常可以去掉 512,除非你特別關心低解析度行為。
- TRAINING → Text Encoder Optimizations / Regularization:預設運行 Differential Output Preservation ON 和 Cache Text Embeddings OFF。VRAM 足以保持 text encoder 駐留,你獲得「有觸發詞」和「無觸發詞」行為之間最乾淨的分離。
7. Qwen Edit 2509 LoRA 訓練常見問題及解決方案
7.1 配對錯誤的資料集(順序錯誤 / 人物不匹配)
症狀: 設計出現了,但在錯誤的位置、錯誤的人身上或變形了。
檢查目標和控制資料集是否對齊:shirt_target/img_0001.jpg 應該與 shirt_control/img_0001.jpg 和 shirt_design/img_0001.png 配對,依此類推。如果你手動混合圖片,保持檔名配對,這樣字母順序仍然對齊。
7.2 即使有量化也 VRAM OOM
如果你用小的目標解析度(例如 512×512)訓練,但你的控制資料集仍然使用 1024×1024 作為最高桶且 Match Target Res 關閉,每個控制流將以 1024×1024 編碼,而目標只有 512×512。有兩個或三個這樣的控制流,總 latent 大小會比預期大得多,即使啟用了量化你也可能很容易遇到 CUDA OOM。
要解決這個問題:
- 在 MODEL 面板將 Match Target Res 設為 ON,這樣所有控制圖片會自動縮放到與目標相同的解析度桶,或者
- 保持 Match Target Res OFF,但將控制資料集的最高解析度桶降低以匹配目標(去掉 1024,保持 512/768)。
在雲端的 H100/H200 上,你可以為目標和控制都保持 1024×1024 桶,較少依賴這些技巧,但最安全的規則是:當 Match Target Res 禁用時,避免將小目標與非常大的控制混合。
7.3 訓練從不收斂 / 看起來隨機
檢查以下內容:
- 在 TRAINING 面板中,noise scheduler 和 timestep 設定仍然對應 FlowMatch。在匯出的 YAML 中你應該看到
noise_scheduler: "flowmatch",在 SAMPLE 面板中 sampler 也應該設為 FlowMatch;如果 sampler 使用不同的 scheduler,即使 LoRA 正在正確訓練,預覽也可能看起來像純噪聲。 - Learning Rate 不是太高。
0.0001是 Qwen Edit 2509 LoRA 訓練的安全預設;如果預覽在幾百步後繼續振盪或看起來非常不穩定,降低到0.00005並從最後一個好的檢查點繼續。
7.4 LoRA 過擬合(設計到處滲透)
可能的解決方案:
- 減少總 Steps(例如從 5000 到 3000)。
- 考慮稍低的 LoRA Rank(16 而不是 32)。
- 用不同的人物、姿勢和光照多樣化資料集。
- 確保 Differential Output Preservation 已啟用,如果需要的話稍微增加 DOP Loss Multiplier,這樣基礎行為會被更強地保留。
7.5 環境地獄
典型的本地問題包括 CUDA 版本不匹配、錯誤的 PyTorch 構建或與你的 GPU / 作業系統不匹配的驅動程式。在 RunComfy 雲端 AI Toolkit 中這些問題消失了:AI Toolkit 和依賴項已預裝,你直接從 UI 開始使用配置和資料集。
如果你發現修 CUDA 的時間比訓練還多,這通常是將這個特定任務移到雲端更容易的時候。
8. 訓練後使用你的 Qwen Edit 2509 LoRA
訓練完成後,你可以用兩種簡單的方式使用你的 Qwen Edit 2509 LoRA:
- 模型 Playground — 打開 Qwen‑Image‑Edit‑2509 LoRA Playground 並貼上你訓練好的 LoRA 的 URL,快速查看它在基礎模型上的表現。
- ComfyUI 工作流 — 啟動一個 ComfyUI 實例,構建你自己的工作流或載入像 Qwen Edit 2509 MultipleAngles 這樣的工作流,在 LoRA 載入節點中換入你的 LoRA,並調整 LoRA 權重和其他設定以獲得更精細的控制。
更多 AI Toolkit LoRA 訓練指南
準備好開始訓練了嗎?

