AI Toolkit LoRA Training Guides

Qwen 2511 LoRA訓練(Qwen-Image-Edit-2511):Ostris AI Toolkit(更新版指南)

本教學說明如何用Ostris AI Toolkit訓練Qwen 2511(Qwen-Image-Edit-2511)LoRA,用於多圖、geometry-aware指令編輯。內容涵蓋編輯資料集建置(控制圖/多控制流 + 指令 → 目標圖)、1–3路控制流的VRAM規劃、關鍵參數調整,以及常見錯誤與訓練失敗的修復方法。

Train Diffusion Models with Ostris AI Toolkit

水平滾動查看完整表單

Ostris AI ToolkitOstrisAI-Toolkit

New Training Job

Job

Model

Quantization

Target

Save

Training

Datasets

Dataset 1

Sample

Qwen‑Image‑Edit‑2511(通常簡稱為Qwen 2511)是 Qwen 的「一致性優先」圖像編輯檢查點:它專為減少圖像漂移在創意編輯中保持身份特徵以及在僅編輯圖像部分區域時保持結構忠實度而打造。它還在基礎權重中整合了LoRA 能力,具備更強的工業/產品設計輸出能力和改進的幾何推理,這些特性使其對於實用、可重複的編輯 LoRA 特別有吸引力。

本指南將手把手教你如何使用 Ostris AI Toolkit 進行 Qwen 2511 LoRA 訓練

本文是 AI Toolkit LoRA 訓練系列的一部分。如果你剛接觸 Ostris AI Toolkit,建議先閱讀 AI Toolkit LoRA 訓練概述,再深入本指南。

目錄


1. Qwen 2511 vs 2509:有何不同

Qwen 2511 不是用來「生成好看圖片」的檢查點——它是一個遵循指令的圖像編輯器。如果你之前用過 Qwen 2509 LoRA 訓練,可以把 2511 看作「一致性優先」的迭代版本:它經過調優以減少漂移保持身份/結構,並將編輯限制在你請求的區域內(特別適合產品/工業設計工作和幾何敏感的佈局)。

與 Qwen 2509 相比,有三個差異直接影響 Qwen 2511 LoRA 訓練:

第一:更強的漂移抵抗力和身份保持能力。 相比 Qwen 2509,Qwen 2511 傾向於讓「未改變」的部分保持更穩定,讓你的 LoRA 能學到更清晰的編輯規則,而不是把效果意外地烘焙到人臉、背景或構圖裡。

第二:多圖像條件仍是核心,但控制訊號必須乾淨。 與 Qwen 2509 一樣,Qwen 2511 在提供1-3 張參考圖像加指令時效果最好。實際差異在於 2511 會獎勵對齊良好的控制流;如果配對錯誤或控制較弱,你會看到更多過度編輯和漂移。

第三:更多內建的 LoRA 友好性(以及更大的特異性需求)。 Qwen 2511 在基礎權重中帶有更強的內建 LoRA 容量。這對實用、可重複的編輯 LoRA 很棒,但也意味著你的 Qwen 2511 LoRA 訓練需要以清晰、狹窄的映射來進行,這樣它就不會變成模糊的「萬能濾鏡」。


2. 核心心智模型:Edit LoRA 究竟在學什麼

對於 Qwen 2511,你的 LoRA 正在學習一條轉換規則

「給定這(些)參考圖像和這條指令,在保持應該保持一致的部分的同時,生成編輯後的結果。」

這就是為什麼編輯資料集必須包含所有三個組件:

  • 控制/參考圖像: 需要保持的內容(身份、幾何、光照、背景——你的任務需要什麼就保持什麼)
  • 指令(caption/prompt): 需要改變的內容,明確陳述
  • 目標圖像: 展示變化的「之後」結果

如果你只提供「之後」圖像,模型就沒有穩定的訊號來判斷保留什麼,所以它會學到一個有雜訊的捷徑:可能會把變化烘焙到身份、背景或構圖中。這看起來像「LoRA 很強」,但實際上是不受控制的漂移。

判斷你的資料集是否「編輯正確」的最簡單方法是:如果你移除指令,人類是否仍能透過比較控制圖和目標圖來推斷出什麼發生了變化?如果是,你就有了可學習的編輯訊號。如果不是(或者變化是模糊的),你的 LoRA 會很脆弱。


3. 在哪裡訓練:本地 AI Toolkit vs RunComfy Cloud AI Toolkit

本地 AI Toolkit 最適合以下情況:你已經有相容的 NVIDIA GPU,熟悉管理 CUDA/PyTorch 版本,並且想要對檔案和迭代有最大控制。(從 Ostris 的 GitHub 倉庫安裝 AI Toolkit:ostris/ai-toolkit。)對於 Qwen 2511 LoRA 訓練,本地訓練完全可行——但模型很重,多圖像條件會讓顯存迅速飆升,所以你經常需要依賴量化、低顯存模式或更小的解析度桶。

RunComfy Cloud AI Toolkit 是「跳過設定」的路徑,通常是 Qwen 2511 LoRA 訓練的實用選擇。你在瀏覽器中執行同樣的 AI Toolkit 介面,但有大型 GPU 可用(環境意外也更少)。對團隊也很方便:資料集、設定和檢查點保留在持久化工作空間中,所以你可以像產品工作流程一樣迭代,而不是一次性的本地實驗。

👉 點此開啟:RunComfy Cloud AI Toolkit


4. Qwen-Edit-2511 LoRA 訓練的硬體與顯存規劃

Qwen 2511 有一個龐大的 backbone,預設設計為在 1024×1024 下執行以獲得最佳效果。此外,每增加一個控制圖像流都會增加顯存使用,因為模型需要處理更多的條件資訊。

實際上,Qwen 2511 LoRA 訓練有三個可行的層級:

層級 A:24-32GB 顯存(吃力但可行)。

預期需要激進的策略:低顯存模式、梯度檢查點、更小的桶(通常 768 作為起點)和量化(理想情況下如果你的建置提供 Accuracy Recovery Adapter 選項就用它)。保持 batch size 為 1,用梯度累積來擴展。

層級 B:40-48GB 顯存(舒適)。

通常可以在 1024 解析度下使用一兩個控制流訓練,配合適度量化或甚至大部分 bf16(取決於你的具體設定)。這個層級是 Qwen Edit LoRA 訓練從「微妙」變成「可重複」的地方。

層級 C:80GB+ 顯存(快速、低摩擦)。

你可以將更多元件保持在 bf16,舒適地執行多控制資料集,更頻繁地取樣,快速迭代——這是你在 RunComfy Cloud AI Toolkit 上使用大型 GPU 時獲得的設定。

關鍵思路:解析度和控制流數量是你最大的顯存槓桿。如果卡住了,先調整這些,再開始隨便調學習率。


5. 真正適用於 Qwen Edit 模型的資料集設計

5.1 匹配 AI Toolkit Qwen Edit 訓練器的資料夾結構

一個能防止 90% bug 的實用結構:

  • targets/ → 編輯後的「之後」圖像
  • control_1/ → 第一個參考圖像流(通常是「之前」圖像)
  • control_2/ → 第二個參考流(選用;第二個人物/產品/背景/設計)
  • control_3/ → 第三個流(少見;只有當你的工作流程真正需要時)
  • captions/ → 按檔名對齊的選用 .txt 標註(或根據你的工作流程儲存在 targets 旁邊的標註)

重要的部分是配對。AI Toolkit 只有在能將 targets/0001.pngcontrol_1/0001.png(以及 control_2/0001.png 等)匹配時才能正確訓練。如果檔案順序不同,你的 LoRA 會學到錯誤的映射,你會得到「能訓練但看起來隨機」的結果。


5.2 涵蓋大多數真實 LoRA 的三種資料集模式

模式 A:單參考編輯(1 張控制圖像)。

用於:顏色變化、局部物件替換、重新打光、背景替換、「把這個變成水彩」等。你的 control_1 是原始圖像,目標是編輯結果,標註是直接指令(「把帽子變成紅色」)。這種模式最容易訓練和除錯。

模式 B:多參考融合(2-3 張控制圖像)。

用於:人物+人物、人物+場景、產品+背景、「融合這兩個身份」,或任何你想讓模型保持多個來源的情況。你的標註應該闡明每個參考的角色(「使用 ref1 的人物,ref2 的背景」)。

模式 C:設計插入三元組(空白+設計→套用)。

這是商業工作中投資報酬率最高的資料集模式:T恤上的 logo、產品上的貼紙、布料上的圖案、包裝上的標籤。control_1 是沒有設計的產品/人物,control_2 是設計圖像,目標是最終的「設計已套用」圖像。這種分離教會 LoRA 精確地知道保持什麼(幾何/光照/材質)與改變什麼(設計區域)。


5.3 有幫助(而非有害)的標註

對於 Edit LoRA,你的標註應該表現為指令,而不是描述。「一個穿T恤的男人,在戶外」沒有用;「將提供的 logo 放置在胸部中央,保持布料褶皺和光照」有用。

好的指令標註通常包括:

  • 預期的變化
  • 需要保持的內容
  • 任何位置或幾何約束(特別是對於設計插入)

保持標註在整個資料集中一致。一致性使映射更容易學習,使你的 LoRA 在推論時更可控。


5.4 你需要多少樣本?

對於狹窄、可重複的編輯(logo 插入、特定的重新打光規則、一致的材質轉換),通常可以從 20-60 個建構良好的三元組開始。對於更廣泛的風格化或多主體融合,計畫 60-200+ 個範例,因為「需要保持一致的內容」的空間更大。

如果不確定,從 8-12 個樣本的「冒煙測試」集開始。冒煙測試的目標不是品質——而是在投入長時間執行之前確認你的配對和控制連線是否正常運作。


6. 分步教學:在 AI Toolkit 中訓練 Qwen 2511 LoRA

6.1 在 AI Toolkit 中建立資料集(Targets + Control Streams)

DATASETS 中(資料夾結構邏輯見第 5 節):

  • targets/ 建立資料集,然後如果使用的話加入 control_1 / control_2 / control_3
  • 驗證 targets 和 controls 之間的數量和檔名配對是否匹配(抽查約 10 個樣本)。
  • 如果使用標註,設定標註副檔名(通常是 .txt)並保持標註檔名與 targets 對齊。

6.2 建立新任務

JOB 中:

  • 選擇一個你以後能認出來的訓練名稱。
  • 只有當你想讓 LoRA 透過單個關鍵字「可呼叫」時才設定觸發詞。對於許多 Edit LoRA,指令本身就足夠了,觸發詞是選用的。
  • Steps 設定為保守值用於第一次執行(你在驗證設定,不是在尋找完美的最終模型)。

MODEL 中:

  • 選擇 Qwen Image Edit "Plus" 架構(多圖像編輯變體)。
  • Name or Path – 基礎檢查點的 Hugging Face model id(repo id),例如:Qwen/Qwen-Image-Edit-2511

    在大多數 AI Toolkit 建置中,選擇模型架構會自動填入這個值;除非你有理由更改,否則保持原樣。

  • 如果你的 GPU 支援就使用 bf16;否則 FP16 可以運作,但 bf16 通常在可用時更穩定。
  • 只在需要時啟用「Low VRAM」或卸載選項;盡可能簡單地開始。

QUANTIZATION 中(只在需要時):

  • 如果在 24-32GB,先量化 transformer/backbone。如果你的建置為 Qwen 2511 提供「with ARA」選項,優先使用它而不是普通的低位元量化,因為它傾向於保留更多品質。
  • 只有在 transformer 量化後顯存仍然緊張時才量化 text encoder/conditioning 端。

TARGET / NETWORK 中(LoRA 設定):

  • 從適中的 rank 開始。對於「規則型」編輯(logo 插入、重新打光),通常不需要極端的 rank。
  • 如果你的建置揭露了單獨的 linear/conv rank,除非你有證據表明它對你的特定任務有幫助,否則保持 conv 保守。過度參數化是通往過擬合和漂移的快速途徑。

TRAINING 中:

  • 保持 Batch Size = 1 並使用 Gradient Accumulation 在需要時增加有效 batch。
  • 如果顯存受限,從 AdamW 8-bit 開始。
  • 使用你的建置提供的 Qwen 建議/預設排程器設定(對於 Qwen Edit 任務,這通常是 flow-matching 排程器)。
  • 除非你有特定理由調整語言行為,否則在第一次成功執行時保持「train text encoder」關閉。大多數實用的 Edit LoRA 只需要 backbone/transformer 適應。
  • 如果顯存緊張,開啟 Gradient Checkpointing

DATASETS / RESOLUTIONS (Buckets) 中:

  • 如果負擔得起,1024 是 Qwen Edit 品質的強預設值。
  • 如果顯存受限,第一次執行使用 768,然後在確認管線正確連線後再擴展。
  • 優先使用小的桶集(例如 768 和 1024),而不是使映射不一致的混亂分佈。

SAMPLE / PREVIEWS 中:

取樣是你的預警系統。設定 1-3 個代表你真實用例的預覽提示,並始終使用相同的固定控制圖像和種子,這樣你可以直觀地比較檢查點。

早期執行的好的取樣節奏:

  • 早期每 100-250 步取樣一次
  • 每 250-500 步儲存檢查點
  • 只保留少量最近的檢查點以避免磁碟膨脹

6.3 如何判斷訓練是否正常運作

到約 200-500 步時,你應該至少看到以下之一:

  • 編輯開始一致地發生
  • 保持的部分(身份/背景/幾何)比「隨機生成」更穩定
  • 變化在方向上與標註指令匹配

如果你只看到雜訊,或模型忽略控制,不要先用學習率來「修復」。先修復配對、控制連線和 zero_cond_t


7. 2511 專屬開關:zero_cond_t

這是一個重要的 2511 特定細節。zero_cond_t 改變了當模型有一個去噪流(正在生成的圖像)和條件流(你的參考/控制圖像)時,timestep 如何跨流套用。啟用 zero_cond_t 後,條件圖像被視為乾淨的參考(有效地是 timestep 0),而主圖像遵循正常的擴散 timestep 排程。

如果你的條件圖像與主流一起「加噪」,模型對身份/結構的參考就會更弱、更模糊。這直接增加漂移並降低編輯保真度。將控制保持在 timestep 0 是一個乾淨的工程選擇,與「保持參考」的目標一致。

對於 Qwen 2511,將 zero_cond_t 視為相容性要求,而不是超參數:

  • 訓練時啟用它。
  • 推論時保持啟用。
  • 如果你的結果看起來比 2511 出名的程度意外地更漂移,這是首先要檢查的東西。

8. 常見訓練失敗及解決方案

8.1 "Missing control images for QwenImageEditPlusModel"

如果你看到這個,AI Toolkit 在告訴你它在訓練時沒有收到控制圖像。最常見的原因是:

  • 你附加了 targets 資料集但沒有在 dataset/job 連線中分配 control_1 / control_2
  • 控制資料夾路徑錯誤或為空
  • target/control 數量不匹配,所以某些樣本的控制載入失敗

透過使控制明確來修復:重新檢查資料集分配,確認資料夾路徑,並確保檔名/數量在流之間匹配。


8.2 "tuple index out of range" / 訓練早期的張量形狀錯誤

這幾乎總是意味著載入器期望一個圖像張量但得到了 None 或意外的形狀。底層原因通常很無聊但可修復:

  • 損壞的圖像檔案
  • 不支援的圖像模式(CMYK、灰階)
  • 特定索引缺少控制圖像(配對不匹配)

你的修復迴圈應該是:驗證資料完整性 → 驗證配對 → 在重啟大任務之前執行小的冒煙測試(3-5 個樣本)。


8.3 KeyError: 'pixel_values'(通常由灰階圖像引起)

Qwen Edit 管線通常期望 RGB 圖像。灰階圖像(單通道)可能會破壞特徵提取並導致 pixel_values 錯誤。將你的資料集圖像轉換為標準的 3 通道 RGB PNG/JPG 並重試。


8.4 Out of memory (OOM),特別是在取樣期間

多圖像編輯訓練可能會在預覽取樣期間使顯存飆升,因為它執行額外的前向傳遞並可能使用更大的中間緩衝區。

按以下順序修復 OOM:

  1. 減少預覽頻率或預覽解析度
  2. 保持 batch size 為 1,增加梯度累積
  3. 減少桶(或降到 768)
  4. 啟用量化/卸載
  5. 除錯時暫時用更少的控制流訓練
  6. 如果本地仍然 OOM,在 RunComfy Cloud AI Toolkit 上用更大的 GPU 執行相同的任務

8.5 LoRA 載入但在 ComfyUI 中「什麼都不做」(或載入時缺少 keys)

當 LoRA 什麼都不做時,通常是以下之一:

  • 你載入到與它訓練時不同的架構
  • LoRA 縮放太低以至於看不出來
  • 推論堆疊期望的和訓練器儲存的之間存在 key 前綴不匹配

如果你看到專門針對 Qwen LoRA 的缺失 key 警告,一個已知的解決方法是重寫 LoRA state dict key 前綴(例如,將 diffusion_model. keys 映射到 transformer. keys)。如果你的 AI Toolkit 建置和 ComfyUI nodes 都是最新的,這可能已經修復了——但當你看到系統性的「keys not loaded」問題時,這是首先要嘗試的。


9. 使用你訓練好的 LoRA(Playground + ComfyUI)

訓練完成後,驗證你的 Qwen 2511 LoRA 最快的方法是在 Qwen‑Image‑Edit‑2511 LoRA Playground 中載入它;當你想要一個可重複的節點圖用於實際工作時,從 Qwen‑Image‑Edit‑2511 ComfyUI 工作流 開始並替換你的 LoRA。


更多 AI Toolkit LoRA 訓練指南

Ready to start training?