Wan 2.1 Ditto 視頻重新設計工作流程適用於 ComfyUI
此工作流程將 Wan 2.1 Ditto 應用於任何輸入視頻的重新設計,同時保持場景結構和運動。它專為希望獲得電影、藝術或實驗外觀且具強烈時間一致性的編輯者和創作者而設計。您加載一段剪輯,描述目標外觀,Wan 2.1 Ditto 會生成乾淨的風格化渲染,並提供可選的並排比較以便快速審查。
該圖將 Wan 2.1 文本轉視頻主幹與 Ditto 的風格轉移在模型層面上配對,因此變化在幀之間一致發生,而不是作為逐幀濾鏡。常見用例包括動畫轉換、像素藝術、黏土動畫、水彩畫、蒸汽朋克或模擬到實際的編輯。如果您已經使用 Wan 生成內容,這個 Wan 2.1 Ditto 工作流程可以直接插入您的流程中,提供可靠的無閃爍視頻風格化。
Comfyui Wan 2.1 Ditto 工作流程中的關鍵模型
- Wan2.1‑T2V‑14B 文本轉視頻模型。作為生成主幹,根據文本和視覺條件合成時間一致的運動。
- Wan 2.1 VAE。編碼和解碼視頻潛在變量,以便採樣器可以在緊湊空間中工作,然後可靠地重建全分辨率幀。
- mT5‑XXL 文本編碼器。將提示轉換為豐富的語言嵌入,指導場景內容和風格。有關 mT5 的背景,請參閱 Xue 等人的論文 mT5: A Massively Multilingual Pre‑trained Text‑to‑Text Transformer。
- Wan 2.1 的 Ditto 風格化模型。提供具有強大時間一致性的穩健全球重新設計。Ditto 方法和模型文件記錄在此處:EzioBy/Ditto。
- 可選的 Wan 2.1 14B 的 LoRA。在不重新訓練基礎模型的情況下,根據 Hu et al., 2021 描述的方法,增加輕量的風格或行為變化。
如何使用 Comfyui Wan 2.1 Ditto 工作流程
工作流程分為四個階段:加載模型、準備輸入視頻、編碼文本和視覺效果,然後採樣和導出。群組按順序操作,生成風格化渲染和可選的並排比較。
模型
此群組準備 Wan 2.1 Ditto 所需的一切。使用 WanVideoModelLoader (#130) 加載基礎主幹,並與 WanVideoVAELoader (#60) 和 LoadWanVideoT5TextEncoder (#80) 配對。Ditto 組件使用 WanVideoVACEModelSelect (#128) 選擇,該選項將主幹指向專用的 Ditto 風格化權重。如果需要更強的轉換,可以使用 WanVideoLoraSelect (#122) 附加一個 LoRA。WanVideoBlockSwap (#68) 可用於記憶體管理,以便較大的模型可以在有限的 VRAM 上順利運行。
輸入參數
使用 VHS_LoadVideo (#101) 加載您的源剪輯。然後使用 LayerUtility: ImageScaleByAspectRatio V2 (#76) 調整幀的大小,以保持一致的幾何形狀,並以一個簡單的整數輸入 JWInteger (#89) 控制長邊分辨率。GetImageSizeAndCount (#65) 讀取準備好的幀,將寬度、高度和幀數轉發到下游節點,以便 Wan 2.1 Ditto 採樣正確的空間大小和持續時間。如果您更喜歡在自己的字段中撰寫提示,小提示助手 CR Text (#104) 已包含。名為 "Maximum Variation Limit" 的群組提醒您將長邊像素目標保持在實用範圍內,以確保一致的結果和穩定的記憶體使用。
採樣
條件設置在兩條平行通道中進行。WanVideoTextEncode (#111) 將您的提示轉換為文本嵌入,定義意圖和風格。WanVideoVACEEncode (#126) 將準備好的視頻編碼為視覺嵌入,保持編輯的結構和運動。一個可選的指導模塊 WanVideoSLG (#129) 控制模型如何通過去噪軌跡平衡風格和內容。然後 WanVideoSampler (#119) 將 Wan 2.1 主幹與 Ditto、文本嵌入和視覺嵌入融合,生成風格化潛在變量。最後,WanVideoDecode (#87) 將潛在變量重建為幀,生成以 Wan 2.1 Ditto 著稱的時間一致性風格化序列。
輸出和比較
主要導出使用 VHS_VideoCombine (#95) 以您選擇的幀速率保存 Wan 2.1 Ditto 渲染。為了快速審查,該圖將原始幀和風格化幀合併,使用 ImageConcatMulti (#94) 調整比較大小,並通過 VHS_VideoCombine (#100) 寫入並排影片。通常,您會在輸出文件夾中獲得兩個視頻:一個乾淨的風格化渲染和一個比較剪輯,幫助利益相關者更快地批准或迭代。
提示想法
您可以從簡短、清晰的提示開始並進行迭代。適合 Wan 2.1 Ditto 的示例:
- 使其成為日式動畫風格,逐幀著色視頻。
- 使其成為像素藝術視頻。
- 使其成為鉛筆素描風格視頻。
- 使其成為黏土動畫視頻。
- 使其成為水彩畫風格視頻。
- 使其成為蒸汽朋克風格,帶有齒輪、管道和黃銅細節。
- 使其成為賽博朋克風格,帶有霓虹燈和未來植入物。
- 使其成為浮世繪風格視頻。
- 使其成為文藝復興藝術風格視頻。
- 使其成為梵高的畫作。
- 將其轉變為樂高風格。
- 將其轉變為吉卜力風格。
- 將其轉變為 3D Chibi 風格。
- 將其轉變為剪紙風格。
Comfyui Wan 2.1 Ditto 工作流程中的關鍵節點
WanVideoVACEModelSelect (#128) 選擇要用於風格化的 Ditto 權重。默認的全球 Ditto 模型是大多數影片的平衡選擇。如果您的目標是動畫轉實景轉換,請在節點註釋中選擇參考的模擬到實景 Ditto 變體。切換 Ditto 變體會改變重新設計的特性,而不影響其他設置。
WanVideoVACEEncode (#126) 從您的輸入幀構建視覺條件。關鍵控制是 width、height 和 num_frames,應與準備好視頻匹配以獲得最佳效果。使用 strength 調整 Ditto 的風格在編輯中影響的強度,並使用 vace_start_percent 和 vace_end_percent 限制條件在擴散軌跡中應用的時間。啟用 tiled_vae 在非常高的分辨率下減少記憶體壓力。
WanVideoTextEncode (#111) 通過 mT5‑XXL 編碼器編碼正面和負面提示以指導風格和內容。保持正面提示簡潔描述,並使用負面提示抑制如閃爍或過飽和等瑕疵。force_offload 和 device 選項允許您在運行大型模型時以速度換取記憶體。
WanVideoSampler (#119) 使用 Ditto 風格化運行 Wan 2.1 主幹以生成最終的潛在變量。最有影響的設置是 steps、cfg、scheduler 和 seed。當您想保留更多原始結構時,使用 denoise_strength,並保持 slg_args 連接以在內容保真度與風格強度之間取得平衡。增加步驟或指導可能會在以時間為代價改善細節。
ImageScaleByAspectRatio V2 (#76) 在條件設置之前為所有幀設置穩定的目標大小。使用獨立的整數驅動長邊目標,以便您可以測試小而快速的預覽,然後增加分辨率以獲得最終渲染。保持縮放在迭代之間一致,以使 A/B 比較有意義。
VHS_LoadVideo (#101) 和 VHS_VideoCombine (#95, #100) 這些節點處理解碼和編碼。當您關心時間時,將幀速率與源匹配。比較編寫器在探索期間很有用,如果您只想要風格化的結果,可以在最終導出時禁用。
可選的附加功能
- 對於動畫到實景的編輯,在採樣之前在
WanVideoVACEModelSelect中選擇模擬到實景 Ditto 變體。 - 從短提示開始,如“使其成為水彩畫風格”,然後用 1 或 2 個描述詞進行細化。長列表往往會稀釋風格強度。
- 使用負面提示減少閃爍、壓縮瑕疵和過亮的高光,當推動強烈外觀時。
- 在迭代之間保持長邊分辨率一致,以穩定結果並使種子可重複。
- 當 VRAM 緊張時,啟用模型卸載和平鋪選項,或在完全渲染之前以較小的長邊值進行預覽。
這個 Wan 2.1 Ditto 工作流程使高品質視頻重新設計變得可預測且快速,提示乾淨,運動一致,輸出準備好立即審查或交付。
致謝
此工作流程實施並基於以下工作和資源。我們感謝 EzioBy 提供的 Wan 2.1 Ditto Source 的貢獻和維護。欲了解權威詳情,請參閱下方鏈接的原始文檔和存儲庫。
資源
- EzioBy/Wan 2.1 Ditto Source
- GitHub: EzioBy/Ditto
注意:引用的模型、數據集和代碼的使用受其作者和維護者提供的相應許可和條款的約束。
