此工作流程將 Wan 2.1 Ditto 應用於任何輸入視頻的重新設計,同時保持場景結構和運動。它專為希望獲得電影、藝術或實驗外觀且具強烈時間一致性的編輯者和創作者而設計。您加載一段剪輯,描述目標外觀,Wan 2.1 Ditto 會生成乾淨的風格化渲染,並提供可選的並排比較以便快速審查。
該圖將 Wan 2.1 文本轉視頻主幹與 Ditto 的風格轉移在模型層面上配對,因此變化在幀之間一致發生,而不是作為逐幀濾鏡。常見用例包括動畫轉換、像素藝術、黏土動畫、水彩畫、蒸汽朋克或模擬到實際的編輯。如果您已經使用 Wan 生成內容,這個 Wan 2.1 Ditto 工作流程可以直接插入您的流程中,提供可靠的無閃爍視頻風格化。
工作流程分為四個階段:加載模型、準備輸入視頻、編碼文本和視覺效果,然後採樣和導出。群組按順序操作,生成風格化渲染和可選的並排比較。
此群組準備 Wan 2.1 Ditto 所需的一切。使用 WanVideoModelLoader
(#130) 加載基礎主幹,並與 WanVideoVAELoader
(#60) 和 LoadWanVideoT5TextEncoder
(#80) 配對。Ditto 組件使用 WanVideoVACEModelSelect
(#128) 選擇,該選項將主幹指向專用的 Ditto 風格化權重。如果需要更強的轉換,可以使用 WanVideoLoraSelect
(#122) 附加一個 LoRA。WanVideoBlockSwap
(#68) 可用於記憶體管理,以便較大的模型可以在有限的 VRAM 上順利運行。
使用 VHS_LoadVideo
(#101) 加載您的源剪輯。然後使用 LayerUtility: ImageScaleByAspectRatio V2
(#76) 調整幀的大小,以保持一致的幾何形狀,並以一個簡單的整數輸入 JWInteger
(#89) 控制長邊分辨率。GetImageSizeAndCount
(#65) 讀取準備好的幀,將寬度、高度和幀數轉發到下游節點,以便 Wan 2.1 Ditto 採樣正確的空間大小和持續時間。如果您更喜歡在自己的字段中撰寫提示,小提示助手 CR Text
(#104) 已包含。名為 "Maximum Variation Limit" 的群組提醒您將長邊像素目標保持在實用範圍內,以確保一致的結果和穩定的記憶體使用。
條件設置在兩條平行通道中進行。WanVideoTextEncode
(#111) 將您的提示轉換為文本嵌入,定義意圖和風格。WanVideoVACEEncode
(#126) 將準備好的視頻編碼為視覺嵌入,保持編輯的結構和運動。一個可選的指導模塊 WanVideoSLG
(#129) 控制模型如何通過去噪軌跡平衡風格和內容。然後 WanVideoSampler
(#119) 將 Wan 2.1 主幹與 Ditto、文本嵌入和視覺嵌入融合,生成風格化潛在變量。最後,WanVideoDecode
(#87) 將潛在變量重建為幀,生成以 Wan 2.1 Ditto 著稱的時間一致性風格化序列。
主要導出使用 VHS_VideoCombine
(#95) 以您選擇的幀速率保存 Wan 2.1 Ditto 渲染。為了快速審查,該圖將原始幀和風格化幀合併,使用 ImageConcatMulti
(#94) 調整比較大小,並通過 VHS_VideoCombine
(#100) 寫入並排影片。通常,您會在輸出文件夾中獲得兩個視頻:一個乾淨的風格化渲染和一個比較剪輯,幫助利益相關者更快地批准或迭代。
您可以從簡短、清晰的提示開始並進行迭代。適合 Wan 2.1 Ditto 的示例:
WanVideoVACEModelSelect
(#128)
選擇要用於風格化的 Ditto 權重。默認的全球 Ditto 模型是大多數影片的平衡選擇。如果您的目標是動畫轉實景轉換,請在節點註釋中選擇參考的模擬到實景 Ditto 變體。切換 Ditto 變體會改變重新設計的特性,而不影響其他設置。
WanVideoVACEEncode
(#126)
從您的輸入幀構建視覺條件。關鍵控制是 width
、height
和 num_frames
,應與準備好視頻匹配以獲得最佳效果。使用 strength
調整 Ditto 的風格在編輯中影響的強度,並使用 vace_start_percent
和 vace_end_percent
限制條件在擴散軌跡中應用的時間。啟用 tiled_vae
在非常高的分辨率下減少記憶體壓力。
WanVideoTextEncode
(#111)
通過 mT5‑XXL 編碼器編碼正面和負面提示以指導風格和內容。保持正面提示簡潔描述,並使用負面提示抑制如閃爍或過飽和等瑕疵。force_offload
和 device
選項允許您在運行大型模型時以速度換取記憶體。
WanVideoSampler
(#119)
使用 Ditto 風格化運行 Wan 2.1 主幹以生成最終的潛在變量。最有影響的設置是 steps
、cfg
、scheduler
和 seed
。當您想保留更多原始結構時,使用 denoise_strength
,並保持 slg_args
連接以在內容保真度與風格強度之間取得平衡。增加步驟或指導可能會在以時間為代價改善細節。
ImageScaleByAspectRatio V2
(#76)
在條件設置之前為所有幀設置穩定的目標大小。使用獨立的整數驅動長邊目標,以便您可以測試小而快速的預覽,然後增加分辨率以獲得最終渲染。保持縮放在迭代之間一致,以使 A/B 比較有意義。
VHS_LoadVideo
(#101) 和 VHS_VideoCombine
(#95, #100)
這些節點處理解碼和編碼。當您關心時間時,將幀速率與源匹配。比較編寫器在探索期間很有用,如果您只想要風格化的結果,可以在最終導出時禁用。
WanVideoVACEModelSelect
中選擇模擬到實景 Ditto 變體。這個 Wan 2.1 Ditto 工作流程使高品質視頻重新設計變得可預測且快速,提示乾淨,運動一致,輸出準備好立即審查或交付。
此工作流程實施並基於以下工作和資源。我們感謝 EzioBy 提供的 Wan 2.1 Ditto Source 的貢獻和維護。欲了解權威詳情,請參閱下方鏈接的原始文檔和存儲庫。
注意:引用的模型、數據集和代碼的使用受其作者和維護者提供的相應許可和條款的約束。
RunComfy 是首選的 ComfyUI 平台,提供 ComfyUI 在線 環境和服務,以及 ComfyUI 工作流程 具有驚豔的視覺效果。 RunComfy還提供 AI Playground, 幫助藝術家利用最新的AI工具創作出令人驚艷的藝術作品。