Wan2.2 Fun Camera:ComfyUI 中的影像化圖像到視頻運動
Wan2.2 Fun Camera 將單一靜止圖像轉變為生動的視頻,伴隨流暢的平移、變焦和旋轉。基於 Wan 2.2 Fun 系列,這個 ComfyUI 工作流程專注於鏡頭運動,增加深度和故事能量,而不需要手動關鍵幀或編輯。如果您需要快速的社交短片、動態的主題鏡頭或產品和角色靜態圖像的生動運動,Wan2.2 Fun Camera 可提供乾淨且可重複的結果。
該圖形附帶兩個變體,您可以選擇適合您任務的平衡。原生 fp8 放大路徑最大化運動豐富性,來自 Wan2.2 Fun Camera 模型,而 LightX2V 4 Steps LoRA 變體則以動態的微小妥協為代價優先速度。兩個變體共享相同的提示、鏡頭預設和導出階段,使 Wan2.2 Fun Camera 易於學習並快速迭代。
ComfyUI Wan2.2 Fun Camera 工作流程中的關鍵模型
- Wan 2.2 Fun Camera 14B 高噪聲 UNet fp8 放大。在 Wan2.2 Fun Camera 中驅動早期的擴散步驟以建立運動和結構。Hugging Face file
- Wan 2.2 Fun Camera 14B 低噪聲 UNet fp8 放大。精細化細節並穩定 Wan2.2 Fun Camera 中的最終幀。Hugging Face file
- Wan2.2 Image-to-Video LightX2V 4 Steps LoRA,高噪聲和低噪聲。可選加速器,縮短採樣時間,同時稍微降低 Wan2.2 Fun Camera 的運動複雜性。High-noise LoRA • Low-noise LoRA
- Wan 2.1 VAE。為 Wan2.2 Fun Camera 管道編碼和解碼潛在圖像。Hugging Face file
- UMT5-XXL 文本編碼器 fp8。解釋正面和負面提示以條件化 Wan2.2 Fun Camera 中的鏡頭驅動合成。Hugging Face file
如何使用 ComfyUI Wan2.2 Fun Camera 工作流程
工作流程包含兩個平行分支:“Wan2.2 Fun Camera fp8 放大 + LightX2V 4 Steps LoRA”和“Wan2.2 Fun Camera fp8 放大”。在生成之前啟用一個分支並禁用另一個。兩個分支都遵循相同的四個操作步驟和一個兩階段的去噪計劃,從高噪聲開始,然後以低噪聲結束以獲得更清晰的幀。
步驟 1 - 加載模型
此組準備 Wan 2.2 Fun Camera 高噪聲和低噪聲 UNet、可選的 LightX2V LoRA 配對、UMT5-XXL 文本編碼器和 Wan 2.1 VAE。當您需要更快的周轉時選擇 LoRA 分支,當運動豐富性是優先事項時選擇原生 fp8 分支。加載後,模型將保持駐留,因此您可以快速在 Wan2.2 Fun Camera 中迭代鏡頭運動和提示。
步驟 2 - 上傳開始圖像
在“上傳 start_image”組中添加您的源靜止圖像。工作流程預期單一圖像,並將在動畫化視點時保留核心內容。為了在 Wan2.2 Fun Camera 中獲得最佳效果,請從乾淨的主題、良好的對比度和留有邊緣運動空間的構圖開始。
步驟 3 - 提示
輸入簡潔的正面提示以描述主題意圖和運動風格,然後用負面提示進行微調以避免產生人為痕跡。保持提示簡短且動作導向,例如“影像化產品主題,輕柔地拉遠”或“肖像,細微地向右平移”。Wan2.2 Fun Camera 對風格和運動描述詞反應良好,而不會過度限制場景。
步驟 4 - 鏡頭條件
在 WanCameraEmbedding 組中選擇一個鏡頭預設和時間線。這將構建一個鏡頭路徑嵌入加上核心節點將遵循的持續時間和分辨率設置。Wan2.2 Fun Camera 包含直觀的預設,如拉遠、平移和旋轉,這樣您可以快速預覽不同的運動而無需手動調整曲線。
高噪聲 - 首次步驟
第一個採樣通過使用高噪聲 UNet 建立粗略結構並啟動運動動態。這是選擇的鏡頭路徑開始顯現為全局運動的地方。在 LoRA 分支中,LightX2V 4 Steps LoRA 將此階段壓縮為較少的步驟以提高速度。在原生 fp8 分支中,Wan2.2 Fun Camera 優先考慮運動的真實性,再進行細化。
低噪聲 - 最後步驟
第二個採樣通過使用低噪聲 UNet 專注於細節恢復、紋理和時間一致性。它尊重已建立的鏡頭路徑,同時清理邊緣和面部。在啟用 LoRA 的情況下,這一階段也會以微小的運動變化為代價運行得更快。無 LoRA 的情況下,Wan2.2 Fun Camera 從最終幀中擠出額外的清晰度。
解碼和導出
VAE 將潛在圖像解碼回幀,並且 Video Helper 節點將其組裝成 MP4。默認設置目標為廣泛兼容的 H.264 文件,幀率適中,因此預覽快速渲染。您可以通過調整提示或鏡頭預設並重新生成來就地迭代。Wan2.2 Fun Camera 保持您的輸出一致,並通過可預測的文件名進行批量實驗。
ComfyUI Wan2.2 Fun Camera 工作流程中的關鍵節點
WanCameraEmbedding (#87, #108)
定義 Wan2.2 Fun Camera 的運動計劃。選擇一個鏡頭預設並設置整個鏡頭的分辨率和剪輯長度。如果看到裁剪或信箱,請在此處調整寬度和高度。較長的剪輯需要更多計算,可能會從 LoRA 路徑中受益以提高速度。
WanCameraImageToVideo (#80, #98)
核心驅動程序,融合提示、VAE、起始圖像和鏡頭嵌入為運動感知潛在圖像。將其視為您的創意意圖與擴散採樣器之間的橋樑。如果運動感覺過強或過弱,請首先檢查鏡頭預設或提示動詞,而不是採樣器。
KSamplerAdvanced (#71 和 #78, #102 和 #103)
運行兩階段計劃:高噪聲採樣器建立運動,然後低噪聲採樣器進行細化。對於更強的結構,在第一次通過中使用更多步驟,對於更清晰的細節,在第二次通過中投入步驟。保持指導平衡,以便運動自然且不過度適應提示。
VHS_VideoCombine (#116, #117)
將解碼的幀打包成單個視頻文件以便快速查看。調整幀率以匹配您的鏡頭運動感覺,並調整 CRF 以獲得更高質量的導出。使用乾淨的文件名前綴在探索 Wan2.2 Fun Camera 變體時保持版本有序。
LoraLoaderModelOnly (#88, #90)
啟用 LightX2V 4 Steps LoRA 配對。開啟這些以加快迭代或降低 VRAM 壓力。禁用它們以在完成 Wan2.2 Fun Camera 鏡頭時獲得最大運動豐富性。
可選附加項
- 喜歡方形或近方形的圖像以便在大變焦時邊緣不會在運動中裁剪。
- 保持正面提示簡短且描述性,然後使用負面提示來過濾人為痕跡而不是引導運動。
- 如果運動感覺靜止,請先嘗試更強的鏡頭預設,然後在提示中添加動詞,如平移、推進、傾斜。
- 對於較長的剪輯,在探索時降低分辨率,然後在單獨的通過中放大。
- LoRA 分支適合預覽或緊迫的截止日期,而原生 fp8 分支最適合最終的 Wan2.2 Fun Camera 渲染。
- 在 Wan2.2 Fun Camera 中進行 A/B 測試提示和鏡頭預設時,保存種子以便重複性。
鳴謝
此工作流程實施並基於以下作品和資源。我們感謝 Alibaba PAI 提供 Wan2.2-Fun A14B 鏡頭控制模型,Comfy Org 提供 ComfyUI Wan2.2 Fun Camera 控制工作流程和文檔,以及 aigc-apps 提供 VideoX-Fun 框架的貢獻和維護。欲了解詳細信息,請參閱以下鏈接的原始文檔和存儲庫。
資源
- Comfy Org/Wan2.2 Fun Camera Documentation
- GitHub: aigc-apps/VideoX-Fun
- Hugging Face: alibaba-pai/Wan2.2-Fun-A14B-Control-Camera
- arXiv: Wan: Open and Advanced Large-Scale Video Generative Models
- Docs / Release Notes: Wan2.2 Fun Camera Documentation
注意:引用的模型、數據集和代碼的使用受其作者和維護者提供的各自許可和條款的約束。
