此工作流程將 Hunyuan Video 1.5 包裝在 ComfyUI 中,以在消費級 GPU 上提供快速、連貫的視頻生成。它支持文本到視頻和圖像到視頻,然後可選地使用專用的潛在上采樣器和蒸餾超分辨率模型升級到 1080p。在底層,Hunyuan Video 1.5 將擴散變壓器與 3D 因果 VAE 及選擇性滑動塊注意策略結合,以平衡質量、運動保真度和速度。
創作者、產品團隊和研究人員可以使用此 ComfyUI Hunyuan Video 1.5 工作流程從提示或單個靜止圖像快速迭代,預覽 720p,並在需要時完成清晰的 1080p 輸出。
此圖暴露了兩條獨立的路徑,共享相同的導出和可選的 1080p 完成階段。選擇圖像到視頻或文本到視頻,然後可選地啟用 1080p 組來完成。
步驟 1 — 加載模型
加載器引入 Hunyuan Video 1.5 圖像到視頻 UNet、3D VAE、雙文本編碼器和 SigCLIP 視覺。這使工作流程準備接受單個起始圖像和提示。用戶無需執行任何操作,只需確認模型可用即可。
步驟 2 — 上傳起始圖像
在 LoadImage (#80) 中提供一個乾淨、曝光良好的圖像。圖將此圖像編碼為 CLIPVisionEncode (#79),以便 Hunyuan Video 1.5 可以將運動和風格錨定到您的參考中。選擇大致匹配目標長寬比的圖像,以減少裁剪或填充。
步驟 3 — 提示
在 CLIP Text Encode (Positive Prompt) (#44) 中撰寫您的描述。使用負提示 CLIP Text Encode (Negative Prompt) (#93) 避免不需要的工件或風格。保持提示簡潔,但具體說明主題、運動和相機行為。
步驟 4 — 視頻大小和持續時間
HunyuanVideo15ImageToVideo (#78) 設置要合成的空間分辨率和幀數。較長的序列需要更多的 VRAM 和時間,因此請先從較短的開始,然後在喜歡運動後再擴展。
自定義採樣
採樣器堆棧 (ModelSamplingSD3 (#130)、CFGGuider (#129)、BasicScheduler (#126)、KSamplerSelect (#128)、RandomNoise (#127)、SamplerCustomAdvanced (#125)) 控制指導強度、步驟、採樣器類型和種子。提高步驟以獲得更多細節和穩定性,並使用固定種子在提示上進行迭代時重現結果。
預覽和保存
潛在序列通過 VAEDecode (#8) 解碼,以 24 fps 使用 CreateVideo (#101) 製作視頻,並由 SaveVideo (#102) 編寫。這為您提供了一個快速的 720p 預覽,準備好進行審查。
1080p 完成(可選)
切換“視頻升級 1080P”組以啟用完成鏈。潛在上采樣器擴展到 1920×1080,然後蒸餾超分辨率 UNet 在兩個階段中精細化細節。VAEDecodeTiled 和第二對 CreateVideo/SaveVideo 導出 1080p 結果。
步驟 1 — 加載模型
加載器獲取 Hunyuan Video 1.5 720p 文本到視頻 UNet、3D VAE 和雙文本編碼器。此路徑不需要起始圖像。
步驟 3 — 提示
在正編碼器 CLIP Text Encode (Positive Prompt) (#149) 中輸入您的描述,並可選地在 CLIP Text Encode (Negative Prompt) (#155) 中添加負提示。描述場景、主題、運動和相機,保持語言具體。
步驟 4 — 視頻大小和持續時間
EmptyHunyuanVideo15Latent (#183) 使用您選擇的寬度、高度和幀數分配初始潛在變量。使用此功能設置視頻的長度和大小。
自定義採樣
ModelSamplingSD3 (#165)、CFGGuider (#164)、BasicScheduler (#161)、KSamplerSelect (#163)、RandomNoise (#162) 和 SamplerCustomAdvanced (#166) 協作將噪聲轉換為由您的文本指導的連貫視頻。調整步驟和指導以在速度和保真度之間取得平衡,固定種子以使運行可比。
預覽和保存
解碼的幀由 CreateVideo (#168) 組裝,並由 SaveVideo (#167) 保存,以 24 fps 快速進行 720p 審查。
1080p 完成(可選)
啟用“視頻升級 1080P”組以將潛在變量升級到 1080p 並使用蒸餾 SR UNet 進行精細化。兩階段採樣在保持運動的同時改善清晰度。塊狀解碼器和第二個保存階段導出最終的 1080p 視頻。
HunyuanVideo15ImageToVideo (#78)
通過條件化起始圖像和您的提示生成視頻。調整其分辨率和總幀數以匹配您的創意目標。更高的分辨率和更長的剪輯會增加 VRAM 和時間。此節點對圖像到視頻的質量至關重要,因為它在採樣之前融合了 CLIP-Vision 特徵和文本指導。
EmptyHunyuanVideo15Latent (#183)
初始化文本到視頻的潛在網格,設置寬度、高度和幀數。使用它提前定義序列長度,以便調度器和採樣器可以計劃穩定的去噪軌跡。保持長寬比與預期輸出一致,以避免後期的額外填充。
CFGGuider (#129)
設置無分類器引導強度,在提示遵循性和自然性之間取得平衡。增加指導以更嚴格地遵循提示;降低它以減少過飽和和閃爍。在基礎生成期間使用適中的值,並在超分辨率精細化時降低指導。
BasicScheduler (#126)
控制去噪步驟的數量和計劃。更多的步驟通常意味著更好的細節和穩定性,但渲染時間更長。將步驟數與採樣器選擇配對以獲得最佳效果;此工作流程默認為快速、通用的採樣器。
SamplerCustomAdvanced (#125)
使用您選擇的採樣器和指導執行去噪循環。在 1080p 完成鏈中,它分兩個階段工作,由 SplitSigmas 分開,首先在較高的噪聲下建立結構,然後在低噪聲下精細化細節。調整步驟和指導時保持種子固定,這樣您可以可靠地比較輸出。
HunyuanVideo15LatentUpscaleWithModel (#109)
使用重新包裝的權重中的專用上采樣器將潛在序列重新調整為 1920×1080。在潛在空間中上采樣比像素空間重新調整大小更快且更省內存,並且為蒸餾的 SR 模型添加細節做好準備。更大的目標需要更多的 VRAM;保持 16:9 的最佳吞吐量。
HunyuanVideo15SuperResolution (#113)
使用 Hunyuan Video 1.5 包中的 1080p SR 蒸餾 UNet 精細化升級的潛在變量,可選地採用起始圖像和 CLIP-Vision 提示以保持一致性。這增加了清晰的紋理和線條工作,同時保持運動。SR 權重可在 Comfy-Org/HunyuanVideo_1.5_repackaged 中獲得。
EasyCache (#116)
緩存中間模型狀態以加速預覽迭代。當您想要更快的週轉時啟用它,並在最後一次通過時禁用以獲得最大質量。當使用相同的分辨率和持續時間對提示進行迭代時,它特別有用。
此工作流程實施並基於以下作品和資源。我們對 Comfy.org 的 Hunyuan Video 1.5 工作流程教程的貢獻和維護表示誠摯的感謝。有關權威信息,請參閱下面鏈接的原始文檔和庫。
注意:引用的模型、數據集和代碼的使用受其作者和維護者提供的相應許可和條款的約束。
RunComfy 是首選的 ComfyUI 平台,提供 ComfyUI 在線 環境和服務,以及 ComfyUI 工作流程 具有驚豔的視覺效果。 RunComfy還提供 AI Playground, 幫助藝術家利用最新的AI工具創作出令人驚艷的藝術作品。