Hunyuan Video 1.5 在 ComfyUI 中的高效文本到視頻工作流程

ComfyUI Hunyuan Video 1.5 Workflow

Hunyuan Video 1.5 in ComfyUI | Efficient Text-to-Video Workflow

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

ComfyUI Hunyuan Video 1.5 Examples

Hunyuan Video 1.5 ComfyUI 工作流程：快速文本到視頻和圖像到視頻，支持 1080p 超分辨率#

此工作流程將 Hunyuan Video 1.5 包裝在 ComfyUI 中，以在消費級 GPU 上提供快速、連貫的視頻生成。它支持文本到視頻和圖像到視頻，然後可選地使用專用的潛在上采樣器和蒸餾超分辨率模型升級到 1080p。在底層，Hunyuan Video 1.5 將擴散變壓器與 3D 因果 VAE 及選擇性滑動塊注意策略結合，以平衡質量、運動保真度和速度。

創作者、產品團隊和研究人員可以使用此 ComfyUI Hunyuan Video 1.5 工作流程從提示或單個靜止圖像快速迭代，預覽 720p，並在需要時完成清晰的 1080p 輸出。

Comfyui Hunyuan Video 1.5 工作流程中的關鍵模型#

HunyuanVideo 1.5 720p 圖像到視頻 UNet。從起始圖像生成運動和時間連貫性。權重在 Hugging Face 的 Comfy-Org 重新包裝中提供 Comfy-Org/HunyuanVideo_1.5_repackaged。
HunyuanVideo 1.5 720p 文本到視頻 UNet。使用相同的核心架構直接從文本提示生成視頻，調整為提示優先工作流程。請參閱上面的重新包裝庫。
HunyuanVideo 1.5 1080p 超分辨率 UNet（蒸餾）。在保留運動和場景結構的同時，將 720p 潛在變量精細化為更高的細節。在 Hugging Face 的同一重新包裝中包含。
HunyuanVideo 1.5 3D VAE。編碼和解碼視頻潛在變量以實現高效生成和塊狀解碼。
HunyuanVideo 1.5 潛在上采樣器 1080p。在 SR 精細化之前將潛在序列重新調整為 1920×1080，以提高速度和內存效率。
Qwen 2.5 VL 7B 文本編碼器和 ByT5 Small 文本編碼器。為多樣化的提示提供穩健的指令跟隨和分詞，為此工作流程在上面的 Hugging Face 包中重新包裝。ByT5 的原始模型卡：google/byt5-small。
SigCLIP Vision (ViT-L/14, 384)。從起始圖像中提取高質量的視覺特徵以指導圖像到視頻的調節：Comfy-Org/sigclip_vision_384。

如何使用 Comfyui Hunyuan Video 1.5 工作流程#

此圖暴露了兩條獨立的路徑，共享相同的導出和可選的 1080p 完成階段。選擇圖像到視頻或文本到視頻，然後可選地啟用 1080p 組來完成。

圖像到視頻#

步驟 1 — 加載模型加載器引入 Hunyuan Video 1.5 圖像到視頻 UNet、3D VAE、雙文本編碼器和 SigCLIP 視覺。這使工作流程準備接受單個起始圖像和提示。用戶無需執行任何操作，只需確認模型可用即可。

步驟 2 — 上傳起始圖像在 LoadImage (#80) 中提供一個乾淨、曝光良好的圖像。圖將此圖像編碼為 CLIPVisionEncode (#79)，以便 Hunyuan Video 1.5 可以將運動和風格錨定到您的參考中。選擇大致匹配目標長寬比的圖像，以減少裁剪或填充。

步驟 3 — 提示在 CLIP Text Encode (Positive Prompt) (#44) 中撰寫您的描述。使用負提示 CLIP Text Encode (Negative Prompt) (#93) 避免不需要的工件或風格。保持提示簡潔，但具體說明主題、運動和相機行為。

步驟 4 — 視頻大小和持續時間 HunyuanVideo15ImageToVideo (#78) 設置要合成的空間分辨率和幀數。較長的序列需要更多的 VRAM 和時間，因此請先從較短的開始，然後在喜歡運動後再擴展。

自定義採樣採樣器堆棧 (ModelSamplingSD3 (#130)、CFGGuider (#129)、BasicScheduler (#126)、KSamplerSelect (#128)、RandomNoise (#127)、SamplerCustomAdvanced (#125)) 控制指導強度、步驟、採樣器類型和種子。提高步驟以獲得更多細節和穩定性，並使用固定種子在提示上進行迭代時重現結果。

預覽和保存潛在序列通過 VAEDecode (#8) 解碼，以 24 fps 使用 CreateVideo (#101) 製作視頻，並由 SaveVideo (#102) 編寫。這為您提供了一個快速的 720p 預覽，準備好進行審查。

1080p 完成（可選）切換“視頻升級 1080P”組以啟用完成鏈。潛在上采樣器擴展到 1920×1080，然後蒸餾超分辨率 UNet 在兩個階段中精細化細節。VAEDecodeTiled 和第二對 CreateVideo/SaveVideo 導出 1080p 結果。

文本到視頻#

步驟 1 — 加載模型加載器獲取 Hunyuan Video 1.5 720p 文本到視頻 UNet、3D VAE 和雙文本編碼器。此路徑不需要起始圖像。

步驟 3 — 提示在正編碼器 CLIP Text Encode (Positive Prompt) (#149) 中輸入您的描述，並可選地在 CLIP Text Encode (Negative Prompt) (#155) 中添加負提示。描述場景、主題、運動和相機，保持語言具體。

步驟 4 — 視頻大小和持續時間 EmptyHunyuanVideo15Latent (#183) 使用您選擇的寬度、高度和幀數分配初始潛在變量。使用此功能設置視頻的長度和大小。

自定義採樣 ModelSamplingSD3 (#165)、CFGGuider (#164)、BasicScheduler (#161)、KSamplerSelect (#163)、RandomNoise (#162) 和 SamplerCustomAdvanced (#166) 協作將噪聲轉換為由您的文本指導的連貫視頻。調整步驟和指導以在速度和保真度之間取得平衡，固定種子以使運行可比。

預覽和保存解碼的幀由 CreateVideo (#168) 組裝，並由 SaveVideo (#167) 保存，以 24 fps 快速進行 720p 審查。

1080p 完成（可選）啟用“視頻升級 1080P”組以將潛在變量升級到 1080p 並使用蒸餾 SR UNet 進行精細化。兩階段採樣在保持運動的同時改善清晰度。塊狀解碼器和第二個保存階段導出最終的 1080p 視頻。

Comfyui Hunyuan Video 1.5 工作流程中的關鍵節點#

HunyuanVideo15ImageToVideo (#78) 通過條件化起始圖像和您的提示生成視頻。調整其分辨率和總幀數以匹配您的創意目標。更高的分辨率和更長的剪輯會增加 VRAM 和時間。此節點對圖像到視頻的質量至關重要，因為它在採樣之前融合了 CLIP-Vision 特徵和文本指導。

EmptyHunyuanVideo15Latent (#183) 初始化文本到視頻的潛在網格，設置寬度、高度和幀數。使用它提前定義序列長度，以便調度器和採樣器可以計劃穩定的去噪軌跡。保持長寬比與預期輸出一致，以避免後期的額外填充。

CFGGuider (#129) 設置無分類器引導強度，在提示遵循性和自然性之間取得平衡。增加指導以更嚴格地遵循提示；降低它以減少過飽和和閃爍。在基礎生成期間使用適中的值，並在超分辨率精細化時降低指導。

BasicScheduler (#126) 控制去噪步驟的數量和計劃。更多的步驟通常意味著更好的細節和穩定性，但渲染時間更長。將步驟數與採樣器選擇配對以獲得最佳效果；此工作流程默認為快速、通用的採樣器。

SamplerCustomAdvanced (#125) 使用您選擇的採樣器和指導執行去噪循環。在 1080p 完成鏈中，它分兩個階段工作，由 SplitSigmas 分開，首先在較高的噪聲下建立結構，然後在低噪聲下精細化細節。調整步驟和指導時保持種子固定，這樣您可以可靠地比較輸出。

HunyuanVideo15LatentUpscaleWithModel (#109) 使用重新包裝的權重中的專用上采樣器將潛在序列重新調整為 1920×1080。在潛在空間中上采樣比像素空間重新調整大小更快且更省內存，並且為蒸餾的 SR 模型添加細節做好準備。更大的目標需要更多的 VRAM；保持 16:9 的最佳吞吐量。

HunyuanVideo15SuperResolution (#113) 使用 Hunyuan Video 1.5 包中的 1080p SR 蒸餾 UNet 精細化升級的潛在變量，可選地採用起始圖像和 CLIP-Vision 提示以保持一致性。這增加了清晰的紋理和線條工作，同時保持運動。SR 權重可在 Comfy-Org/HunyuanVideo_1.5_repackaged 中獲得。

EasyCache (#116) 緩存中間模型狀態以加速預覽迭代。當您想要更快的週轉時啟用它，並在最後一次通過時禁用以獲得最大質量。當使用相同的分辨率和持續時間對提示進行迭代時，它特別有用。

可選附加項#

保持提示具體。描述主題、運動動詞和相機移動。使用簡短的負提示抑制您反復看到的工件。
為圖像到視頻選擇乾淨、高對比度的起始圖像。將長寬比匹配到目標分辨率以最小化填充。
為了速度，請在較短的持續時間和 720p 下迭代；僅在最終運行時打開 1080p 組。
如果 VRAM 緊張，請切換塊狀 VAE 解碼，並考慮以模型加載器公開的較低精度設置加載權重。
固定種子，同時調整步驟、指導和措辭，以便在運行中測量變化。

致謝#

此工作流程實施並基於以下作品和資源。我們對 Comfy.org 的 Hunyuan Video 1.5 工作流程教程的貢獻和維護表示誠摯的感謝。有關權威信息，請參閱下面鏈接的原始文檔和庫。

資源#

Hunyuan Video 1.5 來源
- 文檔 / 發布說明：Hunyuan Video 1.5 Source

注意：引用的模型、數據集和代碼的使用受其作者和維護者提供的相應許可和條款的約束。

Want More ComfyUI Workflows?

AnimateLCM | 加速文字轉影片

使用 ComfyUI AnimateLCM 工作流程加速您的文字轉影片動畫。

SUPIR | 照片真實感影像/視頻放大器

SUPIR 啟用照片真實感影像修復，兼容 SDXL 模型，並支持文本提示增強。

CCSR | 一致性影像/視頻放大器

CCSR 模型透過更專注於內容一致性來增強影像和視頻的放大效果。

Face Detailer | 修復臉部

首先使用 Face Detailer 進行面部修復，然後使用 4x UltraSharp Model 進行優質放大。

Woosh 音效生成 | Text2Audio + VideoSync

將提示和視頻轉換為尖銳的同步音效。

LTX 2.3 Inpaint | 精確影片編輯 LoRA

使用超精確控制和完美連續性快速編輯影片區域。

Z-Depth Maps | 類似 Houdini 的動畫

使用 Z-Depth Maps 創建令人驚嘆的類似 Houdini 的動畫，只需 2D 圖像。

Consistent Character Creator 3.0 | 簡易一致性，任何角度

讓角色在每一個角度都保持不變，強大而完美。

關注我們

支持

資源

法律

RunComfy

RunComfy 是首選的 ComfyUI 平台，提供 ComfyUI 在線環境和服務，以及 ComfyUI 工作流程具有驚豔的視覺效果。 RunComfy還提供 AI Models, 幫助藝術家利用最新的AI工具創作出令人驚艷的藝術作品。

Hunyuan Video 1.5 | 快速 AI 視頻生成器