Capybara ComfyUI 工作流程 v0.1: 圖像和視頻的一體化模板
Capybara ComfyUI 工作流程是一個 4 合 1 的模板套件,涵蓋文本到圖像、基於指令的圖像編輯、圖像到視頻以及基於提示的視頻編輯,均在 ComfyUI 中實現。它基於 Capybara v0.1 擴散模型和單一的統一管道構建,因此您可以在圖像和視頻任務之間移動,保持一致的行為和可預測的結果。
此 Capybara ComfyUI 工作流程非常適合需要基於提示的編輯、快速迭代和可靠的長寬比預設的創作者。每個路徑重用相同的模型堆棧和提示策略,這使得顏色科學、構圖和風格在各項任務中保持一致。
Comfyui Capybara ComfyUI 工作流程中的關鍵模型
- Capybara v0.1(擴散 UNet)。統一圖像和視頻行為的核心生成器;它引導所有四個模板中內容的組成和風格化。詳情請參閱項目倉庫和模型卡:xgen-universe/Capybara (GitHub) 和 xgen-universe/Capybara (Hugging Face)。
- Qwen2.5-VL-7B 文本編碼器。為提示和編輯指令提供強大的、指令友好的語言理解能力,改善您所寫內容與所生成內容之間的對齊。參見 Qwen/Qwen2.5-VL-7B。
- ByT5-small 文本編碼器。一種字節級編碼器,有助於在提示中進行穩健的標記化和文本處理,補充主要語言模型。參見 google/byt5-small。
- HunyuanVideo 1.5 VAE。處理圖像和視頻分支之間的潛在解碼/編碼,使兩者共享相同的重建特性。參見 Tencent/HunyuanVideo (GitHub) 和重新打包的資產 Comfy-Org/HunyuanVideo_1.5_repackaged。
- SigCLIP Vision (patch14, 384)。提供圖像特徵,幫助在編輯過程中保持結構和身份,以及將圖像轉換為視頻時。參見 Comfy-Org/sigclip_vision_384。
如何使用 Comfyui Capybara ComfyUI 工作流程
工作流程分為四個組,您可以獨立運行。每個組共享相同的 Capybara 模型堆棧和提示策略,因此風格和保真度在圖像和視頻之間延續。使用內置的尺寸和比例面板從合理的分辨率預設中選擇,然後生成。
- 圖像編輯
- 使用
LoadImage(#80) 加載源靜止圖像,然後打開Image Edit (Capybara v0.1)(#103)。撰寫指令風格的提示,如“保留主題和服裝;將室內場景替換為陽光照射的草地。” 使用負提示來抑制如“水印、文本、低質量”之類的人工痕跡。 - 編輯器使用 CLIP 視覺來錨定主題和佈局,而 Capybara 將您的指令應用於場景的其餘部分。這非常適合快速背景替換或全局外觀調整,而不會丟失身份。
- 輸出由
SaveImage(#102) 保存。如果您需要特定的比例,請將節點上暴露的寬度/高度控制設置為其中一個包含的預設。
- 使用
- 文本到圖像
- 打開
Text to Image (Capybara v0.1)子圖 (#143) 並撰寫描述性提示。此分支使用與其他路徑相同的語言編碼器和調度程序生成乾淨的靜止圖像,因此它符合您的編輯和視頻的外觀。 - 為質量控制添加一個簡短的負提示。如果您想要正方形、16:9、9:16 或 4:3 的輸出,請在運行前選擇尺寸面板中的匹配預設。
- 圖像會被保存以供查看,並且可以作為圖像到視頻或編輯路徑的起點重用,以保持視覺連續性。
- 打開
- 圖像到視頻
- 使用
LoadImage(#131) 加載參考靜止圖像,然後運行生成器子圖 (#130)。撰寫運動感知提示(例如,“慢移向前,暖色調電影級”)來為輸入動畫,同時尊重其構圖和身份。 - 在底層,
HunyuanVideo15ImageToVideo(#115) 將靜止圖像和您的提示轉換為一個短的潛在幀序列,Capybara 進行細化。使用包含的長度控制來選擇剪輯的長度。 - 幀以默認的電影幀率通過
VHS_VideoCombine(#144) 編碼為 MP4。當您想要快速從藝術指導的關鍵幀中獲得社交準備的運動時,使用此方法。
- 使用
- 視頻編輯
- 使用
VHS_LoadVideo(#146) 導入剪輯,然後打開編輯子圖 (#136)。撰寫指令,如“將海洋背景更改為草地;保留馬匹和運動。” - 編輯路徑將 CLIP 視覺與您的提示融合,因此主題保持穩定,而場景、照明或天氣隨時間適應。負提示有助於抑制閃爍或不需要的覆蓋。
- 結果由
VHS_VideoCombine(#145) 編譯為 MP4。選擇與您的源匹配的分辨率預設,以避免拉伸。
- 使用
Comfyui Capybara ComfyUI 工作流程中的關鍵節點
Image Edit (Capybara v0.1)(#103)- 一個緊湊的、基於指令的編輯器,使用視覺特徵保持結構,同時在全球範圍內應用您的文本編輯。調整
text提示來描述應更改的內容和必須保留的內容,然後使用steps確保質量/平滑度,使用cfg平衡提示強度與源圖像。增加steps以獲得更多細節;中等cfg值通常可以保持編輯的忠實性。
- 一個緊湊的、基於指令的編輯器,使用視覺特徵保持結構,同時在全球範圍內應用您的文本編輯。調整
HunyuanVideo15ImageToVideo(#115)- 從靜止圖像到運動的橋樑,也是基於提示的視頻編輯的引擎。它基於您的提示創建了一個短的潛在序列,並在提供時創建一個起始圖像。調整
length以設置持續時間,調整width/height以匹配預設;較大的尺寸增加細節和渲染時間。此節點是圖像到視頻和視頻編輯組的主幹,利用 HunyuanVideo 設計實現穩定的時間生成,而 Capybara 負責去噪。
- 從靜止圖像到運動的橋樑,也是基於提示的視頻編輯的引擎。它基於您的提示創建了一個短的潛在序列,並在提供時創建一個起始圖像。調整
VHS_VideoCombine(#145)- 將生成的幀轉換為 MP4 的終結者。使用
frame_rate控制運動節奏,使用crf在質量和文件大小之間進行權衡。較低的crf產生較高的質量,但文件較大;保持它在項目中的一致性,以便您的 Capybara ComfyUI 工作流程輸出具有統一的外觀。
- 將生成的幀轉換為 MP4 的終結者。使用
Capybara ComfyUI 工作流程的可選附加功能
- 使用尺寸和長寬比預設來鎖定 16:9、9:16、1:1 或 4:3 在 480p、720p、1024 或 1080p。保持在預設有助於取樣器和 VAE 保持穩定,並減少邊緣伪影。
- 為了提高質量,在採樣器面板中增加擴散
steps。渲染時間會更長,但細紋理和乾淨的邊緣明顯改善。 - 通過撰寫明確說明要保留的內容的提示來保持編輯中的主題穩定(例如,“保持角色和服裝不變”),並將場景更改推入句子的其餘部分。
- 負提示是您的清理隊。常見條目如“模糊、水印、文本”有助於去除圖像和視頻中的覆蓋和壓縮類人工痕跡。
- 對於視頻,選擇與您預期的幀率匹配的剪輯長度。默認設置針對短社交剪輯進行調整;較長的序列受益於稍高的
steps以獲得時間一致性。
此 Capybara ComfyUI 工作流程旨在最大限度地減少設置摩擦:一個模型堆棧,四個創意任務,以及一致的控制。從文本到圖像開始進行外觀開發,使用圖像編輯進行完善,使用圖像到視頻為關鍵幀添加動畫,然後使用基於提示的視頻編輯來匹配最終簡報。
致謝
此工作流程實施並建立在以下作品和資源之上。我們衷心感謝 XGen Universe 提供 Capybara 模型和項目,Comfy-Org 提供 Capybara v0.1 擴散模型資產、HunyuanVideo 1.5 VAE 和 Qwen2.5-VL-7B 文本編碼器包裝,以及 Comfy.org 提供的 Capybara 工作流程模板(文本到圖像、圖像編輯、圖像到視頻和視頻編輯)的貢獻和維護。欲了解權威詳情,請參閱下方鏈接的原始文檔和倉庫。
資源
- XGen Universe/Capybara 項目
- GitHub: xgen-universe/Capybara
- Hugging Face: xgen-universe/Capybara
- Comfy.org/Capybara 模板 - 文本到圖像
- 文檔/發佈說明: Capybara Template - Text to Image
- Comfy.org/Capybara 模板 - 圖像編輯
- 文檔/發佈說明: Capybara Template - Image Edit
- Comfy.org/Capybara 模板 - 圖像到視頻
- 文檔/發佈說明: Capybara Template - Image to Video
- Comfy.org/Capybara 模板 - 視頻編輯
- 文檔/發佈說明: Capybara Template - Video Edit
注意:使用參考的模型、數據集和代碼需遵循其作者和維護者提供的各自許可和條款。


