SVD (穩定影片擴散) + SD | 文字到影片
在此 ComfyUI 工作流程中,我們整合了穩定擴散的文字到圖像技術與穩定影片擴散的圖像到影片過程。這允許您輸入文字生成圖像,然後無縫轉換成影片。ComfyUI SVD 工作流程
ComfyUI SVD 範例
ComfyUI SVD 說明
1. ComfyUI 穩定影片擴散 (SVD) 工作流程
ComfyUI 工作流程無縫整合了文字到圖像 (穩定擴散) 和圖像到影片 (穩定影片擴散) 技術,以高效進行文字到影片的轉換。此工作流程允許您從文字描述直接生成影片,從基礎圖像開始,逐漸演變為動態影片序列。此工作流程促進了文字到影片動畫或影片的實現。
2. 穩定影片擴散 (SVD) 概述
2.1. 穩定影片擴散 (SVD) 介紹
穩定影片擴散 (SVD) 是一種先進技術,旨在將靜態圖像轉換為動態影片內容。利用穩定擴散圖像模型作為基礎,SVD 為靜態圖像引入運動,促進了短影片片段的創建。這種潛在擴散模型的進步,最初是為圖像合成而設計的,現在加入了時間維度來賦予靜態圖像動態效果,通常生成時長在 2 到 5 秒之間的影片。
穩定影片擴散有兩個版本:標準的 SVD,能夠在 576×1024 像素的解析度下生成 14 幀影片;和增強版的 SVD-XT,最多可生成 25 幀。這兩個版本都支持從 3 到 30 幀每秒的可調幀率,以滿足不同數位內容創作的需求。
SVD 模型的訓練涉及三個階段:從圖像模型開始,過渡到以豐富的影片數據集預訓練的影片模型,並以高質量影片片段進行精煉。這一嚴謹的過程強調了數據集質量在優化模型影片生成能力中的重要性。
穩定影片擴散模型的核心是穩定擴散 2.1 圖像模型,作為基礎圖像支柱。將時間卷積和注意力層整合到 U-Net 噪聲估計器中,將其演變為強大的影片模型,將潛在張量解釋為影片序列。此模型採用反擴散技術同時去噪所有幀,類似於 VideoLDM 模型。
配備 15 億參數並在龐大的影片數據集上訓練,該模型進一步使用高質量影片數據集進行微調以達到最佳性能。兩套 SVD 模型權重公開提供,專為生成 14 幀和 25 幀的 576×1024 解析度影片而設計。
2.2. 穩定影片擴散 (SVD) 的關鍵特性
在 ComfyUI 工作流程中使用穩定影片擴散時,您可以調整視頻輸出自定義的關鍵參數,包括運動 bucket id,控制影片的運動強度;frames per second (fps),決定幀率;以及 augmentation level,調整初始圖像的噪聲水平以達到不同的轉化程度。
2.2.1. 運動 Bucket ID:此功能使用戶能夠控制影片的運動強度。通過調整此參數,您可以決定影片中觀察到的運動量,從微妙的動作到更顯著的動作,取決於所需的視覺效果。
2.2.2. 每秒幀數 (fps):此參數對於確定影片的播放速度至關重要。調整每秒幀數允許您製作能夠捕捉場景快速動態或呈現慢動作效果的影片,從而增強影片內容的敘事性。這種靈活性對於創作各種類型的影片特別有益,從快節奏的廣告到更具思考性、敘事驅動的片段。
2.2.3. 增強級別參數:這調整了初始圖像的噪聲水平,使得不同程度的轉化成為可能。通過操控此參數,您可以控制在影片創作過程中原始圖像被改變的程度。調整增強級別允許保持更接近原始圖像的忠實度或探索更抽象和藝術的詮釋,從而擴展創意可能性。