Character AI Ovi 是一個視聽生成工作流程,將單一圖像轉變為具有協調聲音的說話、移動角色。基於 Wan 模型家族並通過 WanVideoWrapper 集成,它在一次處理中生成影片和音訊,提供富有表現力的動畫、可理解的唇形同步和上下文感知的氛圍。如果您創作短篇故事、虛擬主持人或電影社交剪輯,Character AI Ovi 讓您可以在幾分鐘內從靜態藝術轉變為完整的表演。
此 ComfyUI 工作流程接受一張圖片加上一個包含輕量標記的文本提示,用於語音和音效設計。它將畫面和波形一起組合,使嘴巴、節奏和場景音效感覺自然對齊。Character AI Ovi 專為希望獲得精緻結果的創作者設計,無需拼接單獨的 TTS 和影片工具。
此工作流程遵循一個簡單的路徑:編碼您的提示和圖像,載入 Ovi 檢查點,採樣聯合音頻+影片潛變量,然後解碼並合併為 MP4。下面的子部分對應於可見的節點群組,因此您知道在哪裡進行互動以及哪些變更會影響結果。
為場景和口述台詞撰寫一個正面提示。使用 Ovi 標籤精確如示:將要說的詞用 <S>
和 <E>
包裹,並可選地用 <AUDCAP>
和 <ENDAUDCAP>
描述非語音音效。相同的正面提示條件會影響影片和音頻分支,使唇形動作和時機一致。您可以為影片和音頻使用不同的負面提示,以獨立抑制瑕疵。Character AI Ovi 對簡潔的舞台指示加上一句清晰的對話反應良好。
載入單一肖像或角色圖像,然後工作流程會調整大小並編碼為潛變量。這確立了身份、姿勢和採樣器的初始框架。調整大小階段的寬度和高度設置影片的長寬比;選擇方形作為化身或垂直作為短片。編碼的潛變量和圖像衍生的嵌入指導採樣器,使運動感覺錨定於原始面孔。
Character AI Ovi 加載三個必需品:Ovi 影片模型、用於畫面的 Wan 2.2 VAE 和 MMAudio VAE 加 BigVGAN 用於音頻。包含 Torch 編譯和輕量級緩存以加快預熱啟動。還有一個塊交換助手,當需要時通過卸載變壓器塊來降低 VRAM 使用。如果您受 VRAM 限制,請在塊交換節點中增加塊卸載並保持緩存啟用以進行重複運行。
採樣器運行 Ovi 的雙主幹,使音軌和畫面共同演變。跳層指導助手改善穩定性和細節而不犧牲運動。工作流程還通過 Ovi 特定的 CFG 混合器路由您的原始文本嵌入,使您可以在嚴格的提示遵循和更自由的動畫之間調整平衡。Character AI Ovi 在口述台詞簡短、字面且僅用 <S>
和 <E>
標籤包裹時,往往能產生最佳的唇形動作。
採樣後,影片潛變量通過 Wan VAE 解碼,而音頻潛變量通過 MMAudio 和 BigVGAN 解碼。影片合併器將畫面和音頻合併為 24 fps 的 MP4,準備分享。您也可以直接預覽音頻以驗證語音可理解性再保存。Character AI Ovi 的預設路徑目標為 5 秒;謹慎延長以保持唇形和節奏同步。
WanVideoTextEncodeCached
(#85)
將主要正面提示和影片負面提示編碼為兩個分支使用的嵌入。將對話放在 <S>…<E>
內,音效設計放在 <AUDCAP>…<ENDAUDCAP>
內。為了最佳對齊,避免在一個語音標籤中多句,並保持台詞簡潔。
WanVideoTextEncodeCached
(#96)
為音頻提供專用的負面文本嵌入。使用它來壓制機器人音調或重混響等瑕疵而不影響視覺效果。從短描述開始,只有在仍然聽到問題時才擴展。
WanVideoOviCFG
(#94)
將原始文本嵌入與音頻特定的負面通過 Ovi 感知的無分類指導混合。當語音內容偏離書面台詞或唇形動作感覺不對時,提升它。若動作變得僵硬或過度約束,稍微降低。
WanVideoSampler
(#80)
Character AI Ovi 的核心。它消耗圖像嵌入、聯合文本嵌入和可選指導來採樣包含影片和音頻的單一潛變量。更多步驟增加保真度但也增加運行時間。如果您看到記憶體壓力或停頓,請將更高的塊交換與緩存一起使用,並考慮禁用 torch 編譯以快速故障排除。
WanVideoEmptyMMAudioLatents
(#125)
初始化音頻潛變量時間線。預設長度調整為 121 幀、24 fps 的剪輯。調整此以更改持續時間是實驗性的;只有在瞭解它必須追踪幀數的情況下才更改。
VHS_VideoCombine
(#88)
將解碼的畫面和音頻合併為 MP4。設置幀率以匹配您的採樣目標,並切換修剪至音頻如果您希望最終剪輯遵循生成的波形。使用 CRF 控制平衡文件大小和質量。
bf16
。<S>
和 <E>
包裹時唇形同步最可靠。有了這些組件,Character AI Ovi 成為一個緊湊、創作者友好的管道,用於表現力豐富的說話化身和敘事場景,其聲音效果和畫面一樣出色。
此工作流程實現並建立在以下作品和資源之上。我們感謝 kijai 和 Character AI 的 Ovi 貢獻和維護。欲了解權威詳情,請參考下文鏈接的原始文檔和倉庫。
注意:所引用的模型、數據集和代碼的使用受其作者和維護者提供的相應許可和條款的約束。
RunComfy 是首選的 ComfyUI 平台,提供 ComfyUI 在線 環境和服務,以及 ComfyUI 工作流程 具有驚豔的視覺效果。 RunComfy還提供 AI Playground, 幫助藝術家利用最新的AI工具創作出令人驚艷的藝術作品。