logo
RunComfy
ComfyUIPlaygroundPricing
discord logo
ComfyUI>工作流程>Character AI Ovi | 說話化身生成器

Character AI Ovi | 說話化身生成器

Workflow Name: RunComfy/Character-AI-Ovi
Workflow ID: 0000...1298
透過這個智能視聽工作流程,您可以將任何肖像轉變為引人入勝的說話化身。專為數位創作者和故事講述者設計,它只需一張圖片即可製作出具有實時語音和完美吻合唇形的生動動畫。系統將照片轉影片和語音合成融為一體,為您提供電影級的真實感。其整合使您能夠輕鬆地為內容、行銷或創意專案快速創建角色驅動的剪輯,無需技術設置。您可以在每個生成的場景中實現細緻的動作和引人入勝的個性。

Character AI Ovi:在 ComfyUI 中進行同步語音的圖片轉影片

Character AI Ovi 是一個視聽生成工作流程,將單一圖像轉變為具有協調聲音的說話、移動角色。基於 Wan 模型家族並通過 WanVideoWrapper 集成,它在一次處理中生成影片和音訊,提供富有表現力的動畫、可理解的唇形同步和上下文感知的氛圍。如果您創作短篇故事、虛擬主持人或電影社交剪輯,Character AI Ovi 讓您可以在幾分鐘內從靜態藝術轉變為完整的表演。

此 ComfyUI 工作流程接受一張圖片加上一個包含輕量標記的文本提示,用於語音和音效設計。它將畫面和波形一起組合,使嘴巴、節奏和場景音效感覺自然對齊。Character AI Ovi 專為希望獲得精緻結果的創作者設計,無需拼接單獨的 TTS 和影片工具。

ComfyUI Character AI Ovi 工作流程中的主要模型

  • Ovi:音視頻生成的雙主幹跨模態融合。核心模型能夠從文本或文本+圖像提示中共同產生影片和音訊。character-ai/Ovi
  • Wan 2.2 影片主幹和 VAE。工作流程使用 Wan 的高壓縮影片 VAE,以高效生成 720p、24 fps 的影片,同時保留細節和時間連貫性。Wan-AI/Wan2.2-TI2V-5B-Diffusers • Wan-Video/Wan2.2
  • Google UMT5-XXL 文本編碼器。將提示,包括語音標籤,編碼成豐富的多語言嵌入,以驅動兩個分支。google/umt5-xxl
  • MMAudio VAE 與 BigVGAN 語音編碼器。將模型的音頻潛在變量解碼為高質量的語音和效果,具有自然的音色。hkchengrex/MMAudio • nvidia/bigvgan_v2_44khz_128band_512x
  • Kijai 提供的 ComfyUI-ready Ovi 權重。為影片分支、音頻分支和 VAE 提供精選的檢查點,具有 bf16 和 fp8 的縮放變體。Kijai/WanVideo_comfy/Ovi • Kijai/WanVideo_comfy_fp8_scaled/TI2V/Ovi
  • ComfyUI 的 WanVideoWrapper 節點。包裝器將 Wan 和 Ovi 功能作為可組合的節點公開。kijai/ComfyUI-WanVideoWrapper

如何使用 ComfyUI Character AI Ovi 工作流程

此工作流程遵循一個簡單的路徑:編碼您的提示和圖像,載入 Ovi 檢查點,採樣聯合音頻+影片潛變量,然後解碼並合併為 MP4。下面的子部分對應於可見的節點群組,因此您知道在哪裡進行互動以及哪些變更會影響結果。

語音和音效的提示撰寫

為場景和口述台詞撰寫一個正面提示。使用 Ovi 標籤精確如示:將要說的詞用 <S> 和 <E> 包裹,並可選地用 <AUDCAP> 和 <ENDAUDCAP> 描述非語音音效。相同的正面提示條件會影響影片和音頻分支,使唇形動作和時機一致。您可以為影片和音頻使用不同的負面提示,以獨立抑制瑕疵。Character AI Ovi 對簡潔的舞台指示加上一句清晰的對話反應良好。

圖像攝取和調節

載入單一肖像或角色圖像,然後工作流程會調整大小並編碼為潛變量。這確立了身份、姿勢和採樣器的初始框架。調整大小階段的寬度和高度設置影片的長寬比;選擇方形作為化身或垂直作為短片。編碼的潛變量和圖像衍生的嵌入指導採樣器,使運動感覺錨定於原始面孔。

模型加載和性能助手

Character AI Ovi 加載三個必需品:Ovi 影片模型、用於畫面的 Wan 2.2 VAE 和 MMAudio VAE 加 BigVGAN 用於音頻。包含 Torch 編譯和輕量級緩存以加快預熱啟動。還有一個塊交換助手,當需要時通過卸載變壓器塊來降低 VRAM 使用。如果您受 VRAM 限制,請在塊交換節點中增加塊卸載並保持緩存啟用以進行重複運行。

帶指導的聯合採樣

採樣器運行 Ovi 的雙主幹,使音軌和畫面共同演變。跳層指導助手改善穩定性和細節而不犧牲運動。工作流程還通過 Ovi 特定的 CFG 混合器路由您的原始文本嵌入,使您可以在嚴格的提示遵循和更自由的動畫之間調整平衡。Character AI Ovi 在口述台詞簡短、字面且僅用 <S> 和 <E> 標籤包裹時,往往能產生最佳的唇形動作。

解碼、預覽和導出

採樣後,影片潛變量通過 Wan VAE 解碼,而音頻潛變量通過 MMAudio 和 BigVGAN 解碼。影片合併器將畫面和音頻合併為 24 fps 的 MP4,準備分享。您也可以直接預覽音頻以驗證語音可理解性再保存。Character AI Ovi 的預設路徑目標為 5 秒;謹慎延長以保持唇形和節奏同步。

ComfyUI Character AI Ovi 工作流程中的關鍵節點

  • WanVideoTextEncodeCached (#85)
    將主要正面提示和影片負面提示編碼為兩個分支使用的嵌入。將對話放在 <S>…<E> 內,音效設計放在 <AUDCAP>…<ENDAUDCAP> 內。為了最佳對齊,避免在一個語音標籤中多句,並保持台詞簡潔。

  • WanVideoTextEncodeCached (#96)
    為音頻提供專用的負面文本嵌入。使用它來壓制機器人音調或重混響等瑕疵而不影響視覺效果。從短描述開始,只有在仍然聽到問題時才擴展。

  • WanVideoOviCFG (#94)
    將原始文本嵌入與音頻特定的負面通過 Ovi 感知的無分類指導混合。當語音內容偏離書面台詞或唇形動作感覺不對時,提升它。若動作變得僵硬或過度約束,稍微降低。

  • WanVideoSampler (#80)
    Character AI Ovi 的核心。它消耗圖像嵌入、聯合文本嵌入和可選指導來採樣包含影片和音頻的單一潛變量。更多步驟增加保真度但也增加運行時間。如果您看到記憶體壓力或停頓,請將更高的塊交換與緩存一起使用,並考慮禁用 torch 編譯以快速故障排除。

  • WanVideoEmptyMMAudioLatents (#125)
    初始化音頻潛變量時間線。預設長度調整為 121 幀、24 fps 的剪輯。調整此以更改持續時間是實驗性的;只有在瞭解它必須追踪幀數的情況下才更改。

  • VHS_VideoCombine (#88)
    將解碼的畫面和音頻合併為 MP4。設置幀率以匹配您的採樣目標,並切換修剪至音頻如果您希望最終剪輯遵循生成的波形。使用 CRF 控制平衡文件大小和質量。

可選附加功能

  • 為 Ovi 影片和 Wan 2.2 VAE 使用 bf16。如果遇到黑幀,為模型加載器和文本編碼器切換基準精度至 bf16。
  • 保持台詞簡短。Character AI Ovi 在短句、單句對話中以 <S> 和 <E> 包裹時唇形同步最可靠。
  • 分開負面。將視覺瑕疵放在影片負面提示中,將音調瑕疵放在音頻負面提示中,以避免不必要的權衡。
  • 先預覽。使用音頻預覽確認清晰度和節奏再導出最終 MP4。
  • 獲取使用的精確權重。工作流程期望 Ovi 影片和音頻檢查點加上 Kijai 的模型鏡像的 Wan 2.2 VAE。WanVideo_comfy/Ovi • WanVideo_comfy_fp8_scaled/TI2V/Ovi

有了這些組件,Character AI Ovi 成為一個緊湊、創作者友好的管道,用於表現力豐富的說話化身和敘事場景,其聲音效果和畫面一樣出色。

致謝

此工作流程實現並建立在以下作品和資源之上。我們感謝 kijai 和 Character AI 的 Ovi 貢獻和維護。欲了解權威詳情,請參考下文鏈接的原始文檔和倉庫。

資源

  • Character AI Ovi 原始碼
    • 工作流程:wanvideo_2_2_5B_ovi_testing @kijai
    • Github: character-ai/Ovi

注意:所引用的模型、數據集和代碼的使用受其作者和維護者提供的相應許可和條款的約束。

Want More ComfyUI Workflows?

Hallo2 | 唇同步肖像動畫

音頻驅動的4K肖像動畫唇同步。

EchoMimic | 音頻驅動的肖像動畫

生成與提供音頻同步的真實說話頭像和身體動作。

LivePortrait | 動態肖像 | Img2Vid

使用單一圖像和參考視頻,為肖像添加面部表情和動作。

Qwen-Image | HD 多文字海報生成器

Qwen-Image | HD 多文字海報生成器

影像文字生成的新紀元!

MultiTalk | Photo to Talking Video

毫秒級唇同步 + Wan2.1 = 15秒超詳細對話視頻!

AnimateDiff + IPAdapter V1 | 圖像到視頻

使用 IPAdapter,您可以有效地控制使用參考圖像生成動畫的過程。

Flux & 10 In-Context LoRA 模型

Flux & 10 In-Context LoRA 模型

探索 Flux 和 10 款多功能 In-Context LoRA 模型,用於圖像生成。

APISR | 動漫圖像/影片放大器

APISR 模型增強和恢復動漫圖像和影片,使您的視覺效果更生動清晰。

關注我們
  • 領英
  • Facebook
  • Instagram
  • Twitter
支持
  • Discord
  • 電子郵件
  • 系統狀態
  • 附屬
資源
  • 免費 ComfyUI 在線版
  • ComfyUI 指南
  • RunComfy API
  • ComfyUI 教程
  • ComfyUI 節點
  • 了解更多
法律
  • 服務條款
  • 隱私政策
  • Cookie 政策
RunComfy
版權 2025 RunComfy. 保留所有權利。

RunComfy 是首選的 ComfyUI 平台,提供 ComfyUI 在線 環境和服務,以及 ComfyUI 工作流程 具有驚豔的視覺效果。 RunComfy還提供 AI Playground, 幫助藝術家利用最新的AI工具創作出令人驚艷的藝術作品。