Character AI Ovi in ComfyUI | Image2Video + Voice Workflow

ComfyUI Character AI Ovi Workflow

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

ComfyUI Character AI Ovi Examples

Character AI Ovi: ComfyUI에서 동기화된 음성을 포함한 이미지 to 비디오#

Character AI Ovi는 단일 이미지를 말하고 움직이는 캐릭터로 변환하는 오디오비주얼 생성 워크플로우입니다. Wan 모델 패밀리에 기반하여 WanVideoWrapper를 통해 통합되었으며, 비디오와 오디오를 한 번에 생성하여 표현력 있는 애니메이션, 이해 가능한 립싱크, 컨텍스트 인식 분위기를 제공합니다. 짧은 이야기, 가상 호스트 또는 영화적 소셜 클립을 만들 때, Character AI Ovi는 정적 아트를 완전한 퍼포먼스로 빠르게 전환할 수 있게 해줍니다.

이 ComfyUI 워크플로우는 하나의 이미지와 경량 마크업을 포함한 텍스트 프롬프트를 받아들여 말하고 소리를 설계합니다. 프레임과 파형을 함께 구성하여 입 모양, 리듬, 장면 오디오가 자연스럽게 정렬된 느낌이 듭니다. Character AI Ovi는 별도의 TTS 및 비디오 도구를 연결하지 않고도 세련된 결과를 원하는 창작자를 위해 설계되었습니다.

Comfyui Character AI Ovi 워크플로우의 주요 모델#

Ovi: Twin Backbone Cross-Modal Fusion for Audio-Video Generation. 텍스트 또는 텍스트+이미지 프롬프트에서 비디오와 오디오를 공동으로 생성하는 핵심 모델. character-ai/Ovi
Wan 2.2 비디오 백본 및 VAE. 워크플로우는 Wan의 고압축 비디오 VAE를 사용하여 720p, 24 fps의 효율적인 생성을 유지하면서 세부 사항과 시간적 일관성을 유지합니다. Wan-AI/Wan2.2-TI2V-5B-Diffusers • Wan-Video/Wan2.2
Google UMT5-XXL 텍스트 인코더. 프롬프트를 포함한 음성 태그를 다국어 임베딩으로 인코딩하여 두 가지 브랜치를 구동합니다. google/umt5-xxl
MMAudio VAE와 BigVGAN 보코더. 모델의 오디오 잠재변수를 자연스러운 음색으로 고품질의 음성과 효과로 디코딩합니다. hkchengrex/MMAudio • nvidia/bigvgan_v2_44khz_128band_512x
ComfyUI에 맞춘 Ovi 가중치 by Kijai. 비디오 브랜치, 오디오 브랜치 및 VAE에 대한 큐레이션된 체크포인트로 bf16 및 fp8 스케일드 변형으로 제공됩니다. Kijai/WanVideo_comfy/Ovi • Kijai/WanVideo_comfy_fp8_scaled/TI2V/Ovi
ComfyUI용 WanVideoWrapper 노드. Wan 및 Ovi 기능을 구성 가능한 노드로 노출하는 래퍼. kijai/ComfyUI-WanVideoWrapper

Comfyui Character AI Ovi 워크플로우 사용 방법#

이 워크플로우는 간단한 경로를 따릅니다: 프롬프트와 이미지를 인코딩하고, Ovi 체크포인트를 로드한 후, 공동 오디오+비디오 잠재변수를 샘플링하고, 디코딩 및 MP4로 믹싱합니다. 아래의 하위 섹션은 어디에서 상호작용하고 어떤 변경이 결과에 영향을 미치는지 알 수 있도록 눈에 보이는 노드 클러스터에 매핑됩니다.

음성 및 소리 프롬프트 작성#

장면과 말할 대사를 위한 긍정적 프롬프트를 작성하세요. Ovi 태그를 정확히 표시된 대로 사용하세요: <S>와 <E>로 말할 단어를 감싸고, 선택적으로 비음성 오디오를 <AUDCAP>와 <ENDAUDCAP>로 설명합니다. 동일한 긍정적 프롬프트가 비디오와 오디오 브랜치 모두에 조건을 주어 입 모양과 타이밍이 일치하게 합니다. 비디오와 오디오에 대해 서로 다른 부정적 프롬프트를 사용하여 아티팩트를 독립적으로 억제할 수 있습니다. Character AI Ovi는 간결한 무대 지시와 단 하나의 명확한 대사에 잘 반응합니다.

이미지 인제스트 및 조건 설정#

단일 초상화 또는 캐릭터 이미지를 로드한 후, 워크플로우는 이를 잠재변수로 리사이즈하고 인코딩합니다. 이는 샘플러를 위한 정체성, 자세 및 초기 프레이밍을 설정합니다. 리사이즈 단계의 폭과 높이가 비디오 비율을 설정합니다; 아바타는 정사각형을, 쇼츠는 세로를 선택하세요. 인코딩된 잠재변수와 이미지에서 유도된 임베딩은 샘플러를 안내하여 움직임이 원래 얼굴에 고정된 느낌이 들게 합니다.

모델 로딩 및 성능 헬퍼#

Character AI Ovi는 세 가지 필수 요소를 로드합니다: Ovi 비디오 모델, 프레임을 위한 Wan 2.2 VAE, 그리고 오디오를 위한 MMAudio VAE와 BigVGAN. 빠른 시작을 위해 Torch 컴파일과 경량 캐시가 포함되어 있습니다. 필요할 때 트랜스포머 블록을 오프로드하여 VRAM 사용량을 줄이기 위한 블록 교체 헬퍼가 연결되어 있습니다. VRAM이 제한된 경우, 블록 교체 노드에서 블록 오프로드를 늘리고 반복 실행을 위해 캐시를 유지하세요.

안내와 함께 공동 샘플링#

샘플러는 Ovi의 트윈 백본을 함께 실행하여 사운드트랙과 프레임이 함께 진화합니다. 스킵 레이어 가이드 헬퍼는 움직임을 희생하지 않고 안정성과 세부 사항을 개선합니다. 워크플로우는 또한 원래의 텍스트 임베딩을 Ovi 전용 CFG 믹서를 통해 라우팅하여 엄격한 프롬프트 준수와 자유로운 애니메이션 사이의 균형을 조정할 수 있습니다. Character AI Ovi는 대사가 짧고 직설적이며 <S>와 <E> 태그로만 감싸졌을 때 최고의 입 모션을 생성하는 경향이 있습니다.

디코딩, 미리보기 및 내보내기#

샘플링 후, 비디오 잠재변수는 Wan VAE를 통해 디코딩되고, 오디오 잠재변수는 MMAudio와 BigVGAN을 통해 디코딩됩니다. 비디오 결합기가 프레임과 오디오를 24 fps MP4로 믹싱하여 공유할 준비를 합니다. 저장하기 전에 음성의 명확성을 확인하기 위해 오디오를 직접 미리 볼 수도 있습니다. Character AI Ovi의 기본 경로는 5초를 목표로 하며, 입술과 리듬을 동기화 상태로 유지하기 위해 신중하게 확장하십시오.

Comfyui Character AI Ovi 워크플로우의 주요 노드#

WanVideoTextEncodeCached (#85)

주요 긍정적 프롬프트와 비디오 부정적 프롬프트를 두 개의 브랜치에서 사용하는 임베딩으로 인코딩합니다. 대사는 <S>…<E> 안에, 소리 디자인은 <AUDCAP>…<ENDAUDCAP> 안에 두세요. 최고의 정렬을 위해 하나의 음성 태그에 여러 문장을 피하고 대사를 간결하게 유지하세요.

WanVideoTextEncodeCached (#96)

오디오에 대한 전용 부정적 텍스트 임베딩을 제공합니다. 시각적 효과에 영향을 주지 않고 로봇 톤이나 심한 리버브와 같은 아티팩트를 억제하는 데 사용하세요. 짧은 설명으로 시작하고 문제가 여전히 들리면 확장하세요.

WanVideoOviCFG (#94)

오디오 전용 부정적 요소와 원래의 텍스트 임베딩을 Ovi 인식 분류자 없는 가이드를 통해 혼합합니다. 음성 내용이 작성된 줄에서 벗어나거나 입 모션이 어색할 때 높입니다. 움직임이 뻣뻣하거나 과도하게 제한되면 약간 낮추세요.

WanVideoSampler (#80)

Character AI Ovi의 중심입니다. 이미지 임베딩, 공동 텍스트 임베딩 및 선택적 가이드를 소비하여 비디오와 오디오를 모두 포함하는 단일 잠재변수를 샘플링합니다. 더 많은 단계는 충실도를 높이지만 실행 시간도 늘어납니다. 메모리 압박이나 정체가 보이면, 블록 교체를 높이고 캐시를 켜두고, 빠른 문제 해결을 위해 torch 컴파일을 비활성화하는 것을 고려하세요.

WanVideoEmptyMMAudioLatents (#125)

오디오 잠재 타임라인을 초기화합니다. 기본 길이는 121 프레임, 24 fps 클립에 맞게 조정됩니다. 지속 시간을 변경하기 위해 이 값을 조정하는 것은 실험적입니다; 프레임 수를 어떻게 추적해야 하는지 이해하는 경우에만 변경하세요.

VHS_VideoCombine (#88)

디코딩된 프레임과 오디오를 MP4로 믹싱합니다. 샘플링 목표에 맞게 프레임 속도를 설정하고, 생성된 파형을 따르도록 최종 컷을 조정하려면 오디오에 맞춘 트림을 토글하세요. 파일 크기와 품질을 균형 있게 조절하려면 CRF 제어를 사용하세요.

선택적 추가 기능#

Ovi 비디오와 Wan 2.2 VAE에 bf16 사용. 검은 프레임이 나타나면 모델 로더와 텍스트 인코더의 기본 정밀도를 bf16으로 전환하세요.
대사를 짧게 유지하세요. Character AI Ovi는 <S>와 <E> 안에 짧고 단일 문장으로 된 대사에 가장 잘 립싱크합니다.
부정적 요소를 분리하세요. 시각적 아티팩트는 비디오 부정적 프롬프트에, 톤 아티팩트는 오디오 부정적 프롬프트에 두어 의도치 않은 트레이드오프를 피하세요.
먼저 미리보기 하세요. 최종 MP4를 내보내기 전에 오디오 미리보기를 사용하여 명확성과 속도를 확인하세요.
사용한 정확한 가중치를 얻으세요. 워크플로우는 Kijai의 모델 미러에서 Ovi 비디오와 오디오 체크포인트 및 Wan 2.2 VAE를 기대합니다. WanVideo_comfy/Ovi • WanVideo_comfy_fp8_scaled/TI2V/Ovi

이러한 요소들이 갖춰지면, Character AI Ovi는 표현력 있는 대화형 아바타와 이야기 장면을 위한 컴팩트하고 창작자 친화적인 파이프라인이 되어, 시각적으로 훌륭한 사운드를 제공합니다.

감사의 말#

이 워크플로우는 다음 작업과 리소스를 구현하고 확장합니다. 우리는 kijai와 Character AI의 Ovi에 대한 기여와 유지보수에 감사드립니다. 권위 있는 세부 사항은 아래 링크된 원본 문서와 저장소를 참조하십시오.

리소스#

Character AI Ovi 소스
- 워크플로우: wanvideo_2_2_5B_ovi_testing @kijai
- Github: character-ai/Ovi

주의: 참조된 모델, 데이터셋, 코드의 사용은 저자와 유지보수자가 제공한 해당 라이선스 및 조건에 따릅니다.

Want More ComfyUI Workflows?

Hallo2 | 립싱크 초상화 애니메이션

오디오 기반의 립싱크를 통한 4K 초상화 애니메이션.

EchoMimic | 오디오 기반 초상화 애니메이션

제공된 오디오와 동기화된 현실적인 말하는 머리와 신체 제스처를 생성합니다.

LivePortrait | 초상화 애니메이션 | Img2Vid

단일 이미지와 참조 비디오를 사용하여 얼굴 표정과 움직임으로 초상화를 애니메이션화합니다.

Qwen-Image | HD 다중 텍스트 포스터 생성기

이미지에서 텍스트 생성의 새로운 시대!

Wan2.2 Animate | 사진에서 현실적인 모션 비디오로

이미지를 생동감 넘치고 움직이는 캐릭터로 변환하여 자연스러운 몸과 얼굴의 움직임을 구현하세요.

SCAIL 모델 | 포즈 안내 애니메이션 제작기

정체성 안정성과 움직임 정확성을 갖춘 포즈 기반 애니메이션.

ACE-Step 1.5XL Turbo comfyui 워크플로우 | Text-to-Music Generator

텍스트를 멋진 음악으로 빠르고 명확하게 변환합니다.

AnimateDiff + ControlNet + IPAdapter V1 | 일본 애니메이션 스타일

비디오를 매혹적인 일본 애니메이션으로 변환하세요.

팔로우하기

지원

리소스

법적 고지

RunComfy

RunComfy는 최고의 ComfyUI 플랫폼으로서 ComfyUI 온라인 환경과 서비스를 제공하며 ComfyUI 워크플로우 멋진 비주얼을 제공합니다. RunComfy는 또한 제공합니다 AI Models, 예술가들이 최신 AI 도구를 활용하여 놀라운 예술을 창조할 수 있도록 지원합니다.

Character AI Ovi | 대화형 아바타 생성기