Character AI Ovi는 단일 이미지를 말하고 움직이는 캐릭터로 변환하는 오디오비주얼 생성 워크플로우입니다. Wan 모델 패밀리에 기반하여 WanVideoWrapper를 통해 통합되었으며, 비디오와 오디오를 한 번에 생성하여 표현력 있는 애니메이션, 이해 가능한 립싱크, 컨텍스트 인식 분위기를 제공합니다. 짧은 이야기, 가상 호스트 또는 영화적 소셜 클립을 만들 때, Character AI Ovi는 정적 아트를 완전한 퍼포먼스로 빠르게 전환할 수 있게 해줍니다.
이 ComfyUI 워크플로우는 하나의 이미지와 경량 마크업을 포함한 텍스트 프롬프트를 받아들여 말하고 소리를 설계합니다. 프레임과 파형을 함께 구성하여 입 모양, 리듬, 장면 오디오가 자연스럽게 정렬된 느낌이 듭니다. Character AI Ovi는 별도의 TTS 및 비디오 도구를 연결하지 않고도 세련된 결과를 원하는 창작자를 위해 설계되었습니다.
이 워크플로우는 간단한 경로를 따릅니다: 프롬프트와 이미지를 인코딩하고, Ovi 체크포인트를 로드한 후, 공동 오디오+비디오 잠재변수를 샘플링하고, 디코딩 및 MP4로 믹싱합니다. 아래의 하위 섹션은 어디에서 상호작용하고 어떤 변경이 결과에 영향을 미치는지 알 수 있도록 눈에 보이는 노드 클러스터에 매핑됩니다.
장면과 말할 대사를 위한 긍정적 프롬프트를 작성하세요. Ovi 태그를 정확히 표시된 대로 사용하세요: <S>
와 <E>
로 말할 단어를 감싸고, 선택적으로 비음성 오디오를 <AUDCAP>
와 <ENDAUDCAP>
로 설명합니다. 동일한 긍정적 프롬프트가 비디오와 오디오 브랜치 모두에 조건을 주어 입 모양과 타이밍이 일치하게 합니다. 비디오와 오디오에 대해 서로 다른 부정적 프롬프트를 사용하여 아티팩트를 독립적으로 억제할 수 있습니다. Character AI Ovi는 간결한 무대 지시와 단 하나의 명확한 대사에 잘 반응합니다.
단일 초상화 또는 캐릭터 이미지를 로드한 후, 워크플로우는 이를 잠재변수로 리사이즈하고 인코딩합니다. 이는 샘플러를 위한 정체성, 자세 및 초기 프레이밍을 설정합니다. 리사이즈 단계의 폭과 높이가 비디오 비율을 설정합니다; 아바타는 정사각형을, 쇼츠는 세로를 선택하세요. 인코딩된 잠재변수와 이미지에서 유도된 임베딩은 샘플러를 안내하여 움직임이 원래 얼굴에 고정된 느낌이 들게 합니다.
Character AI Ovi는 세 가지 필수 요소를 로드합니다: Ovi 비디오 모델, 프레임을 위한 Wan 2.2 VAE, 그리고 오디오를 위한 MMAudio VAE와 BigVGAN. 빠른 시작을 위해 Torch 컴파일과 경량 캐시가 포함되어 있습니다. 필요할 때 트랜스포머 블록을 오프로드하여 VRAM 사용량을 줄이기 위한 블록 교체 헬퍼가 연결되어 있습니다. VRAM이 제한된 경우, 블록 교체 노드에서 블록 오프로드를 늘리고 반복 실행을 위해 캐시를 유지하세요.
샘플러는 Ovi의 트윈 백본을 함께 실행하여 사운드트랙과 프레임이 함께 진화합니다. 스킵 레이어 가이드 헬퍼는 움직임을 희생하지 않고 안정성과 세부 사항을 개선합니다. 워크플로우는 또한 원래의 텍스트 임베딩을 Ovi 전용 CFG 믹서를 통해 라우팅하여 엄격한 프롬프트 준수와 자유로운 애니메이션 사이의 균형을 조정할 수 있습니다. Character AI Ovi는 대사가 짧고 직설적이며 <S>
와 <E>
태그로만 감싸졌을 때 최고의 입 모션을 생성하는 경향이 있습니다.
샘플링 후, 비디오 잠재변수는 Wan VAE를 통해 디코딩되고, 오디오 잠재변수는 MMAudio와 BigVGAN을 통해 디코딩됩니다. 비디오 결합기가 프레임과 오디오를 24 fps MP4로 믹싱하여 공유할 준비를 합니다. 저장하기 전에 음성의 명확성을 확인하기 위해 오디오를 직접 미리 볼 수도 있습니다. Character AI Ovi의 기본 경로는 5초를 목표로 하며, 입술과 리듬을 동기화 상태로 유지하기 위해 신중하게 확장하십시오.
WanVideoTextEncodeCached
(#85)
주요 긍정적 프롬프트와 비디오 부정적 프롬프트를 두 개의 브랜치에서 사용하는 임베딩으로 인코딩합니다. 대사는 <S>…<E>
안에, 소리 디자인은 <AUDCAP>…<ENDAUDCAP>
안에 두세요. 최고의 정렬을 위해 하나의 음성 태그에 여러 문장을 피하고 대사를 간결하게 유지하세요.
WanVideoTextEncodeCached
(#96)
오디오에 대한 전용 부정적 텍스트 임베딩을 제공합니다. 시각적 효과에 영향을 주지 않고 로봇 톤이나 심한 리버브와 같은 아티팩트를 억제하는 데 사용하세요. 짧은 설명으로 시작하고 문제가 여전히 들리면 확장하세요.
WanVideoOviCFG
(#94)
오디오 전용 부정적 요소와 원래의 텍스트 임베딩을 Ovi 인식 분류자 없는 가이드를 통해 혼합합니다. 음성 내용이 작성된 줄에서 벗어나거나 입 모션이 어색할 때 높입니다. 움직임이 뻣뻣하거나 과도하게 제한되면 약간 낮추세요.
WanVideoSampler
(#80)
Character AI Ovi의 중심입니다. 이미지 임베딩, 공동 텍스트 임베딩 및 선택적 가이드를 소비하여 비디오와 오디오를 모두 포함하는 단일 잠재변수를 샘플링합니다. 더 많은 단계는 충실도를 높이지만 실행 시간도 늘어납니다. 메모리 압박이나 정체가 보이면, 블록 교체를 높이고 캐시를 켜두고, 빠른 문제 해결을 위해 torch 컴파일을 비활성화하는 것을 고려하세요.
WanVideoEmptyMMAudioLatents
(#125)
오디오 잠재 타임라인을 초기화합니다. 기본 길이는 121 프레임, 24 fps 클립에 맞게 조정됩니다. 지속 시간을 변경하기 위해 이 값을 조정하는 것은 실험적입니다; 프레임 수를 어떻게 추적해야 하는지 이해하는 경우에만 변경하세요.
VHS_VideoCombine
(#88)
디코딩된 프레임과 오디오를 MP4로 믹싱합니다. 샘플링 목표에 맞게 프레임 속도를 설정하고, 생성된 파형을 따르도록 최종 컷을 조정하려면 오디오에 맞춘 트림을 토글하세요. 파일 크기와 품질을 균형 있게 조절하려면 CRF 제어를 사용하세요.
bf16
으로 전환하세요.<S>
와 <E>
안에 짧고 단일 문장으로 된 대사에 가장 잘 립싱크합니다.이러한 요소들이 갖춰지면, Character AI Ovi는 표현력 있는 대화형 아바타와 이야기 장면을 위한 컴팩트하고 창작자 친화적인 파이프라인이 되어, 시각적으로 훌륭한 사운드를 제공합니다.
이 워크플로우는 다음 작업과 리소스를 구현하고 확장합니다. 우리는 kijai와 Character AI의 Ovi에 대한 기여와 유지보수에 감사드립니다. 권위 있는 세부 사항은 아래 링크된 원본 문서와 저장소를 참조하십시오.
주의: 참조된 모델, 데이터셋, 코드의 사용은 저자와 유지보수자가 제공한 해당 라이선스 및 조건에 따릅니다.
RunComfy는 최고의 ComfyUI 플랫폼으로서 ComfyUI 온라인 환경과 서비스를 제공하며 ComfyUI 워크플로우 멋진 비주얼을 제공합니다. RunComfy는 또한 제공합니다 AI Playground, 예술가들이 최신 AI 도구를 활용하여 놀라운 예술을 창조할 수 있도록 지원합니다.