Character AI Ovi в ComfyUI | Image2Video + Voice Workflow

ComfyUI Character AI Ovi Workflow

Character AI Ovi in ComfyUI | Image2Video + Voice Workflow

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

ComfyUI Character AI Ovi Examples

Character AI Ovi: изображение в видео с синхронизированной речью в ComfyUI#

Character AI Ovi - это аудиовизуальный workflow, который превращает одно изображение в говорящего, движущегося персонажа с координированным звуком. Основан на модели Wan и интегрирован через WanVideoWrapper, он генерирует видео и аудио за один проход, обеспечивая выразительную анимацию, понятную синхронизацию губ и контекстно-осведомленную атмосферу. Если вы создаете короткие истории, виртуальных ведущих или кинематографические социальные клипы, Character AI Ovi позволяет перейти от статического искусства к полному выступлению за считанные минуты.

Этот workflow ComfyUI принимает одно изображение плюс текстовый запрос, содержащий легкую разметку для речи и звукового дизайна. Он объединяет кадры и звуковую волну вместе, чтобы рот, ритм и аудио сцены естественно сочетались. Character AI Ovi разработан для создателей, которые хотят получить качественные результаты без сшивания отдельных TTS и видео инструментов.

Ключевые модели в Comfyui Character AI Ovi workflow#

Ovi: Twin Backbone Cross-Modal Fusion для генерации аудио-видео. Основная модель, которая совместно производит видео и аудио из текстовых или текст+изображение запросов. character-ai/Ovi
Wan 2.2 видео основа и VAE. Workflow использует высококомпрессионный видео VAE Wan для эффективного 720p, 24 fps генерации, сохраняя детализацию и временную согласованность. Wan-AI/Wan2.2-TI2V-5B-Diffusers • Wan-Video/Wan2.2
Google UMT5-XXL текстовый энкодер. Кодирует запрос, включая теги речи, в богатые многоязычные эмбеддинги, которые управляют обеими ветвями. google/umt5-xxl
MMAudio VAE с BigVGAN вокодером. Декодирует аудио латенты модели в высококачественную речь и эффекты с естественным тембром. hkchengrex/MMAudio • nvidia/bigvgan_v2_44khz_128band_512x
ComfyUI-ready Ovi веса от Kijai. Курированные контрольные точки для видео ветви, аудио ветви и VAE в bf16 и fp8 масштабированных вариантах. Kijai/WanVideo_comfy/Ovi • Kijai/WanVideo_comfy_fp8_scaled/TI2V/Ovi
Узлы WanVideoWrapper для ComfyUI. Оболочка, которая предоставляет функции Wan и Ovi как составные узлы. kijai/ComfyUI-WanVideoWrapper

Как использовать Comfyui Character AI Ovi workflow#

Этот workflow следует простому пути: закодируйте ваш запрос и изображение, загрузите контрольные точки Ovi, выберите совместные аудио+видео латенты, затем декодируйте и объедините в MP4. Подразделы ниже соответствуют видимым кластерам узлов, чтобы вы знали, где взаимодействовать и какие изменения влияют на результаты.

Написание запроса для речи и звука#

Напишите один позитивный запрос для сцены и произносимой реплики. Используйте теги Ovi точно так, как показано: оберните слова для произнесения в <S> и <E>, и по желанию опишите не речевые аудио с <AUDCAP> и <ENDAUDCAP>. Один и тот же позитивный запрос условливает как видео, так и аудио ветви, чтобы движение губ и время совпадали. Вы можете использовать разные негативные запросы для видео и аудио, чтобы независимо подавить артефакты. Character AI Ovi хорошо реагирует на краткие сценические указания плюс одну четкую строку диалога.

Загрузка и кондиционирование изображения#

Загрузите один портрет или изображение персонажа, затем workflow изменяет размер и кодирует его в латенты. Это устанавливает личность, позу и начальное кадрирование для выборщика. Ширина и высота на этапе изменения размера задают аспект видео; выберите квадрат для аватаров или вертикаль для короткометражек. Закодированные латенты и эмбеддинги, полученные из изображения, направляют выборщик, чтобы движение казалось привязанным к оригинальному лицу.

Загрузка модели и помощники по производительности#

Character AI Ovi загружает три основных компонента: видео модель Ovi, Wan 2.2 VAE для кадров и MMAudio VAE плюс BigVGAN для аудио. Torch компиляция и легкий кэш включены для ускорения холодных запусков. Помощник по замене блоков подключен для снижения использования VRAM путем выгрузки блоков трансформера при необходимости. Если вы ограничены в VRAM, увеличьте выгрузку блоков в узле замены блоков и держите кэш включенным для повторных запусков.

Совместная выборка с руководством#

Выборщик запускает двойные основы Ovi вместе, чтобы звуковая дорожка и кадры соразвивались. Помощник по руководству слоем пропуска улучшает стабильность и детализацию без ущерба для движения. Workflow также направляет ваши оригинальные текстовые эмбеддинги через Ovi-специфический CFG миксер, чтобы вы могли изменить баланс между строгим соблюдением запроса и более свободной анимацией. Character AI Ovi, как правило, производит лучшее движение губ, когда произносимая строка короткая, буквальная и заключена только в теги <S> и <E>.

Декодирование, предварительный просмотр и экспорт#

После выборки видео латенты декодируются через Wan VAE, а аудио латенты декодируются через MMAudio с BigVGAN. Видео-комбайнер объединяет кадры и аудио в MP4 на 24 fps, готовый к распространению. Вы также можете предварительно просмотреть аудио, чтобы проверить понятность речи перед сохранением. Стандартный путь Character AI Ovi нацелен на 5 секунд; расширяйте осторожно, чтобы сохранить синхронизацию губ и ритма.

Ключевые узлы в Comfyui Character AI Ovi workflow#

WanVideoTextEncodeCached (#85)

Кодирует основной позитивный запрос и негативный запрос видео в эмбеддинги, используемые обеими ветвями. Держите диалог внутри <S>…<E> и размещайте звуковой дизайн внутри <AUDCAP>…<ENDAUDCAP>. Для лучшей согласованности избегайте нескольких предложений в одном теге речи и держите строку краткой.

WanVideoTextEncodeCached (#96)

Предоставляет отдельное негативное текстовое эмбеддинг для аудио. Используйте его для подавления артефактов, таких как роботизированный тон или сильное эхо, не затрагивая визуальные элементы. Начните с коротких описаний и расширяйте только если проблема остается.

WanVideoOviCFG (#94)

Смешивает оригинальные текстовые эмбеддинги с аудио-специфическими негативами через Ovi-осведомленный классификатор-бесплатное руководство. Повышайте его, когда содержание речи отклоняется от написанной строки или движения губ кажутся неверными. Понижайте его слегка, если движение становится жестким или излишне ограниченным.

WanVideoSampler (#80)

Сердце Character AI Ovi. Он потребляет эмбеддинги изображений, совместные текстовые эмбеддинги и опциональное руководство для выборки единственного латента, содержащего как видео, так и аудио. Больше шагов увеличивает точность, но также и время выполнения. Если вы видите нагрузку на память или задержки, сочетайте более высокую замену блоков с включенным кэшем и рассмотрите возможность отключения компиляции torch для быстрой диагностики.

WanVideoEmptyMMAudioLatents (#125)

Инициализирует временную шкалу аудио латентов. Стандартная длина настроена для клипа в 121 кадр, 24 fps. Изменение этого для изменения продолжительности является экспериментальным; изменяйте это только если понимаете, как оно должно отслеживать количество кадров.

VHS_VideoCombine (#88)

Объединяет декодированные кадры и аудио в MP4. Установите частоту кадров в соответствии с вашей целью выборки и включите обрезку по аудио, если хотите, чтобы финальная версия следовала за сгенерированной звуковой волной. Используйте контроль CRF для баланса между размером файла и качеством.

Дополнительные опции#

Используйте bf16 для видео Ovi и Wan 2.2 VAE. Если вы сталкиваетесь с черными кадрами, переключите базовую точность на bf16 для загрузчиков моделей и текстового энкодера.
Держите речи короткими. Character AI Ovi наиболее надежно синхронизирует губы с короткими, односложными диалогами внутри <S> и <E>.
Отдельные негативы. Поместите визуальные артефакты в негативный запрос видео, а тональные артефакты в негативный запрос аудио, чтобы избежать непреднамеренных компромиссов.
Предварительный просмотр сначала. Используйте предварительный просмотр аудио для подтверждения ясности и темпа перед экспортом финального MP4.
Получите точные веса, используемые. Workflow ожидает контрольные точки видео и аудио Ovi плюс Wan 2.2 VAE из зеркал моделей Kijai. WanVideo_comfy/Ovi • WanVideo_comfy_fp8_scaled/TI2V/Ovi

С этими элементами на месте, Character AI Ovi становится компактным, ориентированным на создателей пайплайном для выразительных говорящих аватаров и повествовательных сцен, которые звучат так же хорошо, как и выглядят.

Благодарности#

Этот workflow реализует и основывается на следующих работах и ресурсах. Мы искренне благодарим kijai и Character AI за Ovi за их вклад и поддержку. Для получения авторитетной информации, пожалуйста, обратитесь к оригинальной документации и репозиториям, указанным ниже.

Ресурсы#

Character AI Ovi Source
- Workflow: wanvideo_2_2_5B_ovi_testing @kijai
- Github: character-ai/Ovi

Примечание: Использование указанных моделей, наборов данных и кода подчиняется соответствующим лицензиям и условиям, предоставленным их авторами и поддерживающими лицами.

Want More ComfyUI Workflows?

Hallo2 | Портретная анимация синхронизации губ

Аудио-управляемая синхронизация губ для портретной анимации в 4K.

EchoMimic | Анимации портретов, управляемые аудио

Создайте реалистичные говорящие головы и жесты тела, синхронизированные с предоставленным аудио.

LivePortrait | Анимируйте портреты | Img2Vid

Анимируйте портреты с выражениями лица и движениями, используя одно изображение и референсное видео.

Qwen-Image | Генератор Многоязычных Постеров в HD

Новая Эра Генерации Текста в Изображениях!

Инференс Flex.1 LoRA | AI Toolkit ComfyUI

Запустите ваш Flex.1 LoRA, обученный с помощью AI Toolkit, в ComfyUI с совпадающими с обучением настройками, используя один пользовательский узел RC.

LongCat Video Avatar 1.5 ComfyUI | Генератор с синхронизацией губ

Преобразует изображение персонажа и аудио в идеально синхронизированное с губами аватар-видео.

Hunyuan3D-2 | Продвинутый генератор 3D-объектов

Создайте точные текстурированные 3D-объекты из изображений с использованием передовых технологий ИИ.

VACE Wan2.1 | V2V

Преобразуйте видео с помощью изображения стиля-референса, используя VACE Wan2.1.

Подписывайтесь на нас

Поддержка

Ресурсы

Юридическая информация

RunComfy

RunComfy - ведущая ComfyUI платформа, предлагающая ComfyUI онлайн среду и услуги, а также рабочие процессы ComfyUI с потрясающей визуализацией. RunComfy также предоставляет AI Models, позволяя художникам использовать новейшие инструменты AI для создания невероятного искусства.

Character AI Ovi | Генератор говорящих аватаров