Character AI Ovi es un flujo de generación audiovisual que convierte una sola imagen en un personaje parlante y en movimiento con sonido coordinado. Construido sobre la familia de modelos Wan e integrado a través del WanVideoWrapper, genera video y audio en una sola pasada, ofreciendo animación expresiva, sincronización labial inteligible y ambiente consciente del contexto. Si haces historias cortas, anfitriones virtuales o clips sociales cinematográficos, Character AI Ovi te permite pasar de arte estático a una actuación completa en minutos.
Este flujo de trabajo de ComfyUI acepta una imagen más un aviso de texto que contiene marcado ligero para diseño de habla y sonido. Compone cuadros y forma de onda juntos para que la boca, el ritmo y el audio de la escena se sientan naturalmente alineados. Character AI Ovi está diseñado para creadores que quieren resultados pulidos sin ensamblar herramientas TTS y de video por separado.
Este flujo sigue un camino simple: codifica tu aviso e imagen, carga los checkpoints de Ovi, muestrea latentes conjuntos de audio+video, luego decodifica y combina a MP4. Las subsecciones a continuación mapean los clústeres de nodos visibles para que sepas dónde interactuar y qué cambios afectan los resultados.
Escribe un aviso positivo para la escena y la línea hablada. Usa las etiquetas Ovi exactamente como se muestran: envuelve las palabras a ser habladas con <S>
y <E>
, y opcionalmente describe audio no hablado con <AUDCAP>
y <ENDAUDCAP>
. El mismo aviso positivo condiciona tanto la rama de video como la de audio para que el movimiento de los labios y el tiempo se alineen. Puedes usar diferentes avisos negativos para video y audio para suprimir artefactos de manera independiente. Character AI Ovi responde bien a instrucciones escénicas concisas más una sola línea clara de diálogo.
Carga un solo retrato o imagen de personaje, luego el flujo de trabajo la redimensiona y codifica a latentes. Esto establece identidad, pose y encuadre inicial para el muestreador. El ancho y la altura de la etapa de redimensionamiento establecen el aspecto del video; elige cuadrado para avatares o vertical para cortos. Los latentes codificados y los incrustados derivados de la imagen guían al muestreador para que el movimiento se sienta anclado al rostro original.
Character AI Ovi carga tres elementos esenciales: el modelo de video Ovi, el VAE Wan 2.2 para cuadros y el MMAudio VAE más BigVGAN para audio. La compilación de Torch y un caché ligero están incluidos para acelerar los inicios en caliente. Un ayudante de intercambio de bloques está conectado para reducir el uso de VRAM descargando bloques de transformadores cuando sea necesario. Si tienes restricciones de VRAM, aumenta la descarga de bloques en el nodo de intercambio de bloques y mantén el caché habilitado para ejecuciones repetidas.
El muestreador ejecuta las espinas dorsales gemelas de Ovi juntas para que la banda sonora y los cuadros co-evolucionen. Un ayudante de guía de capa de omisión mejora la estabilidad y el detalle sin sacrificar el movimiento. El flujo de trabajo también enruta tus incrustaciones de texto originales a través de un mezclador CFG específico de Ovi para que puedas inclinar el balance entre la estricta adherencia al aviso y una animación más libre. Character AI Ovi tiende a producir el mejor movimiento de labios cuando la línea hablada es corta, literal y solo está encerrada por las etiquetas <S>
y <E>
.
Después del muestreo, los latentes de video se decodifican a través del VAE Wan mientras que los latentes de audio se decodifican a través de MMAudio con BigVGAN. Un combinador de video combina cuadros y audio en un MP4 a 24 fps, listo para compartir. También puedes previsualizar el audio directamente para verificar la inteligibilidad del habla antes de guardar. La ruta predeterminada de Character AI Ovi apunta a 5 segundos; extiende con cautela para mantener los labios y el ritmo sincronizados.
WanVideoTextEncodeCached
(#85)
Codifica el aviso principal positivo y el aviso negativo de video en incrustaciones utilizadas por ambas ramas. Mantén el diálogo dentro de <S>…<E>
y coloca el diseño de sonido dentro de <AUDCAP>…<ENDAUDCAP>
. Para mejor alineación, evita múltiples oraciones en una etiqueta de habla y mantén la línea concisa.
WanVideoTextEncodeCached
(#96)
Proporciona una incrustación de texto negativo dedicada para audio. Úsala para suprimir artefactos como tono robótico o reverberación intensa sin afectar los visuales. Comienza con descriptores cortos y expande solo si aún escuchas el problema.
WanVideoOviCFG
(#94)
Mezcla las incrustaciones de texto originales con los negativos específicos de audio a través de una guía libre de clasificador consciente de Ovi. Auméntala cuando el contenido del habla se desvíe de la línea escrita o los movimientos de labios se sientan desactivados. Redúcela ligeramente si el movimiento se vuelve rígido o demasiado restringido.
WanVideoSampler
(#80)
El corazón de Character AI Ovi. Consume incrustaciones de imagen, incrustaciones de texto conjunto y guía opcional para muestrear un único latente que contiene tanto video como audio. Más pasos aumentan la fidelidad pero también el tiempo de ejecución. Si ves presión de memoria o bloqueos, combina un mayor intercambio de bloques con caché activado, y considera deshabilitar la compilación de torch para una solución de problemas rápida.
WanVideoEmptyMMAudioLatents
(#125)
Inicializa la línea de tiempo latente de audio. La longitud predeterminada está ajustada para un clip de 121 cuadros, 24 fps. Ajustar esto para cambiar la duración es experimental; cámbialo solo si entiendes cómo debe seguir el conteo de cuadros.
VHS_VideoCombine
(#88)
Combina cuadros decodificados y audio a MP4. Establece la tasa de cuadros para que coincida con tu objetivo de muestreo y activa cortar al audio si deseas que el corte final siga la forma de onda generada. Usa el control CRF para equilibrar el tamaño del archivo y la calidad.
bf16
para los cargadores de modelos y el codificador de texto.<S>
y <E>
.Con estas piezas en su lugar, Character AI Ovi se convierte en una tubería compacta y amigable para creadores para avatares parlantes expresivos y escenas narrativas que suenan tan bien como se ven.
Este flujo de trabajo implementa y se basa en los siguientes trabajos y recursos. Agradecemos sinceramente a kijai y Character AI por Ovi por sus contribuciones y mantenimiento. Para detalles autorizados, por favor consulta la documentación original y los repositorios enlazados a continuación.
Nota: El uso de los modelos, conjuntos de datos y código referenciados está sujeto a las respectivas licencias y términos proporcionados por sus autores y mantenedores.
RunComfy es la principal ComfyUI plataforma, ofreciendo ComfyUI en línea entorno y servicios, junto con flujos de trabajo de ComfyUI con impresionantes imágenes. RunComfy también ofrece AI Playground, permitiendo a los artistas aprovechar las últimas herramientas de AI para crear arte increíble.