SVD (Stable Video Diffusion) + SD | De texto a video

En este flujo de trabajo de ComfyUI, integramos los procesos de texto a imagen de Stable Diffusion con los procesos de imagen a video de Stable Video Diffusion. Esto le permite ingresar texto para generar una imagen, que luego se puede convertir sin problemas en un video.

Flujo de trabajo de ComfyUI

ComfyUI Stable Video Diffusion (SVD) Workflow
¿Quiere ejecutar este flujo de trabajo?
  • Flujos de trabajo completamente operativos
  • Sin nodos ni modelos faltantes
  • No se requiere configuración manual
  • Presenta visuales impresionantes

Ejemplos

Descripción

1. Flujo de trabajo de ComfyUI Stable Video Diffusion (SVD)

El flujo de trabajo de ComfyUI integra a la perfección las tecnologías de texto a imagen (Stable Diffusion) y de imagen a video (Stable Video Diffusion) para una conversión eficiente de texto a video. Este flujo de trabajo le permite generar videos directamente a partir de descripciones de texto, comenzando con una imagen base que evoluciona en una secuencia de video dinámica. Este flujo de trabajo facilita la realización de animaciones o videos de texto a video.

2. Descripción general de Stable Video Diffusion (SVD)

2.1. Introducción a Stable Video Diffusion (SVD)

Stable Video Diffusion (SVD) es una tecnología de vanguardia desarrollada para convertir imágenes estáticas en contenido de video dinámico. Aprovechando el modelo de imagen fundacional Stable Diffusion, SVD introduce movimiento a imágenes fijas, facilitando la creación de videoclips breves. Este avance en los modelos de difusión latente, inicialmente diseñados para la síntesis de imágenes, ahora incorpora dimensiones temporales para animar imágenes fijas, produciendo videos generalmente dentro del rango de 2 a 5 segundos.

Stable Video Diffusion está disponible en dos variantes: el SVD estándar, capaz de generar videos a una resolución de 576×1024 píxeles en 14 cuadros, y el SVD-XT mejorado, que puede producir hasta 25 cuadros. Ambas variantes admiten velocidades de cuadro ajustables de 3 a 30 cuadros por segundo, abordando diversos requisitos de creación de contenido digital.

El entrenamiento del modelo SVD implica un proceso de tres etapas: comenzando con un modelo de imagen, pasando a un modelo de video preentrenado con un extenso conjunto de datos de video y refinando con una selección de videoclips de alta calidad. Este meticuloso proceso resalta la importancia de la calidad del conjunto de datos para optimizar las capacidades de producción de video del modelo.

En el corazón del modelo Stable Video Diffusion se encuentra el modelo de imagen Stable Diffusion 2.1, que actúa como la columna vertebral de la imagen fundamental. La integración de capas de convolución y atención temporal en el estimador de ruido U-Net convierte esto en un poderoso modelo de video, interpretando tensores latentes como secuencias de video. Este modelo emplea difusión inversa para eliminar el ruido de todos los cuadros simultáneamente, similar al modelo VideoLDM.

Equipado con 1,5 mil millones de parámetros y entrenado en un vasto conjunto de datos de video, el modelo se ajusta aún más con un conjunto de datos de video de alta calidad para un rendimiento máximo. Dos conjuntos de pesos de modelo SVD están disponibles públicamente, diseñados para generar videos de 14 y 25 cuadros a una resolución de 576×1024, respectivamente.

2.2. Características clave de Stable Video Diffusion (SVD)

Al usar Stable Video Diffusion en el flujo de trabajo de ComfyUI, puede ajustar los parámetros clave para la personalización de la salida de video, incluido el ID del bucket de movimiento, que controla la intensidad del movimiento del video; cuadros por segundo (fps), que determina la velocidad de cuadro; y el nivel de aumento, que ajusta el nivel de ruido de la imagen inicial para diversos grados de transformación.

2.2.1. ID de bucket de movimiento: esta función ofrece a los usuarios la capacidad de controlar la intensidad del movimiento del video. Al ajustar este parámetro, puede dictar la cantidad de movimiento observado en el video, desde gestos sutiles hasta acciones más pronunciadas, según el efecto visual deseado.

2.2.2. Cuadros por segundo (fps): este parámetro es crucial para determinar la velocidad de reproducción del video. Ajustar los cuadros por segundo le permite producir videos que pueden capturar la dinámica rápida de una escena o presentar un efecto de cámara lenta, mejorando así el aspecto narrativo del contenido del video. Esta flexibilidad es particularmente beneficiosa para crear una amplia gama de tipos de video, desde anuncios de ritmo rápido hasta piezas más contemplativas basadas en la narrativa.

2.2.3. Parámetro de nivel de aumento: este ajusta el nivel de ruido de la imagen inicial, permitiendo varios grados de transformación. Al manipular este parámetro, puede controlar hasta qué punto se altera la imagen original durante el proceso de creación del video. Ajustar el nivel de aumento permite mantener una mayor fidelidad a la imagen original o aventurarse en interpretaciones más abstractas y artísticas, ampliando así las posibilidades creativas.

¿Quiere más flujos de trabajo de ComfyUI?