ComfyUI > 工作流 > SVD(稳定视频扩散)+ SD | 文本转视频

SVD(稳定视频扩散)+ SD | 文本转视频

在这个ComfyUI工作流程中,我们将稳定扩散文本到图像与稳定视频扩散图像到视频过程集成在一起。这允许您输入文本来生成图像,然后可以无缝地将其转换为视频。

ComfyUI SVD 工作流程

想要运行这个工作流吗？

ComfyUI工作流程无缝集成了文本到图像(稳定扩散)和图像到视频(稳定视频扩散)技术,以实现高效的文本到视频转换。该工作流程允许您直接从文本描述生成视频,从一个基础图像开始,逐步演变为一个动态的视频序列。该工作流程有助于实现文本到视频的动画或视频。

稳定视频扩散(SVD)是一项最先进的技术,旨在将静态图像转换为动态视频内容。SVD利用基础的稳定扩散图像模型,为静态图像引入运动,促进短视频剪辑的创建。这种潜在扩散模型的进步最初是为图像合成而设计的,现在纳入了时间维度来为静态视觉效果制作动画,通常生成2到5秒的视频。

稳定视频扩散有两种变体:标准SVD能够生成576×1024像素分辨率、14帧的视频,增强版SVD-XT最多可生成25帧。两种变体都支持3到30帧每秒的可调帧率,以满足不同的数字内容创建需求。

SVD模型的训练涉及三个阶段:从图像模型开始,过渡到用大量视频数据集预训练的视频模型,并用精选的高质量视频剪辑进行优化。这个细致的过程突出了数据集质量在优化模型视频生成能力方面的重要性。

稳定视频扩散模型的核心是稳定扩散2.1图像模型,它作为基础的图像主干。将时间卷积和注意力层集成到U-Net噪声估计器中,将其演变为强大的视频模型,将潜在张量解释为视频序列。该模型采用反向扩散同时去噪所有帧,类似于VideoLDM模型。

该模型拥有15亿个参数,在大量视频数据集上进行训练,并用高质量视频数据集进一步微调以达到最佳性能。公开了两套SVD模型权重,分别用于生成576×1024分辨率的14帧和25帧视频。

在ComfyUI工作流程中使用稳定视频扩散时,可以调整关键参数以自定义视频输出,包括控制视频运动强度的运动桶ID;决定帧率的每秒帧数(fps);以及调整初始图像噪声级别以获得不同转换程度的增强级别。

**2.2.1. 运动桶ID:**该特性为用户提供了控制视频运动强度的能力。通过调整此参数,您可以根据所需的视觉效果,决定视频中观察到的运动量,从微妙的手势到更明显的动作不等。

**2.2.2. 每秒帧数(fps):**该参数对于确定视频的播放速度至关重要。调整每秒帧数允许您制作既可以捕捉场景的快速动态,也可以呈现慢动作效果的视频,从而增强视频内容的讲故事方面。这种灵活性对于创建从快节奏广告到更沉思的叙事驱动作品等各种类型的视频特别有益。

**2.2.3. 增强级别参数:**该参数调整初始图像的噪声级别,实现不同程度的转换。通过操纵此参数,您可以控制原始图像在视频创建过程中被改变的程度。调整增强级别允许在更接近原始图像的保真度或更抽象和艺术化的解释之间进行选择,从而扩大创作可能性。

将 FreeU 与 SVD 结合使用，以在不增加额外成本的情况下提高图像到视频转换的质量。

利用 IPAdapters 进行静态图像生成,并使用 Stable Video Diffusion 进行动态视频生成。

在 IPAdapter Plus 中使用各种合并方法,精确高效地控制图像混合。

将您的视频转化为永恒的大理石雕塑,捕捉经典艺术的精髓。

Mesh Graphormer ControlNet可以修正图像中畸形的手,同时保留其余部分。

从 1–3 个参考中执行身份、风格、试穿和多条件图像生成

使用 MimicMotion，通过参考图像和运动序列生成高质量的人体运动视频。

使用一个掩码帧去除视频背景，实现完美的主体分离。