SVD(안정적 비디오 확산) + SD | 텍스트에서 비디오로

이 ComfyUI 워크플로에서는 안정적 확산 텍스트-이미지와 안정적 비디오 확산 이미지-비디오 프로세스를 통합합니다. 이를 통해 텍스트를 입력하여 이미지를 생성한 다음 원활하게 비디오로 변환할 수 있습니다.

ComfyUI 워크플로우

ComfyUI Stable Video Diffusion (SVD) Workflow
이 워크플로우를 실행하고 싶으신가요?
  • 완전히 작동 가능한 워크플로우
  • 누락된 노드 또는 모델 없음
  • 수동 설정 불필요
  • 멋진 시각 효과 제공

예시

설명

1. ComfyUI 안정적 비디오 확산(SVD) 워크플로

ComfyUI 워크플로는 텍스트-이미지(안정적 확산)와 이미지-비디오(안정적 비디오 확산) 기술을 원활하게 통합하여 텍스트-비디오 변환을 효율적으로 수행합니다. 이 워크플로를 통해 텍스트 설명에서 직접 비디오를 생성할 수 있으며, 동적 비디오 시퀀스로 진화하는 기본 이미지에서 시작합니다. 이 워크플로는 텍스트-비디오 애니메이션 또는 비디오의 실현을 용이하게 합니다.

2. 안정적 비디오 확산(SVD) 개요

2.1. 안정적 비디오 확산(SVD) 소개

안정적 비디오 확산(SVD)은 정적 이미지를 동적 비디오 콘텐츠로 변환하기 위해 개발된 최첨단 기술입니다. 기본 안정적 확산 이미지 모델을 활용하여 SVD는 정지 이미지에 움직임을 도입하여 짧은 비디오 클립 생성을 용이하게 합니다. 이미지 합성을 위해 처음 고안된 잠재 확산 모델의 이러한 발전은 이제 시간적 차원을 통합하여 정지 영상을 애니메이션화하여 일반적으로 2초에서 5초 범위 내의 비디오를 생성합니다.

안정적 비디오 확산에는 두 가지 변형이 있습니다. 표준 SVD는 14 프레임에 걸쳐 576×1024 픽셀 해상도로 비디오를 생성할 수 있고, 향상된 SVD-XT는 최대 25 프레임까지 생성할 수 있습니다. 두 변형 모두 초당 3 프레임에서 30 프레임까지 조정 가능한 프레임 속도를 지원하여 다양한 디지털 콘텐츠 제작 요구 사항을 해결합니다.

SVD 모델의 학습은 세 단계 프로세스를 포함합니다. 이미지 모델로 시작하여 방대한 비디오 데이터 세트로 사전 학습된 비디오 모델로 전환한 다음 고품질 비디오 클립 선택으로 세부 조정합니다. 이 꼼꼼한 프로세스는 모델의 비디오 제작 능력을 최적화하는 데 데이터 세트 품질의 중요성을 강조합니다.

안정적 비디오 확산 모델의 핵심은 기본 이미지 백본 역할을 하는 안정적 확산 2.1 이미지 모델입니다. 시간적 컨볼루션과 어텐션 레이어를 U-Net 노이즈 예측기에 통합하면 이것이 강력한 비디오 모델로 진화하여 잠재 텐서를 비디오 시퀀스로 해석합니다. 이 모델은 VideoLDM 모델과 유사하게 역방향 확산을 사용하여 모든 프레임을 동시에 디노이징합니다.

15억 개의 매개변수로 무장하고 방대한 비디오 데이터 세트에서 학습된 이 모델은 최고 성능을 위해 고품질 비디오 데이터 세트로 추가 미세 조정을 거칩니다. 14 프레임 및 25 프레임 비디오를 576×1024 해상도로 생성하도록 설계된 두 세트의 SVD 모델 가중치를 공개적으로 사용할 수 있습니다.

2.2. 안정적 비디오 확산(SVD)의 주요 기능

ComfyUI 워크플로에서 안정적 비디오 확산을 사용할 때 비디오 출력 사용자 지정을 위한 주요 매개변수 조정에는 비디오의 동작 강도를 제어하는 동작 버킷 ID, 프레임 속도를 결정하는 초당 프레임 수(fps), 그리고 다양한 변환 정도를 위해 초기 이미지의 노이즈 레벨을 조정하는 증강 레벨이 포함됩니다.

2.2.1. 동작 버킷 ID: 이 기능은 사용자에게 비디오의 동작 강도를 제어할 수 있는 기능을 제공합니다. 이 매개변수를 조정하면 원하는 시각적 효과에 따라 미묘한 제스처부터 더 뚜렷한 동작에 이르기까지 비디오에서 관찰되는 움직임의 양을 지시할 수 있습니다.

2.2.2. 초당 프레임 수(fps): 이 매개변수는 비디오의 재생 속도를 결정하는 데 중요합니다. 초당 프레임 수를 조정하면 장면의 빠른 역동성을 캡처하거나 슬로우 모션 효과를 나타낼 수 있는 비디오를 제작할 수 있어 비디오 콘텐츠의 스토리텔링 측면을 향상시킵니다. 이러한 유연성은 빠른 속도의 광고부터 더 사색적이고 내러티브 중심의 작품에 이르기까지 다양한 유형의 비디오를 만드는 데 특히 유용합니다.

2.2.3. 증강 레벨 매개변수: 이것은 초기 이미지의 노이즈 레벨을 조정하여 다양한 변환 정도를 가능하게 합니다. 이 매개변수를 조작하면 비디오 생성 과정에서 원본 이미지가 변경되는 정도를 제어할 수 있습니다. 증강 레벨을 조정하면 원본 이미지에 더 가깝게 유지하거나 더 추상적이고 예술적인 해석으로 모험할 수 있어 창의적 가능성이 확장됩니다.

더 많은 ComfyUI 워크플로우를 원하시나요?