장시간 일관된 이미지에서 비디오로의 ComfyUI 워크플로우를 위한 Stable Video Infinity 2.0
이 워크플로우는 단일 이미지를 긴, 스토리 기반 비디오로 변환하면서 정체성, 모션 흐름 및 장면 일관성을 보존합니다. 이는 Wan 2.2 I2V A14B 모델과 Stable Video Infinity 2.0 LoRA를 결합하여 짧은 클립 한계를 넘어 시간적 연속성을 확장합니다. 파이프라인은 모션 레이턴트를 한 섹션에서 다음 섹션으로 전달하는 다섯 개의 패스로 구성되어 있으며, 중첩 블렌딩을 통해 전환을 부드럽게 하고 모든 것을 함께 스티칭하는 최종 렌더링을 제공합니다.
확장된 애니메이션, 내러티브 비트 또는 영화적 AI 비디오가 필요한 제작자는 Stable Video Infinity가 장면이 진화함에 따라 캐릭터와 스타일을 안정적으로 유지함을 알 수 있습니다. ComfyUI 그래프에서 직접 생성된 중간 패스 비디오를 빠르게 검토하고 최종 마스터 렌더를 얻을 수 있습니다.
Comfyui Stable Video Infinity 워크플로우의 주요 모델
- Wan 2.2 I2V A14B UNet 쌍 (HighNoise 및 LowNoise), 양자화된 GGUF 변형. 이들은 이미지 레이턴트에서 모션을 생성하고 탐색 및 세부 정제 균형을 맞추기 위해 번갈아 사용됩니다. 출처: Comfy-Org/Wan_2.2_ComfyUI_Repackaged.
- Wan 2.2 I2V A14B에 대한 Stable Video Infinity 2.0 LoRA, 두 UNet에 맞춰 HIGH 및 LOW 변형으로 제공됩니다. 이는 긴 시퀀스에 대한 시간적 일관성을 확장합니다. 출처: Kijai/WanVideo_comfy – Stable-Video-Infinity v2.0.
- Wan 텍스트 인코더 UMT5 XXL. 비디오 생성기에 대한 컨디셔닝으로 패스당 프롬프트를 인코딩합니다. 출처: Comfy-Org/Wan_2.1_ComfyUI_repackaged.
- Wan 2.1 VAE. 각 패스에 대해 시작 이미지를 레이턴트 스페이스로 인코딩하고 프레임을 이미지로 디코딩합니다. 출처: Comfy-Org/Wan_2.2_ComfyUI_Repackaged – VAE.
- Optional Wan 2.2 LightX2V LoRA 세트 (HighNoise 및 LowNoise). 샘플링 동안 Stable Video Infinity를 보완하는 보조 LoRA입니다. 출처: Comfy-Org/Wan_2.2_ComfyUI_Repackaged – loras.
Comfyui Stable Video Infinity 워크플로우 사용 방법
워크플로우는 단일 참조 이미지를 가져와 선택한 해상도로 준비한 다음 다섯 개의 연속 패스를 실행합니다. 각 패스는 Stable Video Infinity를 사용하여 세그먼트를 생성하고, 이전 세그먼트와 몇 프레임의 중첩을 블렌딩한 후 모션 레이턴트를 다음 패스로 전달합니다. 각 패스를 MP4로 미리 볼 수 있으며 최종 스티칭된 렌더도 생성할 수 있습니다.
그룹: 모델
이 그룹은 Wan 2.2 I2V A14B UNet 쌍, Wan VAE 및 UMT5 XXL 텍스트 인코더를 로드합니다. 그런 다음 LightX2V LoRA 세트와 Stable Video Infinity 2.0 LoRA를 HighNoise 및 LowNoise 분기에 적용하여 모든 패스가 동일한 기능을 공유하도록 합니다. LoRA 강도를 조정하는 경우 HighNoise 및 LowNoise 분기의 균형을 유지하여 스타일이나 모션 동작이 드리프트되지 않도록 하십시오.
그룹: 프롬프트
프롬프트는 패스당 내러티브 비트를 생성하기 위해 작성됩니다. 긍정적인 프롬프트는 CLIPTextEncode (#93, #152, #284, #297, #310)와 같은 다섯 개의 CLIPTextEncode 노드에 있습니다. 부정적인 프롬프트는 일반적인 품질 필터로 미리 채워져 있으며 CLIPTextEncode (#89, #157, #279, #293, #306)에서 편집할 수 있습니다. 주제 설명자를 패스 전반에 걸쳐 일관되게 유지하고 동작 동사나 카메라 큐만 변경하여 장면을 발전시키면서 정체성을 유지하십시오.
입력 이미지 및 해상도
LoadImage (#97)로 단일 참조 이미지를 로드한 후 Resolution (LayerUtility: ImageScaleByAspectRatio V2 (#398))로 목표 비율에 맞게 스케일링합니다. 이미지는 VAEEncode (#135)에 의해 레이턴트로 인코딩되며, 이는 또한 실행 중 정체성을 안정적으로 유지하는 데 사용되는 앵커 레이턴트를 설정합니다. 입력이나 비율을 변경하면 패스를 실행하기 전에 다시 인코딩하십시오.
패스 1 - 장면 설정
WanImageToVideoSVIPro (#134)는 첫 번째 패스 프롬프트와 앵커 레이턴트를 사용하여 모션을 생성합니다. 두 개의 샘플러, KSamplerAdvanced (#277 HighNoise, #278 LowNoise)가 모션을 탐색한 후 세부 사항을 정제합니다. 결과는 VAEDecode (#87)에 의해 디코딩되고 VHS_VideoCombine (#126)을 통해 MP4로 미리보기됩니다. 이 패스를 사용하여 Stable Video Infinity가 앞으로 가져갈 주제, 조명 및 전반적인 스타일을 설정하십시오.
패스 2 - 액션 지속
WanImageToVideoSVIPro (#160)는 Pass 1에서 prev_samples를 받아 시각적 점프 없이 모션을 확장할 수 있습니다. 동일한 두 단계 샘플링 패턴이 KSamplerAdvanced (#276 HighNoise, #275 LowNoise)를 통해 실행되고 프레임은 VAEDecode (#162)에 의해 디코딩됩니다. ImageBatchExtendWithOverlap (#168)은 Pass 1의 꼬리와 짧은 중첩을 블렌딩하여 솔기를 숨기고 VHS_VideoCombine (#167)이 세그먼트 미리보기를 작성합니다.
패스 3 - 중간 시퀀스 확장
WanImageToVideoSVIPro (#290)는 Pass 2 레이턴트에서 계속 진행하며 KSamplerAdvanced (#291, #287)와 같은 이중 샘플러 정제를 따릅니다. VAEDecode (#282)에서 디코딩한 후 ImageBatchExtendWithOverlap (#292)은 새로운 프레임을 타임라인에 추가합니다. 미세한 동작을 발전시키면서 주제 용어를 동일하게 유지하도록 프롬프트를 업데이트하십시오.
패스 4 - 비트로 구축
WanImageToVideoSVIPro (#305)는 Pass 3에서 바통을 받아 HighNoise 및 LowNoise 샘플러 KSamplerAdvanced (#303, #300)를 사용합니다. VAEDecode (#295)와 ImageBatchExtendWithOverlap (#304)은 미리보기할 수 있는 연속 시퀀스를 제공합니다. 이 패스를 사용하여 카메라 움직임이나 보조 동작을 추가하고 설명자를 안정적으로 유지하여 정체성을 보존하십시오.
패스 5 - 해결 및 렌더링
WanImageToVideoSVIPro (#318)는 이야기를 마무리하고 KSamplerAdvanced (#316, #313)로 프레임을 정제합니다. VAEDecode (#308)로 디코딩한 후 프레임은 ImageBatchExtendWithOverlap (#317)으로 추가됩니다. VHS_VideoCombine (#319)은 최종 스티칭된 MP4를 생성하며, 배달에 맞게 frame_rate 및 filename_prefix를 조정하십시오.
Comfyui Stable Video Infinity 워크플로우의 주요 노드
WanImageToVideoSVIPro (#134)
이 노드는 앵커 레이턴트와 프롬프트를 모션 레이턴트로 변환하며, 이전 패스에서 계속하기 위해 prev_samples를 수용할 수 있습니다. 패스가 생성하는 프레임 수를 정의하는 length와 새로운 모션 에너지가 도입되는 정도를 제어하는 motion_latent_count를 사용하십시오. prev_samples를 제공하여 패스를 연결하는 것이 Stable Video Infinity가 팝업 없이 긴 시퀀스를 구축할 수 있게 하는 것입니다.
KSamplerAdvanced (#276)
각 패스는 HighNoise 샘플러와 LowNoise 샘플러를 짝지어 먼저 탐색하고 세부 사항을 통합합니다. 워크플로우는 steps와 2차 분할 컨트롤을 노출하여 패스 예산이 두 샘플러 간에 어떻게 나누어지는지를 결정할 수 있습니다. 패스 간 일관성을 유지하여 핸드오프 시 깜박임을 방지하십시오.
ImageBatchExtendWithOverlap (#168)
이 유틸리티는 이전 패스의 꼬리 프레임과 새로운 패스의 머리를 소량 블렌딩합니다. overlap을 조정하고 모드를 부드러운 블렌드로 유지하여 솔기를 숨기면서 모션 방향을 보존하십시오. 이는 Stable Video Infinity 세그먼트가 하나의 연속된 테이크처럼 느껴지게 하는 핵심입니다.
VHS_VideoCombine (#319)
디코딩된 프레임을 MP4로 조립하여 미리보기와 최종 렌더링을 모두 제공합니다. 배달 대상 및 파일 크기에 맞게 frame_rate, format, 및 crf를 조정하십시오. 미리보기를 최종 출력과 구분하기 위해 고유한 filename_prefix 값을 사용하십시오.
LoraLoaderModelOnly (#141, #142)
Stable Video Infinity 2.0 LoRA 변형을 Wan 2.2 UNet 쌍에 적용합니다. strength_model 컨트롤은 LoRA가 모션과 일관성을 얼마나 강하게 조정하는지를 미세 조정할 수 있습니다. HIGH와 LOW 분기를 정렬하여 두 샘플러가 프롬프트를 유사하게 해석하도록 하십시오.
선택적 추가 사항
- 다섯 개의 프롬프트 전반에 걸쳐 주제 설명자를 일관되게 유지하고 동사나 카메라 큐만 변경하여 정체성을 보존하십시오.
- 모션이 너무 소극적으로 느껴지면 프롬프트를 급격히 다시 작성하기보다는 다음 패스에서
motion_latent_count를 약간 높이십시오. - 패스 간 세부 사항이 흔들리면 HighNoise의
steps비율을 줄이거나 두 분기의 LoRA 강도를 균일하게 낮추십시오. - 빠른 액션에는 짧은 중첩을, 느리고 미묘한 장면에는 긴 중첩을 사용하여 솔기 숨기기와 실행 시간 간 균형을 맞추십시오.
- 빠른 컷다운을 위해, Pass 1 및 Pass 3 미리보기만 렌더링하여 전체 실행에 앞서 정체성과 모션을 검증하십시오.
감사의 말
이 워크플로우는 다음 작업 및 리소스를 구현하고 확장합니다. Stable-Video-Infinity v2.0 (SVI 2.0)에 대한 공헌 및 유지보수에 대해 Kijai에게 깊은 감사를 표합니다. 권위 있는 세부 사항은 아래에 링크된 원본 문서 및 저장소를 참조하십시오.
리소스
- Kijai/Stable-Video-Infinity v2.0 (SVI 2.0)
- Hugging Face: SVI 2.0 Source
참고: 참조된 모델, 데이터셋 및 코드의 사용은 해당 저자 및 유지보수자가 제공한 각각의 라이선스 및 조건에 따릅니다.

