LTX 2.3 VBVR ComfyUI 워크플로우: 대화가 포함된 추론 인식 이미지-비디오 변환
이 워크플로우는 단일 참조 이미지를 텍스트와 선택적 음성에 의해 안내되는 일관된 비디오 시퀀스로 변환하며, LTX‑2.3 및 LTX 2.3 VBVR LoRA에 의해 구동됩니다. VBVR은 비디오 기반 시각적 추론을 의미하며, 모델이 프레임 전반에 걸쳐 정체성, 공간 관계, 인과관계를 일관되게 유지하도록 돕습니다. 그래프에는 음성 인식 프롬프트, 2단계 LTX 샘플링, 모션 스무딩, 최종 업스케일/MP4로 내보내기가 포함되어 있습니다.
내러티브 연속성, 믿을 수 있는 움직임, 대화 타이밍이 필요한 제작자는 LTX 2.3 VBVR 워크플로우를 특히 유용하게 여길 것입니다. 강력한 참조 프레임을 제공하고, 동작 및 상호작용을 설명하며, 자동으로 전사되어 프롬프트에 삽입되는 음성 대사를 선택적으로 추가할 수 있습니다.
Comfyui LTX 2.3 VBVR 워크플로우의 주요 모델
- Lightricks의 LTX‑2.3 22B 비디오 생성 모델은 이미지-비디오 및 오디오 조건부 디코딩을 위한 주요 확산 백본입니다. Hugging Face: Lightricks/LTX-2.3
- 비디오 잠재 인코딩/디코딩을 위한 LTX‑2.3 Video VAE는 효율적인 타일 디코딩을 위해 기본 체크포인트와 함께 사용됩니다. Hugging Face: Lightricks/LTX-2.3
- 첫 번째 패스 후 공간 디테일을 향상시키기 위한 LTX‑2.3 Spatial Upscaler x2 잠재 모델. Hugging Face: Lightricks/LTX-2.3
- 복잡한 지시 및 대화 토큰을 파싱하기 위해 LTX‑2에 패키지된 Gemma 3 12B 텍스트 인코더. Hugging Face: Comfy-Org/ltx-2
- 시간 전반에 걸쳐 추론 중심의 장면 구조, 객체 상호작용 및 연속성을 위한 LTX 2.3 VBVR LoRA. Hugging Face: LiconStudio/Ltx2.3-VBVR-lora-I2V
- 생성된 프레임 간의 모션을 부드럽게 하기 위한 RIFE 프레임-보간 모델. GitHub: hzwer/Practical-RIFE
- 선택적 오디오-텍스트 프롬프트 주입을 위한 Whisper 음성 인식 모델. GitHub: openai/whisper
Comfyui LTX 2.3 VBVR 워크플로우 사용 방법
그래프는 명확한 그룹으로 구성되어 있습니다. 입력, 모델 스택 및 비디오 설정을 구성한 다음 LTX 샘플러가 프레임을 생성하고, 선택적으로 보간 및 업스케일하여 내보내기 전에 처리합니다.
이미지 참조 로드
Load Image (Input) (#5525)을 사용하여 강력하고 스타일에 맞는 참조 프레임을 선택합니다. 이미지는 ImageResizeKJv2 (#5280)에 의해 선택한 너비와 높이로 크기가 조정되며 구성을 유지합니다. 미리보기 노드는 모델이 실제로 볼 수 있는 내용을 확인합니다. 명확한 주제와 조명이 있는 좋은 참조 이미지는 LTX 2.3 VBVR 스택에 정체성과 스타일에 대한 신뢰할 수 있는 앵커를 제공합니다.
비디오 설정
Width (Input) (#5284), Height (Input) (#5286), Seconds (Input) (#5573) 및 기본 Frame Rate (#5289)를 설정합니다. 그래프는 프레임 수를 자동으로 계산하여 지속 시간이나 fps를 변경할 때 타이밍이 일관되도록 합니다. 나중에 보간을 활성화할 계획이라면, 시간을 절약하고 RIFE로 부드러움을 추가하도록 기본 fps를 적당히 선택할 수 있습니다. 이러한 설정은 모션과 속도가 일관되도록 조건부 노드에도 정보를 제공합니다.
모델
CheckpointLoaderSimple (#5493)은 LTX‑2.3을 로드합니다. 그래프는 LoraLoaderModelOnly (#5616)를 통해 LTX 2.3 VBVR LoRA를 연결할 수 있으며, 추가적인 충실도를 위해 증류된 LoRA 및 디테일러 LoRA를 선택적으로 적용할 수 있습니다. LTXAVTextEncoderLoader (#5494)는 Gemma 기반 텍스트 인코더를 가져오고, VAELoader (#5629) 및 LTXVAudioVAELoader (#5492)는 비디오 및 오디오 VAE를 제공합니다. 두 개의 ReservedVRAMSetter 노드는 메모리 사용을 균형 있게 조정하여 긴 실행이 안정적으로 유지되도록 합니다.
비디오 텍스트 프롬프트
Text Prompt (Input) (#5620)에 장면을 작성합니다. 오디오와 정렬된 대화를 삽입하려면 다음과 같은 자리 표시자를 포함하십시오: The woman says "<Transcript1>". 실제 대사를 Speech Line (Input) (#5524)에 입력하거나 Whisper가 오디오에서 생성하게 하십시오; StringReplace (#5226) 및 JoinStringMulti (#5602)가 <Transcript1>을 전사로 교체합니다. 그런 다음 TextGenerateLTX2Prompt (#5488)가 정제된 지시를 작성하고, Enhanced Prompt (Positive) (#5174)가 인코딩한 후 LTXVConditioning (#5173)가 최종 가이드를 준비합니다. 명확한 동사, 주제 참조 및 공간 신호가 LTX 2.3 VBVR LoRA가 시간에 걸쳐 추론할 수 있는 컨텍스트를 제공합니다.
오디오 전처리
Load Audio (Input) (#5590)를 사용하여 음성 트랙을 가져오거나 TTS를 연결하십시오. AudioAdjustVolume (#5601)은 레벨을 정규화합니다. 프롬프트 인식 대화를 원하면 Whisper를 통해 Load Whisper (mtb) (#5606) 및 Audio To Text (mtb) (#5607)를 사용하여 프롬프트에 사용되는 전사를 생성하십시오. 동일한 오디오는 또한 잠재적으로 인코딩되며 나중에 최종 비디오에 다시 혼합되어 입술과 타이밍 신호가 생성에 영향을 미칠 수 있습니다.
LTX 샘플링
LTXVPreprocess (#5240) 및 LTXVImgToVideoInplace (#5245)는 참조 프레임을 초기 잠재 시퀀스로 변환하여 핵심 정체성을 유지하면서도 모션을 허용합니다. Samplers 서브그래프 (#5278)는 CFG 가이드 및 스케줄러와 함께 2단계 프로세스를 실행하여 프롬프트와 LTX 2.3 VBVR 추론 LoRA를 존중하는 시공간 잠재를 생성합니다. 오디오 잠재는 비디오 잠재와 연결되어 있어 음성 타이밍이 모션에 영향을 줄 수 있습니다. LTXVSpatioTemporalTiledVAEDecode (#5237)는 프레임을 디코딩하고, LTXVAudioVAEDecode (#5103)는 오디오 트랙을 복원합니다.
프레임 보간 및 업스케일
RIFE VFI (#5554)는 프레임 간을 보간하여 더 부드러운 모션을 생성하고 기본 fps와 결합하여 목표 재생 속도에 도달합니다. RTXVideoSuperResolution (#5631)은 세부 사항을 향상시키고 압축 아티팩트를 줄여 얼굴, 가장자리 및 작은 소품의 가독성을 개선합니다. 속도와 품질을 균형 있게 조정하려면 이 단계를 사용하십시오: 부드러움을 위해 보간하고, 선명함을 위해 업스케일하십시오.
내보내기
간단한 혼합을 위해 CreateVideo (#5599)를 선택하거나 형식, 메타데이터 및 트리밍에 대한 더 많은 제어를 위해 VHS_VideoCombine (#5618)를 선택하십시오. 파이프라인은 SaveVideo (#5597)를 통해 H.264 MP4를 작성합니다. 프레임 속도는 설정과 보간 단계에서 유도되어 재생이 처음에 작성한 모션 의도와 일치합니다.
Comfyui LTX 2.3 VBVR 워크플로우의 주요 노드
LoraLoaderModelOnly (#5616)
논리적 연속성, 객체 상호작용 및 카메라 인식 모션을 개선하는 LTX 2.3 VBVR LoRA를 로드합니다. LoRA의 가중치를 조정하여 기본 모델 및 기타 LoRA에서 스타일과의 추론 영향을 균형 있게 조정합니다. 이 노드는 LTX 2.3 VBVR 워크플로우를 정의하는 독특한 외관과 일관성의 중심입니다. LTX 노드 및 LoRA 사용에 대한 자세한 내용은 Lightricks/ComfyUI-LTXVideo 및 위의 VBVR LoRA 카드를 참조하십시오.
TextGenerateLTX2Prompt (#5488)
기본 설명, 이미지 참조 및 <Transcript1>에서 교체된 대화 토큰을 병합하여 최종 긍정적 프롬프트를 조립합니다. 지시를 간결하고 명확하게 유지하며 주제와 행동에 대해 일관성을 유지하여 모델이 시간에 걸쳐 추론할 수 있도록 합니다. 이곳에서 LTX 2.3 VBVR LoRA가 샘플링 중에 강화할 의도를 인코딩합니다.
LTXVConditioning (#5173)
긍정적 및 부정적 조건을 패키지화하고 타이밍 정보를 전달하여 모션과 속도가 fps 선택에 맞게 조정되도록 합니다. 설정에서 프레임 속도를 변경하면 여기에 업데이트하여 모션 역학이 일관되도록 유지합니다. 강력한 부정적 조건은 정지 프레임, 워터마크 또는 원치 않는 오버레이가 시퀀스에 침투하는 것을 방지하는 데 도움이 됩니다.
Samplers (#5278)
2단계 샘플러 블록은 이미지 및 오디오 잠재를 일관된 비디오로 변환하기 위해 노이즈, 가이드 및 스케줄링을 조정합니다. 가장 영향력 있는 조정은 총 steps, 초기 I2V 단계의 image strength, 및 재현성을 위한 noise_seed입니다. 참조 프레임에 대한 충실도와 새로운 모션 및 행동을 따르려는 의지 사이의 균형을 신중하게 조정하십시오.
RIFE VFI (#5554)
프레임을 보간하여 더 부드러운 모션을 만들거나 시퀀스를 다시 생성하지 않고 더 높은 효과적인 fps에 도달합니다. 기본 fps가 낮거나 모션이 끊어져 보일 때 보간을 늘리고; 생성 리듬을 유지하려면 줄입니다. 이 모델은 고품질 VFI에 널리 사용됩니다; RIFE 프로젝트는 GitHub에서 확인하십시오.
선택적 추가 기능
- LTX 2.3 VBVR로 대화 속임수: 예를 들어 The woman says "<Transcript1>"와 같은 자리 표시자를 사용하여 자연스러운 문장을 작성한 다음, Speech Line에 대사를 제공하거나 Whisper가 오디오를 전사하여 프롬프트와 입술이 정렬되도록 하십시오.
- 추론을 위한 프롬프트: 누가 무엇을, 어디서, 왜 하는지를 명확히 하십시오. 일관된 주제 이름 및 그런 다음, 동안, 카메라가 움직이는 동안과 같은 시간 신호를 사용하여 VBVR의 강점을 활용하십시오.
- 더 빠른 반복: 더 짧은 지속 시간 또는 낮은 기본 fps로 시작하여 모션 박자를 확인한 다음 보간 또는 초를 늘려 마무리하십시오.
- 안정성 팁: 정체성 드리프트가 보이면 이미지-비디오 강도를 약간 낮추거나 VBVR LoRA 가중치를 높이십시오; 과제약이 보이면 반대로하십시오.
감사의 말
이 워크플로우는 다음 작업 및 리소스를 구현하고 이를 기반으로 구축합니다. 우리는 그들의 기여와 유지에 대해 @Benji’s AI Playground의 2.3 VBVR Workflow Source에 감사를 표합니다. 권위 있는 세부 사항은 아래에 연결된 원본 문서 및 저장소를 참조하십시오.
리소스
- LTX/2.3 VBVR Workflow Source
- 문서 / 릴리스 노트: LTX 2.3 VBVR Workflow Source @Benji’s AI Playground
참고: 참조된 모델, 데이터 세트 및 코드의 사용은 저자 및 유지 관리자가 제공한 해당 라이센스 및 약관의 적용을 받습니다.


