ComfyUI용 LTX 2.3 이미지에서 비디오로
이 워크플로우는 단일 이미지 또는 순수 텍스트 프롬프트를 부드럽고 시네마틱한 AI 비디오로 변환하는 LTX 2.3 이미지에서 비디오로를 제공합니다. 높은 시각적 일관성, 강력한 장면 일관성, 세련된 모션을 원하는 크리에이터를 위해 설계되었습니다. RunComfy 또는 ComfyUI 환경에서 사용하여 프롬프트에 충실한 역동적이고 스타일리시한 결과를 생성하십시오.
그래프는 두 가지 창의적 모드를 지원합니다: 첫 번째 프레임을 시각적 앵커로 사용하는 이미지에서 비디오로, 또는 언어에 의해 전적으로 안내되는 텍스트에서 비디오로. 자동 프롬프트 향상, 더 선명한 세부 사항을 위한 잠재적 업스케일링, 그리고 최종 LTX 2.3 이미지에서 비디오로 렌더링이 게시 준비가 되도록 하는 선택적 오디오 디코딩을 포함하고 있습니다.
ComfyUI LTX 2.3 이미지에서 비디오로 워크플로우의 주요 모델
- Lightricks LTX 2.3 22B 비디오 모델. 텍스트와 선택적 이미지 가이드에서 시간적으로 일관된 모션과 비주얼을 합성하는 핵심 비디오 확산 변환기입니다. 모델 파일과 문서는 Hugging Face에서, 코드 수준 참조는 GitHub에서 이용할 수 있습니다.
- LTX Audio VAE. 모델의 오디오 잠재를 오디오 트랙으로 디코딩하여 프레임과 혼합하는 데 사용되는 오디오 변분 오토인코더입니다. LTX 2.3 릴리스와 함께 Hugging Face에서 배포됩니다.
- LTX 2.3 Spatial Upscaler x2. 최종 고해상도 샘플링 패스 전에 선명도와 공간 충실도를 개선하는 잠재적 공간 초고해상도 모델입니다. LTX 2.3 리포지토리에서 Hugging Face에서 제공됩니다.
- Gemma 3 12B Instruct 텍스트 인코더 및 LoRA. 비디오에 대한 프롬프트 이해와 표현을 개선하기 위해 여기서 사용되는 소형 인스트럭션 튜닝된 텍스트 인코더 및 LoRA입니다. 이 템플릿에서 사용되는 패키지 인코더와 LoRA 가중치는 Hugging Face에서 제공되는 Comfy-Org LTX-2 자산에 포함되어 있습니다.
ComfyUI LTX 2.3 이미지에서 비디오로 워크플로우 사용 방법
높은 수준에서, 프롬프트와 선택적 첫 번째 프레임이 인코딩되고, 저해상도 잠재적 비디오가 샘플링된 다음 잠재 공간에서 업스케일되고 고해상도로 정제됩니다. 결과는 프레임과 오디오로 디코딩된 후 최종 MP4로 구성됩니다. 실행 전에 언제든지 이미지에서 비디오로, 텍스트에서 비디오로 전환할 수 있습니다.
- 모델
- 이 그룹은 LTX 2.3 체크포인트, 오디오 VAE, 텍스트 인코더를 로드합니다. 또한 기본 모델에 LTX 2.3 LoRA를 적용하여 명령어를 더 잘 따르도록 합니다. 이들은 LTX 2.3 이미지에서 비디오로 파이프라인의 나머지를 구축하는 기초를 정의합니다. 모델 변형이나 LoRA 스타일을 교체하지 않는 한 여기서는 보통 아무것도 변경하지 않습니다.
- 프롬프트
- 장면 설명 및 선택적 부정적인 것을 입력하십시오. 텍스트는 긍정적 및 부정적 조건화 모두에 대해 인코딩되고, 선택한 프레임 속도와 함께 페어링되어 모션 계획이 타이밍과 일치하도록 합니다. 변화에 대해 설명하는 동사를 사용하여 언어를 시간 인식하게 유지하십시오. 예를 들어 "카메라가 앞으로 나아간다" 또는 "바람에 나뭇잎이 소용돌이친다"와 같이. 부정적 프롬프트는 워터마크나 만화 같은 단순화와 같은 원치 않는 아티팩트를 피하는 데 도움이 됩니다.
- 프롬프트 향상
- 그래프에는 이미지를 분석하고 텍스트를 분석한 후 더 강력하고 시간 인식적인 프롬프트 초안을 생성하는 도우미가 포함되어 있습니다. 이 초안을 채택하거나 편집하여 LTX 2.3 이미지에서 비디오로를 시네마틱하고 액션 중심의 설명으로 이끌기 쉽게 만듭니다. 단일 정지 이미지에서 시작할 때 특히 유용하며, 의도적으로 느껴지는 모션을 원할 때 특히 유용합니다. 미리보기 노드를 통해 생성 전 향상된 텍스트를 검사할 수 있습니다.
- 비디오 설정
- 이미지에서 비디오로 실행할지, 아니면 간단한 토글로 텍스트에서 비디오로 전환할지 선택하십시오. 대상 플랫폼에 맞게 너비, 높이, 지속 시간 및 프레임 속도를 설정하십시오. 이러한 설정은 잠재적 할당과 다운스트림 디코딩을 주도하므로 창의적 의도와 일치하도록 유지하십시오. 널리 게시할 계획이라면 코덱 친화적인 크기와 타이밍을 선호하십시오.
- 이미지 전처리
- 첫 번째 프레임은 구성을 유지하면서 모델 친화적인 비율로 크기 조정되고 표준화됩니다. 가벼운 프리필터는 모션 중 깜빡임을 유발할 수 있는 압축 노이즈를 줄이고 가장자리를 안정화하는 데 도움이 됩니다. 이미지가 레이아웃과 색상을 제안하는 데만 사용되더라도 이 단계는 중요합니다.
- 빈 잠재
- 워크플로우는 차원, 지속 시간 및 프레임 속도에 따라 빈 비디오 및 오디오 잠재를 할당합니다. 이는 샘플러를 위한 깨끗한 캔버스를 제공하며 오디오와 비디오가 길이 일치하도록 보장합니다. 재현 가능성을 원할 때는 결정론적으로 노이즈가 생성되고, 실행 간 변화를 위해 무작위화됩니다.
- 저해상도 생성
- 첫 번째 샘플링 패스는 모션과 구조를 컴팩트한 잠재적 비디오로 조각합니다. 이미지에서 비디오로를 사용하는 경우,
LTXVImgToVideoInplace(#249)는 첫 번째 프레임을 시각적 앵커로 주입하여 모션이 일관된 시작점에서 진화하도록 합니다. 긍정적 및 부정적 텍스트의 조건화는 콘텐츠와 스타일을 안내하며,ManualSigmas(#252) 및KSamplerSelect는 시간이 지나면서 노이즈가 얼마나 공격적으로 제거되는지를 정의합니다.LTXVCropGuides(#212)는 프롬프트에 맞는 구도를 유지하는 데 도움이 됩니다. 결과 오디오-비디오 잠재는 별도의 처리로 분할됩니다.
- 첫 번째 샘플링 패스는 모션과 구조를 컴팩트한 잠재적 비디오로 조각합니다. 이미지에서 비디오로를 사용하는 경우,
- 잠재적 업스케일
- 고해상도 정제를 시작하기 전에
LTXVLatentUpsampler(#253)가 x2 공간 업스케일러를 저해상도 잠재에 적용합니다. 잠재 공간에서 이를 수행하면 빠르고 학습된 모션을 유지하면서 세부 사항 용량을 높입니다. 이는 아티팩트를 도입하지 않고 선명도를 추가하는 안전한 방법입니다.
- 고해상도 정제를 시작하기 전에
- 고해상도 생성
- 두 번째 샘플러는 더 큰 공간 크기에서 업스케일된 잠재를 정제하여 텍스처, 조명 및 작은 모션을 고정합니다. 텍스트에서 비디오로 실행할 때는 이전 이미지에서 비디오로의 단계가 무시될 수 있으며,
LTXVImgToVideoInplace(#230)는 잠재를 단순히 통과시킵니다.VAEDecodeTiled(#251)는 그런 다음 비디오 잠재를 프레임으로 효율적으로 디코딩합니다. 병행하여, 오디오 잠재는 LTX Audio VAE로 디코딩되어 두 스트림이 프레임에 정확하게 맞춰집니다.
- 두 번째 샘플러는 더 큰 공간 크기에서 업스케일된 잠재를 정제하여 텍스처, 조명 및 작은 모션을 고정합니다. 텍스트에서 비디오로 실행할 때는 이전 이미지에서 비디오로의 단계가 무시될 수 있으며,
- 내보내기
CreateVideo(#242)는 프레임과 오디오를 선택한 프레임 속도로 단일 비디오로 혼합합니다. 최상위SaveVideo노드는 최종 파일을 ComfyUI 출력에 작성하여 즉시 다운로드할 수 있도록 합니다. 이제 LTX 2.3 이미지에서 비디오로의 렌더링이 미리보기 또는 게시 준비가 되었습니다.
ComfyUI LTX 2.3 이미지에서 비디오로 워크플로우의 주요 노드
LTXVImgToVideoInplace(#249 및 #230)- 정지를 비디오 잠재로 변환하거나 비활성화되었을 때 잠재를 통과시킵니다. 첫 번째 프레임이 레이아웃, 팔레트 및 캐릭터 배치를 정의하도록 하려면 사용하십시오. 프롬프트에서만 모션이 나오길 원한다면 텍스트에서 비디오로 스위치를 전환하십시오. 오퍼레이터 패밀리의 문서는 GitHub에서 유지 관리됩니다.
LTXVConditioning(#239)- 인코딩된 긍정적 및 부정적 텍스트를 프레임 속도와 결합하여 콘텐츠와 모션 템포를 조정하는 조건화를 생성합니다. 시간이 지남에 따라 변화에 대해 설명하는 짧고 명확한 문장을 선호하고, 아티팩트를 일관되게 보고 억제하려는 부정적 요소를 위해 부정적 요소를 남겨두십시오. 이 노드는 샘플러를 건드리지 않고 스타일과 장면 동작을 조정하는 가장 효과적인 장소입니다.
ManualSigmas(#252) 및KSamplerSelect- 노이즈 스케줄과 샘플러는 큰 모션과 세부 사항 사이의 균형을 맞춥니다. 초기 노이즈가 높을수록 더 넓은 움직임을 장려하고, 나중 단계에서는 텍스처를 통합합니다. 좋은 프롬프트와 이미지 가이던스를 갖춘 후에만 이를 조정하십시오. 기저 샘플링 제어는 표준 ComfyUI 의미를 따르며, 참조 구현은 LTX 리포지토리에서 GitHub에서 참조하십시오.
LTXVLatentUpsampler(#253)- 잠재 공간에서 LTX 2.3 공간 업스케일러를 적용하여 다음 단계에서 고해상도로 정제할 수 있습니다. 추가 선명도가 필요하거나 더 큰 포맷을 제공할 계획이라면 사용하십시오. x2 모델은 Hugging Face에서 LTX 2.3과 함께 배포됩니다.
VAEDecodeTiled(#251) 및CreateVideo(#242)- 타일링 디코딩은 고해상도에서 메모리 급증을 방지하고 일관된 프레임 품질을 보장합니다. 그런 다음
CreateVideo는 선택한 fps로 프레임과 디코딩된 오디오 트랙을 최종 MP4로 조립합니다. 재생 드리프트를 피하기 위해 조건화 중 사용된 값과 fps를 일치시키십시오.
- 타일링 디코딩은 고해상도에서 메모리 급증을 방지하고 일관된 프레임 품질을 보장합니다. 그런 다음
선택적 추가 기능
- 텍스트에서 비디오로를 사용할 때도 첫 번째 프레임 이미지를 업로드해야 합니다. 토글은 생성 중에 이를 무시하지만 UI는 자리 표시자 이미지를 필요로 합니다.
- LTX 2.3 이미지에서 비디오로의 프롬프트에서는 핵심 동작을 먼저, 그다음 시각적 구체성, 그다음 분위기를 선도하십시오. "천천히," "갑자기," "계속"과 같은 시간 단어는 모델이 모션을 계획하는 데 도움이 됩니다.
- "워터마크," "자막," "정지 프레임"과 같은 오버레이 및 UI 아티팩트를 피하기 위해 부정적 프롬프트를 사용하십시오.
- 스타일이 너무 강하게 보이거나 너무 약하게 보인다면 다른 LoRA를 시도하거나 LoRA 로더에서 가중치를 조정하십시오. 기본 모델의 외관에 의존하려면 LoRA를 제거할 수도 있습니다.
- 텍스트를 반복할 때는 고정된 노이즈 시드를 재사용하고, 샷을 잠근 후에는 변화를 위해 무작위화하십시오.
감사의 말
이 워크플로우는 다음 작업 및 리소스를 구현하고 기반으로 합니다. 우리는 Lightricks의 LTX-2.3과 EyeForAILabs의 EyeForAILabs YouTube Tutorial에 그들의 기여와 유지보수에 대해 감사드립니다. 권위 있는 세부 사항은 아래에 연결된 원본 문서 및 리포지토리를 참조하십시오.
리소스
- Lightricks/LTX-2.3
- GitHub: Lightricks/LTX-2
- Hugging Face: Lightricks/LTX-2.3
- arXiv: LTX-2: Efficient Joint Audio-Visual Foundation Model
- EyeForAILabs/YouTube Tutorial
- Docs / Release Notes: EyeForAILabs YouTube Tutorial
참고: 참조된 모델, 데이터 세트 및 코드의 사용은 해당 저자 및 유지보수자가 제공하는 라이선스 및 조건에 따릅니다.

