ComfyUI>워크플로우>LTX 2.3 Sulphur 2 텍스트를 비디오로 변환하는 워크플로우 | 시네마틱 생성기

LTX 2.3 Sulphur 2 텍스트를 비디오로 변환하는 워크플로우 | 시네마틱 생성기

Workflow Name: RunComfy/LTX-2.3-Sulphur-2
Workflow ID: 0000...1430
LTX 2.3 Sulphur 2 설정을 통해 텍스트 프롬프트를 시네마틱 캐릭터 애니메이션으로 변환할 수 있으며, 동기화된 오디오와 모션을 제공합니다. LTXV 조건 및 Sulphur 2 모델링을 통합하여 부드러운 인간의 움직임과 세밀한 시각적 렌더링을 제공합니다. 사용자는 단편 영화 컨셉, 애니메이션 테스트 또는 스토리텔링 프로토타입을 위한 고품질 결과를 얻을 수 있습니다. 이 워크플로우는 텍스트, 오디오 및 잠재 비디오 디코딩을 결합하여 원활한 엔드 투 엔드 제작을 제공합니다. 이는 빠르고 통제 가능하며 표현력 있는 비디오 생성이 필요한 창작자에게 적합합니다.

ComfyUI LTX 2.3 Sulphur 2 text to video workflow 워크플로우

LTX 2.3 Sulphur 2 text to video workflow in ComfyUI | Cinematic Animation
이 워크플로우를 실행하고 싶으신가요?
  • 완전히 작동 가능한 워크플로우
  • 누락된 노드 또는 모델 없음
  • 수동 설정 불필요
  • 멋진 시각 효과 제공

ComfyUI LTX 2.3 Sulphur 2 text to video workflow 예제

LTX 2.3 Sulphur 2 텍스트를 비디오로 변환하는 워크플로우 for 시네마틱 캐릭터 애니메이션#

이 ComfyUI 파이프라인은 자연어 프롬프트를 시네마틱하고 캐릭터 중심의 짧은 비디오로 변환하며, 선택적인 오디오를 포함합니다. 이는 Lightricks LTX-2.3 및 Sulphur 2 구성 요소를 기반으로 구축되었습니다. 저해상도로 모션 계획을 위한 생성을 설정하고, 잠재 시퀀스를 업스케일한 후 고해상도로 정제하여 프레임으로 디코딩하고 동기화된 오디오 트랙을 믹싱합니다.

LTX 2.3 Sulphur 2 텍스트를 비디오로 변환하는 워크플로우는 빠른 캐릭터 애니메이션 테스트, D-Human 스타일 모션 컨셉 및 정교한 텍스트-비디오 실험에 이상적입니다. 이미지-비디오 입력이나 프롬프트 릴레이에 의존하지 않으며, 모든 것이 텍스트에서 시작하여 LTXV 조건이 비디오와 오디오 잠재를 엔드 투 엔드로 안내합니다.

Comfyui LTX 2.3 Sulphur 2 텍스트를 비디오로 변환하는 워크플로우의 주요 모델#

  • Lightricks LTX-2.3. 시공간 합성 및 다중 모달 AV 잠재물을 위한 핵심 텍스트-비디오 생성기입니다. 공식 모델 저장소에서 가중치 및 기능과 제한에 대한 노트를 확인하세요. Hugging Face: Lightricks/LTX-2.3
  • Lightricks LTX-2.3 FP8 체크포인트. 추론 속도를 높이고 제한된 GPU에서 더 긴 클립이나 높은 해상도를 가능하게 하는 메모리 효율적인 LTX-2.3 변형입니다. Hugging Face: Lightricks/LTX-2.3-fp8
  • Sulphur 2 기본 모델. 이 워크플로우에서 스타일 사전과 캐릭터 디테일을 제공하며, 선명한 얼굴과 시네마틱 톤을 달성하는 데 도움을 줍니다. Hugging Face: SulphurAI/Sulphur-2-base
  • LTX-2.3 Spatial Upscaler x2 1.1. 고해상도 정제 전 공간 디테일을 증가시키는 잠재 공간 업스케일러입니다. Hugging Face: Lightricks/LTX-2.3 file ltx-2.3-spatial-upscaler-x2-1.1.safetensors
  • LTX 텍스트 인코더 (Gemma 3 12B IT LTX에 패키지됨). LTX-2.3 조건에 맞춘 텍스트 임베딩 공간을 제공하여 프롬프트를 충실히 따릅니다. Hugging Face: Comfy-Org/ltx-2
  • LTX Audio VAE. 비디오와 함께 생성된 오디오 잠재를 디코딩하여 최종 렌더링에 동기화된 사운드트랙을 포함할 수 있습니다. Hugging Face: Lightricks/LTX-2.3

Comfyui LTX 2.3 Sulphur 2 텍스트를 비디오로 변환하는 워크플로우 사용법#

전체 논리 파이프라인은 세 가지 단계로 실행됩니다: 모션 및 구성을 설정하기 위한 저해상도 생성, 공간 디테일을 증가시키기 위한 잠재 업스케일링, 최종 오디오도 산출하는 고해상도 정제 패스. 잠재물은 프레임과 웨이브폼으로 디코딩된 후, MP4 컨테이너로 믹싱됩니다.

비디오 설정 “Video Settings” 그룹을 사용하여 너비, 높이, 프레임 레이트 및 지속 시간을 정의합니다. 프레임 수는 지속 시간과 fps에서 자동으로 계산되어 타이밍과 리듬이 일관되게 유지됩니다. 이러한 값은 잠재 할당 및 디코딩을 주도하므로 대상 화면 비율 및 실행 시간에 맞추어 먼저 설정하십시오. 여기에서 fps를 조정하면 모션 부드러움과 오디오 정렬이 동일한 시계를 사용하도록 조건화됩니다.

프롬프트 “Prompt”에서 LTXAVTextEncoderLoader (#316)로 LTX 텍스트 인코더를 로드한 후, CLIPTextEncode (#303)에서 긍정적 설명을 작성하고 CLIPTextEncode (#312)에서 원치 않는 특성을 작성하십시오. 노드 LTXVConditioning (#304)은 긍정적 및 부정적 조건을 병합하고 선택한 프레임 레이트를 추가하여 시간적 안내가 fps와 일치하도록 합니다. 긍정적 프롬프트를 샷 브리핑처럼 취급하세요: 주제, 카메라, 조명, 분위기 및 스타일 큐. 부정적 목록은 자주 발생하고 제거하고 싶은 아티팩트에 집중하세요.

모델 “Model” 그룹은 CheckpointLoaderSimple (#315)을 통해 주요 체크포인트를 로드하고 LoraLoaderModelOnly (#285)로 Sulphur 2 LoRA를 적용하여 시네마틱 텍스처와 캐릭터 충실도를 주입합니다. 이는 전반적인 외관과 모션 사전을 변경하기 위해 체크포인트나 LoRA를 교체할 수 있는 곳입니다. 모델 출력은 초기 및 정제 가이드에 모두 라우팅되어 스타일과 정체성이 패스를 넘어서도 일관되게 유지됩니다. LTX-2.3과 Sulphur 2의 조합은 강력한 대비와 잘 읽히는 모션에서 선명한 얼굴을 제공합니다.

숫자 변환 유틸리티 표현식은 fps와 초를 다운스트림에서 사용되는 정수 프레임 수로 변환합니다. 이렇게 하면 오디오 및 비디오 타임라인이 수동 수학 없이 정렬된 상태를 유지합니다. 나중에 fps나 지속 시간을 수정하면 그래프가 종속 노드를 자동으로 업데이트합니다.

빈 잠재 “Empty Latent”는 생성을 위한 정렬된 컨테이너를 생성합니다: EmptyLTXVLatentVideo (#295)는 비디오 잠재의 공간 크기와 길이를 정의하고, LTXVEmptyLatentAudio (#305)는 동일한 프레임 레이트로 오디오 잠재를 할당하며, LTXVConcatAVLatent (#321)는 이를 단일 AV 잠재로 병합합니다. 빈 잠재로 시작하면 확산 패스가 기존 콘텐츠보다는 프롬프트와 조건을 완전히 반영합니다.

저해상도 생성 첫 번째 샘플링 단계는 낮은 비용으로 모션과 구성을 설정합니다. CFGGuider (#313), KSamplerSelect (#291), ManualSigmas (#306)는 프롬프트가 생성을 얼마나 강력하게 유도하는지와 전체 노이즈 스케줄을 관리합니다. SamplerCustomAdvanced (#283)는 그런 다음 AV 잠재를 일관된 클립으로 디노이즈합니다. 결과는 LTXVSeparateAVLatent (#307)에 의해 분할되고, LTXVCropGuides (#284)는 나중에 업스케일링 동안 원하는 주제 프레이밍을 유지하도록 공간 주의를 정제합니다.

잠재 업스케일 LTXVLatentUpsampler (#287)는 LTX-2.3 x2 업스케일러를 사용하여 잠재 공간에서 속도와 안정성을 유지하면서 공간 디테일을 높입니다. 업스케일된 비디오 잠재를 피드포워드하면 고해상도 정제 전 텍스처와 가독성을 개선합니다. 첫 번째 패스에서 좋아했던 모션을 유지하면서도 더 선명한 가장자리와 풍부한 재료를 위한 헤드룸을 열어줍니다.

고해상도 생성 업스케일된 비디오 잠재는 LTXVConcatAVLatent (#278)에서 오디오 잠재와 다시 결합되어 최종 품질을 위해 안내됩니다. CFGGuider (#282), KSamplerSelect (#280), ManualSigmas (#281)는 프롬프트 강도, 세부 사항 및 시간적 일관성에 대해 마지막 언급을 하며, SamplerCustomAdvanced (#308)는 정제된 AV 잠재를 생성합니다. LTXVSeparateAVLatent (#309)는 비디오를 VAEDecodeTiled (#314)에 전달하여 메모리 친화적인 프레임 디코딩을 수행하고, 오디오는 LTXVAudioVAEDecode (#297)에 전달하여 웨이브폼을 재구성합니다. CreateVideo (#310)는 대상 fps로 프레임과 오디오를 믹싱하고, SaveVideo (#75)는 MP4/H.264 파일을 작성합니다.

이미지 전처리 이 영역은 기본 VAE 및 업스케일러 모델을 라우팅하여 타일링 및 잠재 업스케일링이 VRAM 예산 내에서 작동하도록 합니다. 메모리 압박을 경험하면 FP8 LTX-2.3 가중치를 선호하고 타일 디코딩을 활성화하여 처리량과 품질을 유지하십시오.

Comfyui LTX 2.3 Sulphur 2 텍스트를 비디오로 변환하는 워크플로우의 주요 노드#

LTXVConditioning (#304) 긍정적 및 부정적 텍스트 조건을 병합하고 작업 중인 프레임 레이트를 부착하여 시간적 안내가 렌더와 일치하도록 합니다. 강력하고 구체적인 장면 언어는 샷 구조를 개선하며, 간결한 부정적 요소는 아티팩트를 줄입니다. LTX-2.3 모델 카드에서 조건에 대한 노트를 참조하세요. Hugging Face: Lightricks/LTX-2.3

LTXVCropGuides (#284) 구성을 부드럽게 조정하여 주제를 의도한 대로 프레임에 유지합니다. 업스케일링 및 정제 전에 얼굴 크기, 수평선 배치 또는 중심 주제를 보호하는 데 사용하십시오. 대화 스타일 샷과 중간 클로즈업에 특히 유용합니다.

CFGGuider (#313, #282) 두 패스 모두에서 프롬프트가 확산 궤적에 미치는 영향을 얼마나 강력하게 제어할지 결정합니다. 첫 번째 가이더를 사용하여 모션과 스테이징을 고정한 다음, 두 번째 가이더를 사용하여 선명도를 추가하되 설정된 샷에서 멀어지지 않도록 합니다.

ManualSigmas (#306, #281) 노이즈 스케줄을 정의합니다. 더 많은 노이즈를 앞쪽에 로드하면 더 큰 모션 탐색을 장려하며, 더 부드러운 스케줄은 시간적 일관성을 강조합니다. 저해상도 및 고해상도 스케줄을 보완적이면서도 동일하지 않게 유지하십시오.

LTXVLatentUpsampler (#287) 공식 LTX 업스케일러를 사용하여 x2 잠재 업스케일링을 수행하여 정제 샘플러 전에 디테일을 얻습니다. 다른 LTX-2.3 업스케일러 변형으로 교체하면 선명도와 그레인이 약간 변경될 수 있습니다. Hugging Face: Lightricks/LTX-2.3

VAEDecodeTiled (#314) 긴 또는 큰 클립을 관리 가능한 타일로 디코딩하여 VRAM 스파이크를 피합니다. 공간 크기나 클립 길이를 변경하면 메모리 여유 공간과 디코딩 속도를 균형 있게 조정하십시오.

LoraLoaderModelOnly (#285) 기본 모델 경로에 Sulphur 2 LoRA를 적용하여 캐릭터 충실도와 스타일 큐가 두 샘플링 단계로 전송되도록 합니다. 동일한 LTX-2.3 백본을 유지하면서 빠르게 외관을 전환하는 데 사용하십시오. Hugging Face: SulphurAI/Sulphur-2-base

선택적 추가 항목#

  • 시드 제어: 두 RandomNoise 노드에서 고정 값을 설정하여 테이크가 재현 가능하도록 하십시오; 하나의 시드를 변경하여 대안을 탐색하십시오.
  • 프롬프트: 프롬프트를 샷 지시로 작성하십시오 (주제, 카메라, 조명, 분위기). 부정적 목록은 집중적이고 짧게 유지하십시오.
  • 성능: VRAM이 제한된 경우, FP8 LTX-2.3 가중치를 선호하고 타일 디코딩을 활성화하십시오.
  • 출력: 그래프는 MP4/H.264를 작성합니다; ProRes 프록시 워크플로우가 필요한 경우 SaveVideo에서 컨테이너 또는 코덱을 변경하십시오.

이 LTX 2.3 Sulphur 2 텍스트를 비디오로 변환하는 워크플로우는 동기화된 오디오와 함께 프롬프트에서 정제된 비디오로의 깔끔한 엔드 투 엔드 경로를 제공하며, 시네마틱 캐릭터 애니메이션의 빠른 반복을 위해 설계되었습니다.

감사의 말씀#

이 워크플로우는 다음 작품 및 리소스를 구현하고 기반으로 합니다. 우리는 Sulphur2 비디오 제작 기본 워크플로우를 제공한 RunningHub, Sulphur-2-base 모델을 제공한 SulphurAI, LTX-2.3 및 LTX-2.3-fp8 모델을 제공한 Lightricks, LTX-2 텍스트 인코더를 제공한 Comfy-Org에 그들의 기여와 유지 보수에 대해 감사드립니다. 권위 있는 세부 사항은 아래에 링크된 원본 문서 및 저장소를 참조하십시오.

리소스#

Note: Use of the referenced models, datasets, and code is subject to the respective licenses and terms provided by their authors and maintainers.

RunComfy
저작권 2026 RunComfy. All Rights Reserved.

RunComfy는 최고의 ComfyUI 플랫폼으로서 ComfyUI 온라인 환경과 서비스를 제공하며 ComfyUI 워크플로우 멋진 비주얼을 제공합니다. RunComfy는 또한 제공합니다 AI Models, 예술가들이 최신 AI 도구를 활용하여 놀라운 예술을 창조할 수 있도록 지원합니다.