LongCat Video Avatar 1.5 Single Character ComfyUI#
이 워크플로우는 단일 참조 이미지와 음성 트랙을 립 싱크된 수직 말하는 아바타로 변환합니다. LongCat-Avatar-15와 WanVideoWrapper 사용자 정의 노드를 기반으로 구축되어, Whisper를 사용하여 음성 신호를 추출하고, Wan 2.1 VAE를 사용하여 잠재 인코딩/디코딩을 수행하며, 디스틸된 LongCat LoRA를 사용하여 정체성을 유지합니다. 결과물은 캐릭터의 외모와 입 모양이 동기화된 MP4 초상화 비디오입니다.
LongCat Video Avatar 1.5 Single Character ComfyUI 워크플로우는 RunComfy 준비가 완료된 템플릿을 원하는 제작자에게 이상적입니다. 명확한 입력과 재현 가능한 출력을 제공합니다. 하나의 얼굴 이미지와 하나의 오디오 클립을 제공하고 몇 가지 스타일 프롬프트를 조정하여 추가 연결 없이 일관된 아바타 비디오를 렌더링할 수 있습니다.
Comfyui LongCat Video Avatar 1.5 Single Character ComfyUI 워크플로우의 주요 모델#
- LongCat-Avatar-15 (distilled) 및 LongCat Avatar LoRA: ComfyUI에 맞게 적응된 정체성을 보존하는 비디오 생성 가중치. 커뮤니티 팩에 제공되어 아바타가 말할 때 외모를 유지합니다. Model files
- Wan 2.1 VAE: 참조 프레임을 잠재로 인코딩하고 최종 프레임을 이미지로 디코딩하는 비디오 지향 변이 오토인코더. 동일한 커뮤니티 팩에 포함되어 있습니다. Model files
- OpenAI Whisper large v3: 입 모양과 타이밍을 정확하게 립 싱크하도록 구동하는 음성 표현. Model card
- Google UMT5‑XXL text encoder: 긍정/부정 프롬프트를 동작과 포즈 뉘앙스에 대한 조건화로 변환합니다. Model card
Comfyui LongCat Video Avatar 1.5 Single Character ComfyUI 워크플로우 사용 방법#
그래프는 입력에서 비디오로의 명확한 경로를 따릅니다: 자산 로드, 오디오 임베딩 계산, 텍스트 가이드 준비, 외모 인코딩, 프레임 샘플링, 그런 다음 오디오와 저장을 믹스합니다.
참조 이미지#
LoadImage (#26)에 단일, 정면 초상화를 로드합니다. 이미지는 ImageResizeKJv2 (#25)에 의해 수직 9:16 캔버스로 정규화되어 캐릭터가 왜곡 없이 프레임을 채웁니다. 최상의 정체성 보존을 위해 깨끗하고 균일하게 조명이 비치는 얼굴을 사용하십시오. 소스가 폭이 높이보다 넓은 경우 머리와 어깨를 중심으로 자릅니다.
음성 오디오#
LoadAudio (#5)에 오디오 파일을 드롭합니다. 필요한 경우 TrimAudioDuration (#29)으로 클립하여 최종 비디오 길이가 목표와 일치하도록 합니다. 작은 수학 유틸리티 (Evaluate Floats (#39))는 선택한 초를 초당 프레임 수로 곱하여 총 프레임 수를 자동으로 설정합니다. 지속 시간을 제어하는 빠른 방법은 렌더링 전에 초 또는 FPS를 조정하는 것입니다.
음성 임베딩 (립 싱크)#
LongCatAvatarWhisperEmbeds (#3)는 Whisper를 실행하여 음소, 멈춤, 강조를 인코딩하는 MultiTalk 임베딩을 생성합니다. 이 임베딩은 입 모양과 미세한 머리 움직임의 타이밍 백본입니다. 여기의 총 프레임과 FPS가 내보내기 설정과 일치하도록 하십시오. 녹음 수준이 다양할 때는 음량 정상화를 선택적으로 활성화합니다.
텍스트 가이드#
LoadWanVideoT5TextEncoder (#16) 및 WanVideoTextEncode (#15)는 긍정적이고 부정적인 프롬프트를 조건화로 변환합니다. 긍정적 프롬프트를 사용하여 원하는 자연스러운 행동 (차분한 머리 회전, 미세한 고개 끄덕임)을 설명하고, 부정적 프롬프트는 피해야 할 아티팩트 (딱딱한 움직임, 변형된 손)에 사용합니다. 텍스트 가이드는 캐릭터의 정체성을 변경하지 않고 움직임 스타일을 조정합니다.
외모 인코딩#
WanVideoVAELoader (#19) 및 WanVideoEncode (#24)는 초상화를 잠재로 변환합니다. WanVideoLongCatAvatarExtendEmbeds (#6)는 참조 잠재와 오디오 임베딩을 융합하여 프레임 간 정체성이 안정적으로 유지되면서 입이 말에 따라 움직입니다. 오디오가 클립보다 짧은 경우, 노드는 타이밍이 부드럽게 유지되도록 패딩 또는 루프를 지능적으로 수행할 수 있습니다.
아바타 모델 로드#
WanVideoLoraSelect (#27)는 디스틸된 LongCat Avatar LoRA를 기본 LongCat‑Avatar‑15 모델에 부착하며, 모두 WanVideoModelLoader (#8)에 의해 로드됩니다. 이 쌍은 얼굴 특성을 유지하면서 표현력 있는 말하기 동작을 가능하게 합니다. 내부 블록 교체 도우미는 공유 또는 제한된 GPU에서 VRAM 사용을 예측 가능하게 유지합니다.
프레임 샘플링#
WanVideoSchedulerv2 (#52)는 LongCat 디스틸에 맞춰 튜닝된 솔버 스케줄을 선택하고, WanVideoSamplerv2 (#51)는 잠재 비디오를 생성합니다. 재현 가능한 결과를 위해 시드를 설정하고 프롬프트에 대한 더 많은 또는 적은 준수를 원할 경우 안내 강도를 조정하십시오. 샘플러는 이미지, 텍스트 및 오디오 기반 이미지 임베딩을 함께 사용하여 입, 머리, 정체성이 일관되게 합니다.
MP4 디코딩 및 저장#
WanVideoDecode (#20)는 최종 잠재를 이미지로 다시 변환합니다. VHS_VideoCombine (#14)는 프레임과 오디오를 H.264 MP4로 병합하고 지정된 프레임 속도와 파일 이름 접두사를 사용합니다. 출력은 립 싱크와 스타일을 유지하면서 공유 준비가 완료된 수직 말하는 아바타 클립입니다.
Comfyui LongCat Video Avatar 1.5 Single Character ComfyUI 워크플로우의 주요 노드#
LongCatAvatarWhisperEmbeds (#3)#
Whisper에서 립 싱크 및 마이크로 타이밍을 구동하는 MultiTalk 오디오 임베딩을 생성합니다. 내보내기와의 비동기를 방지하려면 fps와 num_frames을 맞추십시오. 녹음 수준이 다양할 때는 음량 정상화를 활성화합니다. 이 노드는 WanVideoWrapper LongCat 통합에서 제공됩니다. Repo
WanVideoLongCatAvatarExtendEmbeds (#6)#
참조 잠재와 오디오 임베딩을 프레임 인식 이미지 임베딩으로 융합합니다. 음성이 목표 길이보다 짧으면 패딩 또는 루프 방법을 선택하여 움직임이 자연스럽게 유지됩니다. 오버랩 및 참조 프레임 설정은 긴 클립에서 슬라이스 간 정체성 안정성을 유지하는 데 도움이 됩니다. Repo
WanVideoModelLoader (#8)#
선택한 LongCat Avatar LoRA와 함께 LongCat‑Avatar‑15 기본 모델을 로드하여 정체성 충실도를 유지합니다. 제한된 하드웨어에서 실행할 때 포함된 VRAM 관리 및 블록 교체 옵션과 함께 사용하십시오. 스타일을 변경하려면 여기서 다른 LongCat 변형 또는 LoRA로 교체하십시오. Repo
WanVideoSamplerv2 (#51)#
모델, 스케줄러, 텍스트 및 이미지 임베딩에서 프레임을 합성하는 주요 생성기입니다. 프롬프트 준수를 더 강화하거나 느슨한 움직임을 원할 경우 분류기 자유 안내를 조정하십시오. 여러 렌더링 간 재현성을 유지하려면 시드를 고정하십시오. Repo
ImageResizeKJv2 (#25)#
아바타가 9:16 프레임을 채우도록 초상화 지향 캔버스를 준비합니다. 얼굴과 어깨 주위의 비율을 유지하여 신뢰할 수 있는 정체성 인코딩을 보장합니다. 인코더/디코더의 가분성을 맞추면 가장자리 아티팩트를 피할 수 있습니다.
VHS_VideoCombine (#14)#
선택한 프레임 속도 및 파일 이름 접두사로 프레임과 오디오를 단일 MP4로 믹스합니다. 메타데이터 저장을 활성화하여 반복 추적을 쉽게 만듭니다. 이 노드는 VideoHelperSuite의 일부입니다. Repo
선택적 추가 사항#
- 명확한 눈과 입을 가진 중립적이고 정면을 향한 사진을 사용하십시오; 무거운 폐색 및 극단적인 각도를 피하십시오.
- 오디오를 정리하십시오 (긴 침묵 제거, 배경 소음 감소) 더 안정적인 입 움직임을 위해.
- 긴밀한 립 싱크를 유지하려면 Whisper 임베딩 단계와 최종 내보내기 간 FPS를 일관되게 유지하십시오.
- 더 강한 정체성 보존을 위해 제공된 LongCat Avatar LoRA를 유지하십시오; 스타일 변경을 의도할 때만 LoRA를 교체하십시오. Model files
- 동일한 재렌더링 또는 단일 프롬프트 변경만 A/B 테스트할 때 고정된 시드를 설정하십시오.
- 낮은 VRAM에서 모델 로더의 블록 교체를 활성화하여 속도를 안정성으로 교환하십시오.
감사의 말#
이 워크플로우는 다음 작업과 리소스를 구현하고 구축합니다. 우리는 워크플로우 소스에 대해 RunningHub, LongCat Video Avatar 1.5에 대해 Meigen AI, LongCat-Video_comfy 모델 파일과 ComfyUI-WanVideoWrapper에 대해 Kijai에게 그들의 기여와 유지 관리에 대해 깊이 감사드립니다. 권위 있는 세부 사항은 아래에 연결된 원본 문서 및 저장소를 참조하십시오.
리소스#
- RunningHub/Workflow source
- Docs / Release Notes: RunningHub workflow source
- Meigen AI/LongCat Video Avatar 1.5 project page
- Docs / Release Notes: LongCat Video Avatar 1.5 project page
- Kijai/LongCat Video Comfy model files
- Hugging Face: Kijai/LongCat-Video_comfy
- Kijai/ComfyUI-WanVideoWrapper
- GitHub: kijai/ComfyUI-WanVideoWrapper
Note: 참조된 모델, 데이터 세트 및 코드의 사용은 작성자 및 유지 관리자가 제공한 해당 라이선스 및 조건에 따릅니다.
