daVinci-MagiHuman Workflow in ComfyUI | 오디오-비디오 인간 합성

ComfyUI daVinci-MagiHuman Workflow

daVinci-MagiHuman Workflow in ComfyUI | Audio-Video Human Synthesis

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

ComfyUI daVinci-MagiHuman Examples

daVinci-MagiHuman ComfyUI를 위한 디지털 인간 워크플로우#

이 ComfyUI 워크플로우는 daVinci-MagiHuman을 중심으로 전체 텍스트-비디오 파이프라인을 구축하여 동기화된 음성, 입 움직임, 표현 및 신체 미세 운동을 통해 현실적인 말하는 디지털 인간을 생성합니다. 설명 프롬프트에서 깨끗한 오디오와 함께 MP4까지 빠르고 클릭 한 번에 경로를 원하는 제작자를 위해 설계되었습니다. 그래프는 새로 생성된 초상화나 제공된 참조 이미지를 애니메이션화한 다음, 비디오와 음성을 함께 렌더링하고 선택적으로 업스케일링 및 자동 오디오 음량 정규화를 마무리합니다.

daVinci-MagiHuman 코어는 단일 스트림 Transformer를 사용하여 하나의 프롬프트에서 비디오와 오디오를 공동 생성하며, 이는 짧은 클립에서도 타이밍과 립싱크 충실도를 유지하는 데 도움이 됩니다. 이 ComfyUI 구현은 컨트롤을 간단하게 유지합니다: 이미지를 정의하는 이미지 프롬프트, 성능과 대화를 정의하는 비디오 프롬프트를 작성하고 클립 지속 시간을 설정한 후 실행합니다.

ComfyUI daVinci-MagiHuman 워크플로우의 주요 모델#

daVinci-MagiHuman (15B 단일 스트림 오디오-비디오 생성기). 역할: 텍스트에서 비디오 프레임과 음성을 공동으로 생성하면서 시간적 일관성과 립싱크를 유지합니다. 참조: GitHub, arXiv, Hugging Face.
T5Gemma 9B 인코더 (UL2-적응됨). 역할: 비디오 프롬프트를 daVinci-MagiHuman의 움직임, 전달 및 스타일을 조정하는 풍부한 조건으로 인코딩합니다. 참조: Hugging Face.
Z-Image Turbo 확산 모델. 역할: 애니메이션의 정체성/참조로 사용할 고품질 정지 초상화를 이미지 프롬프트에서 빠르게 생성합니다. 참조: Hugging Face (z_image_turbo), Hugging Face (z_image).
Qwen 3 4B 텍스트 인코더 for Z-Image Turbo. 역할: 초상화 생성을 안내하기 위해 이미지 프롬프트를 구문 분석합니다. 참조: Hugging Face file.
Wan 2.2 VAE. 역할: MagiHuman 비디오 잠재 변수를 강한 시간 일관성을 가진 RGB 프레임으로 디코딩합니다. 참조: GitHub, Hugging Face 예제 모델.
Audio VAE (sd_audio). 역할: MagiHuman 오디오 잠재 변수를 파형으로 디코딩하여 최종 비디오와 함께 혼합합니다. 참조: MagiHuman을 위한 맞춤형 노드 번들 GitHub.
RTX Video Super Resolution (선택 사항). 역할: 최종 인코딩 전에 디코딩된 프레임을 업스케일하여 인식된 선명도를 높이고 압축 아티팩트를 줄입니다. 참조: ComfyUI 래퍼 GitHub.

ComfyUI daVinci-MagiHuman 워크플로우 사용 방법#

전체 흐름: Z-Image Turbo 그룹은 이미지 프롬프트에서 정체성 초상화를 생성합니다. MagiHuman Models 그룹은 daVinci-MagiHuman 체크포인트, 비디오 VAE 및 오디오 VAE를 로드하고 텍스트 인코더를 준비합니다. 텍스트 프롬프트 그룹은 비디오 프롬프트를 조건으로 변환합니다. 샘플링 그룹은 참조 이미지와 프롬프트를 결합하여 공동 비디오 및 오디오 잠재 변수를 생성한 다음, 둘 다 디코딩합니다. 마지막으로, 출력 단계는 프레임을 오디오와 혼합하여 MP4로 저장하며, 선택적으로 업스케일된 버전도 제공합니다.

입력#

이미지 프롬프트 및 비디오 프롬프트 텍스트 상자를 사용하여 외관과 성능을 설명하세요. 지속 시간 컨트롤은 클립 길이를 초 단위로 설정합니다. 오디오 구동 변형을 실험할 계획이라면 편의를 위해 오디오 로더가 있지만, 이 템플릿은 기본적으로 텍스트 구동 모드로 실행됩니다.

ZImage Turbo#

이 단계에서는 Z-Image Turbo UNet과 Qwen 3 4B 텍스트 인코더와 번들로 제공되는 VAE를 사용하여 이미지 프롬프트에서 단일 참조 초상화를 렌더링합니다. 빠르고 깨끗한 정체성 생성과 시네마틱 외관을 위해 최적화되었습니다. 결과는 미리보기로 표시된 후 애니메이션을 위한 참조 이미지로 전달됩니다. 이미 헤드샷이 있는 경우, 애니메이션 단계에 이미지를 직접 연결하여 이 단계를 생략할 수 있습니다.

MagiHuman Models#

여기서 그래프는 daVinci-MagiHuman 기본 또는 증류 체크포인트와 Wan 2.2 비디오 VAE, 오디오 VAE 및 T5Gemma 인코더를 로드합니다. 이는 텍스트 인코딩, 비디오 잠재 변수 및 오디오 잠재 변수를 단일 스트림 샘플링을 위해 정렬합니다. 환경에서 사용할 수 있는 대체 가중치가 있는 경우 교체할 수 있습니다.

Text Prompt#

귀하의 비디오 프롬프트는 긍정적 및 부정적인 조건으로 인코딩됩니다. 긍정적인 텍스트는 카메라 거리, 포즈, 언어, 전달 스타일 및 정확한 대화 내용을 설명해야 합니다. 부정적인 텍스트는 피해야 할 시각적 또는 오디오 결함을 나열할 수 있습니다. 인코더는 모션, 입 동적 및 음색을 형성하기 위해 샘플러에 두 가지 조건 세트를 공급합니다.

Sampling#

샘플러는 참조 이미지와 요청된 지속 시간에서 초기 잠재 시퀀스를 구축한 다음, daVinci-MagiHuman을 사용하여 동기화된 비디오 및 오디오 잠재 변수를 생성합니다. 유틸리티는 지속 시간을 안정적인 스케줄링을 위해 전체 초로 변환합니다. 샘플링이 완료되면 비디오 잠재 변수는 비디오 디코더로, 오디오 잠재 변수는 오디오 디코더로 이동합니다.

디코딩, 음량 및 내보내기#

비디오 잠재 변수는 Wan 2.2 VAE로 이미지 프레임으로 디코딩됩니다. 오디오 잠재 변수는 음성으로 디코딩된 후 방송 친화적인 음량으로 정규화되어 최종 MP4가 장치 간에 일관되게 재생됩니다. 두 가지 내보내기가 생성됩니다: 기본 렌더링과 RTX Video Super Resolution을 사용한 선택적 업스케일드 렌더링. 둘 다 오디오와 함께 MP4로 혼합되어 명확한 파일명 접두사와 함께 저장됩니다.

ComfyUI daVinci-MagiHuman 워크플로우의 주요 노드#

MagiHuman_LATENTS (#13)

비디오 및 선택적 오디오를 위한 공동 잠재 캔버스를 구축하며, 참조 이미지와 클립 길이를 가져옵니다. seconds를 조정하여 지속 시간을 설정하고 참조 이미지가 설명한 움직임에 잘 맞도록 잘 프레임되어 있는지 확인하세요. 기본 해상도가 높을수록 얼굴 충실도가 향상되지만 VRAM과 디코딩 시간이 증가합니다.

MagiHuman_SM_ENCODER (#95)

비디오 프롬프트를 샘플러를 위한 긍정적 및 부정적 조건으로 인코딩합니다. 정확한 음성을 따옴표로 묶어 입력하고 언어를 지정하여 입을 닫는 시간과 타이밍을 개선하세요. 부정적 필드에는 "자막", "정적", "방 에코"와 같은 아티팩트를 억제하기 위해 사용하세요.

MagiHuman_SM_KSampler (#9)

daVinci-MagiHuman 디노이징을 실행하여 비디오 및 음성 잠재 변수를 공동 생성합니다. seed는 재현성을 제어하며, steps와 내부 스케줄은 속도와 디테일 및 모션 안정성을 교환합니다. 정체성을 잃지 않고 변화를 원할 경우, seed를 변경하거나 프롬프트의 성능 부분을 약간 재구성하세요.

MagiHuman_EN_DECO_VIDEO (#5)

Wan 2.2 VAE로 비디오 잠재 변수를 RGB 프레임으로 디코딩하여 내보내기 또는 업스케일링을 위한 경로를 제공합니다. 가장 빠른 엔드 투 엔드 렌더링을 위해 이 경로를 사용하세요; 긴 클립이나 높은 해상도는 디코딩 시간을 선형적으로 증가시킵니다.

MagiHuman_DECO_AUDIO (#6)

오디오 잠재 변수를 파형으로 디코딩하고, 일관된 재생을 위해 음량 정규화를 거칩니다. 나중에 오디오 구동 생성으로 전환하려면 외부 오디오를 잠재 빌더에 연결하고 이 디코드 경로를 최종 혼합을 위해 유지하세요.

RTXVideoSuperResolution (#93)

가장자리 선명도를 높이고 울림을 줄이는 선택적 포스트 업스케일러입니다. 중간 강도로 사용하여 명확성을 개선하면서 시간적 깜박임을 도입하지 않도록 하세요.

선택적 추가 기능#

신뢰할 수 있는 립싱크를 위한 프롬프트 패턴: 화자 태그와 언어 및 인용된 대사를 포함하세요, 예를 들어 대화: <발표자, 영어>: "프로그램에 오신 것을 환영합니다." 전달, 샷 크기 및 카메라 안정성에 대한 간단한 설명을 추가하세요.
참조 초상화는 중간 근접 촬영으로 머리가 프레임 내부에 완전히 들어가도록 유지하세요. 타이트한 크롭은 턱과 뺨의 역동성을 위한 공간이 거의 남지 않습니다.
더 엄격한 타이밍이 필요한 경우, 선택한 지속 시간에 맞춰 스크립트를 다듬거나 확장하세요. 매우 짧은 클립에서 매우 긴 문장은 부자연스러운 발음을 강요할 수 있습니다.
이 템플릿은 프롬프트 전용 모드에서 실행됩니다. 오디오 구동 테스트를 위해서는 외부 오디오 파일을 MagiHuman_LATENTS (#13) 오디오 입력에 연결하고, 비디오 프롬프트를 표현보다는 말하는 내용으로 설명하도록 조정하세요.

감사의 말#

이 워크플로우는 다음 작업 및 리소스를 구현하고 기반으로 합니다. 우리는 daVinci-MagiHuman의 daVinci-MagiHuman 워크플로우 소스에 그들의 기여와 유지보수에 대해 감사드립니다. 권위 있는 세부 사항을 위해, 아래 링크된 원본 문서 및 저장소를 참조하십시오.

리소스#

daVinci-MagiHuman/워크플로우 소스
- 문서 / 릴리스 노트: daVinci-MagiHuman 워크플로우 소스

참고: 참조된 모델, 데이터 세트 및 코드의 사용은 해당 작성자 및 유지보수자가 제공한 라이선스 및 조건에 따릅니다.

Want More ComfyUI Workflows?

LTX 2.3 ID-LoRA | 말하는 아바타 생성기

음성과 시각이 동기화된 생생한 말하는 아바타를 만듭니다.

DreamID-Omni | 사진을 대화 비디오로 만드는 도구

사진을 몇 초 만에 초현실적인 대화 비디오로 변환합니다.

InfiniteTalk | 립싱크 아바타 생성기

사진 + 음성 = 몇 분 만에 완벽하게 동기화된 말하는 아바타

Sonic | 립싱크 초상화 애니메이션

Sonic은 고품질 애니메이션으로 초상화를 위한 고급 오디오 기반 립싱크를 제공합니다.

SeedVR2 V2.5 | AI 비디오 업스케일링 워크플로

비디오를 빠르게 업스케일하여 선명하고 부드러우며 영화 같은 결과를 얻으세요.

IDM-VTON | 가상 착용

의류 세부 사항과 스타일을 포착하여 현실적인 결과를 만드는 가상 착용.

무엇이든 삽입하기 | 참조 기반 이미지 편집

마스크 또는 텍스트 가이드를 사용하여 이미지에 원하는 주제를 삽입하세요.

HiDream-I1 | T2I

17B 파라미터 모델을 사용한 고품질 이미지 생성.

팔로우하기

지원

리소스

법적 고지

RunComfy

RunComfy는 최고의 ComfyUI 플랫폼으로서 ComfyUI 온라인 환경과 서비스를 제공하며 ComfyUI 워크플로우 멋진 비주얼을 제공합니다. RunComfy는 또한 제공합니다 AI Models, 예술가들이 최신 AI 도구를 활용하여 놀라운 예술을 창조할 수 있도록 지원합니다.

daVinci-MagiHuman | 현실적인 말하는 인간 생성기