Bernini Multimodal Video Generation in ComfyUI

ComfyUI Bernini multimodal video generation and editing workflow Workflow

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

ComfyUI Bernini multimodal video generation and editing workflow Examples

Bernini 다중 모드 비디오 생성 및 편집 워크플로우#

이 Bernini 다중 모드 비디오 생성 및 편집 워크플로우는 ComfyUI를 위한 정체성 인식, 참조 기반 비디오 편집 및 비디오-비디오 변환을 위한 턴키 파이프라인입니다. 소스 비디오, 하나 이상의 참조 이미지 및 집중된 프롬프트를 결합하여 모션과 카메라 동작을 보존하면서 주제를 교체하거나 스타일을 변경합니다. 이 워크플로우는 Bernini의 고-저 확산 백본을 Wan 스타일 텍스트 인코딩, Bernini 호환 VAE, LightX2V LoRAs 및 Bernini 전용 조건과 쌍으로 결합하여 프레임 간 일관된 결과를 제공합니다.

ComfyUI 내에서 Bernini를 평가하는 창작자와 연구자를 위해 설계된 이 워크플로우는 캐릭터 교체, 모션 보존 편집, 모방 및 카메라 인식 짧은 형식 생성에 탁월합니다. 편집된 MP4와 선택적인 비교를 함께 내보내어 프롬프트와 참조 세트의 영향을 쉽게 검토할 수 있습니다. 이 README 전체에서 Bernini 다중 모드 비디오 생성 및 편집 워크플로우라는 용어는 이 종단 간 그래프를 의미합니다.

ComfyUI의 Bernini 다중 모드 비디오 생성 및 편집 워크플로우의 주요 모델#

ByteDance Bernini 확산 모델 패밀리 (HIGH 및 LOW 백본). 두 단계 일정에서 사용되는 핵심 디노이징 네트워크를 제공합니다: HIGH 모델은 더 강한 노이즈 아래에서 구조를 처리하고, LOW 모델은 세부 사항과 시간적 일관성을 세부 조정합니다. 참조 가중치 및 메모는 모델 허브를 참조하십시오: ByteDance/Bernini.
Wan 텍스트 인코더 (umT5-XXL). Bernini를 위한 조건으로 지시를 변환하는 Wan 스타일의 T5 인코더로, ComfyUI에서 CLIP 호환 인터페이스를 통해 노출됩니다. ComfyUI에 적합한 자산은 여기에서 사용할 수 있습니다: Kijai/WanVideo_comfy_fp8_scaled.
Wan 2.1 VAE. 디노이즈된 잠재를 비디오 프레임으로 변환하여 Wan/Bernini 훈련과 맞는 색 충실도를 수행합니다. ComfyUI 준비된 VAE는 동일한 자산 팩에 포함되어 있습니다: Kijai/WanVideo_comfy_fp8_scaled.
LightX2V LoRA 쌍 (high_noise 및 low_noise). 프레임 간 참조 정체성을 보존하면서 Bernini를 안정적인 모션으로 유도하는 경량 어댑터입니다. 제공된 FP8 LoRA 가중치는 이 워크플로우에서 사용되는 두 단계 샘플링과 일치하며 위의 Bernini 자산과 함께 패키지로 제공됩니다: Kijai/WanVideo_comfy_fp8_scaled.

ComfyUI의 Bernini 다중 모드 비디오 생성 및 편집 워크플로우 사용 방법#

이 워크플로우는 네 개의 조정 그룹으로 구성되어 있습니다. 소스 비디오와 하나 이상의 참조 이미지를 제공하고 지시 텍스트를 구성한 후 Execution 그룹이 두 단계의 Bernini 패스를 실행하여 프레임으로 디코드하고 출력 비디오를 조립합니다. 병렬 유틸리티는 LLM 지원 프롬프트 작성을 위한 시스템 및 사용자 프롬프트를 생성할 수 있습니다.

사용자 입력#

VHS_LoadVideo (#90)를 사용하여 소스 비디오를 로드하십시오. 이 노드는 클립을 읽고 메타데이터를 노출하여 최종 렌더가 원래 프레임 속도를 상속하도록 하여 모션 느낌을 보존하는 데 도움이 됩니다. LoadImage (#31)를 사용하여 하나 이상의 정체성 참조를 추가하십시오; 정면의 잘 조명된 중립적인 표정이 가장 효과적입니다. Width (#109) 및 Height (#110)를 사용하여 대상 크기를 설정하고, 이상적으로는 소스 종횡비와 일치시켜 늘어남을 피하십시오. CLIPTextEncode (#4)에 의해 기본 부정 프롬프트가 인코딩되어 저품질 비디오에서 일반적인 아티팩트를 억제합니다; 필요에 따라 수정할 수 있습니다.

프롬프트 처리#

지시가 참조 정체성과 정확히 일치하기를 원한다면, 그래프는 로컬 LLM을 사용하여 참조 이미지에서 정적 특성을 요약할 수 있습니다. llama_cpp_model_loader (#93) 및 llama_cpp_instruct_adv (#92)는 BatchImagesNode (#74)에 의해 배치된 이미지를 분석하고 머리카락, 나이, 의복과 같은 불변 속성의 간결한 설명을 반환합니다. 이 설명은 JjkText (#104)에서 제공하는 작업 지시와 TextConcatenate (#102)를 통해 연결됩니다. 결과는 CLIPTextEncode (#3)로 흘러 들어가 Bernini의 긍정적 조건이 됩니다. 미리보기 노드는 구성된 텍스트를 보여주어 무거운 단계를 실행하기 전에 빠르게 반복할 수 있습니다.

프롬프트 향상#

BerniniPromptEnhancer (#60)는 선택된 작업 유형과 입력에 맞춘 구조화된 “시스템” 및 “사용자” 프롬프트를 생성합니다. 강력한 지시를 얻기 위해 실행하여 LLM에 붙여넣어 더 풍부한 프롬프트 확장을 얻을 수 있습니다; 설계상 메인 그래프에 연결되지 않습니다. 이 유틸리티는 Bernini 커스텀 노드 팩에서 제공됩니다: ComfyUI-RH-Bernini. Bernini의 조건과 잘 작동하는 언어를 표준화하기 위한 사전 작성 도구로 취급하십시오.

실행#

핵심 경로는 Bernini의 HIGH 및 LOW UNets를 로드하고 각 단계에 LightX2V LoRAs를 부착하는 것으로 시작합니다. BerniniConditioning (#34)는 긍정적 및 부정적 인코딩, VAE, 소스 비디오 프레임 및 참조 이미지를 결합하여 Bernini 전용 조건과 해상도 및 프레임 수에 맞춘 초기 잠재를 구축합니다. BasicScheduler (#18)는 디노이징 일정을 생성한 후 SplitSigmas (#17)가 그것을 HIGH 및 LOW 범위로 나눕니다. HIGH 샘플러 SamplerCustom (#19)는 더 강한 노이즈 아래에서 구조와 정체성을 확립하고, LOW 샘플러 SamplerCustom (#15)로 잠재를 전달하여 세부 사항과 시간적 폴리시를 제공합니다. KSamplerSelect (#27)는 샘플러 알고리즘을 선택하고, VAEDecode (#16)는 최종 잠재를 프레임으로 변환하며, VHS_VideoCombine (#87)는 소스 프레임 속도를 상속하는 MP4를 렌더링합니다. 병행하여, ImageConcanate (#97)와 두 번째 VHS_VideoCombine (#96)은 빠른 품질 검사를 위한 비교 렌더를 생성합니다. 비디오 I/O 및 조립은 Video Helper Suite에 의해 제공됩니다: ComfyUI-VideoHelperSuite.

ComfyUI의 Bernini 다중 모드 비디오 생성 및 편집 워크플로우의 주요 노드#

BerniniConditioning (#34) 텍스트 인코딩, VAE, 소스 비디오 및 참조 이미지를 결합하여 Bernini 고유의 조건을 구축합니다. 또한 시작 잠재 볼륨을 준비하고 공간적 및 시간적 크기를 처리합니다. 대상 해상도에 맞추기 위해 width와 height를 조정하고 생성되는 프레임 수를 제어하기 위해 length를 사용하십시오. 이미지에서 참조 주제가 작다면, 모델이 정체성 세부 사항을 더 잘 인식할 수 있도록 ref_max_size를 증가시키십시오. 이 노드는 Bernini 커스텀 팩의 일부입니다: ComfyUI-RH-Bernini.

LoraLoaderModelOnly (#11) HIGH 백본에 LightX2V high_noise LoRA를 적용합니다. strength_model을 높이면 구조적 단계에서 참조에 대한 준수도가 증가하여 주제의 실루엣이나 거친 특징이 소스 비디오와 일치하지 않을 때 유용합니다. 편집이 너무 경직되거나 자연스러운 모션을 억제하면 낮추십시오. LOW 단계 LoRA와 함께 사용하여 충실도와 유동성을 균형 있게 유지하십시오.

LoraLoaderModelOnly (#29) LOW 백본에 LightX2V low_noise LoRA를 적용합니다. 이 LoRA는 HIGH 단계에서 설정된 모션을 유지하면서 머리카락, 피부 및 의복과 같은 질감을 세부 조정합니다. 프레임 간 정체성 세부 사항이 이동하면 강도를 약간 증가시키십시오; 질감이 과도하게 선명해지거나 과적합된 것처럼 보이면 줄이십시오. HIGH 단계 LoRA와 함께 보완적인 쌍을 형성합니다.

SplitSigmas (#17) 디노이징 일정을 HIGH 및 LOW 범위로 나눕니다. 분할을 일찍 이동하면 원본 비디오의 더 많은 부분을 유지하는 부드러운 편집을 제공하며, 나중에 이동하면 HIGH 단계에 더 많은 영향을 주어 강력한 교체를 허용합니다. 프롬프트를 변경하거나 LoRA 강도를 조정할 때 분할을 조정하여 두 단계가 균형을 유지하도록 하십시오. 이 컨트롤은 특히 카메라 고정, 모션 보존 편집에 유용합니다.

KSamplerSelect (#27) 두 디노이징 단계에서 사용되는 샘플러 알고리즘을 선택합니다. 일부 샘플러는 안정성과 시간적 부드러움을 선호하고, 다른 샘플러는 세부 사항이나 속도를 강조합니다. 깜박임이 보이면 일관성으로 알려진 샘플러를 사용해 보십시오; 추가 선명도가 필요하면 더 많은 변화를 주입하는 알고리즘을 시도해 보십시오. 두 단계 모두에서 동일한 선택을 유지하여 예측 가능한 동작을 유지하십시오.

VHS_VideoCombine (#87) VHS_VideoInfo에서 보고된 프레임 속도를 상속하여 디코딩된 프레임을 최종 MP4로 인코딩합니다. 파일 이름 컨트롤을 사용하여 실행을 조직하고 설정을 감사할 계획이라면 메타데이터 저장을 활성화하십시오. 두 번째 인스턴스 (#96)는 빠른 시각적 비교를 위한 비교 렌더를 출력합니다. ComfyUI-VideoHelperSuite에 의해 제공됩니다.

선택적 추가 기능#

정체성이 중요한 작업의 경우, 일관된 머리카락, 조명 및 표정을 보여주는 고품질 참조 이미지를 두세 장 제공하십시오. 배치 입력을 사용하여 함께 피드하십시오.
대상 종횡비를 소스 비디오에 가깝게 유지하십시오. 큰 불일치는 얼굴을 늘리고 모션을 불안정하게 만들 수 있습니다.
배경이나 카메라가 이동하는 경우, 카메라 위치와 장면을 고정하는 지시의 언어를 강화하고 간결한 부정 프롬프트로 보강하십시오.
LoRA 강도나 시그마 분할을 조정할 때 측면 비교 내보내기를 사용하십시오. 차이를 명확하게 보여주어 반복 시간을 단축합니다.
더 빠른 실험을 위해 로드하는 프레임 수를 제한한 다음, 정체성 일치 및 모션 품질에 만족하면 규모를 확장하십시오.

이 Bernini 다중 모드 비디오 생성 및 편집 워크플로우는 안전하게 편집할 수 있도록 설계되었습니다: 기본값으로 시작하고 지시 및 참조에서 반복한 다음, 주제 및 장면에 맞게 LoRA 강도 및 시그마 분할을 미세 조정하십시오.

감사의 말씀#

이 워크플로우는 다음 작업 및 리소스를 구현하고 기반으로 합니다. 우리는 Bernini를 위해 ByteDance, ComfyUI-RH-Bernini를 위해 RH-RunningHub, ComfyUI-VideoHelperSuite를 위해 Kosinkadink에게 그들의 기여와 유지 보수에 대해 감사드립니다. 권위 있는 세부 사항은 아래에 링크된 원본 문서 및 저장소를 참조하십시오.

리소스#

RunningHub/Bernini Multimodal Video Generation and Editing (ComfyUI Workflow)
- 문서 / 릴리스 노트: RunningHub 워크플로우 참조
RunComfy/Cloud Save workflow
- 문서 / 릴리스 노트: RunComfy Cloud Save 워크플로우
ByteDance/Bernini-R
- GitHub: bytedance/Bernini
- Hugging Face: ByteDance/Bernini-R
- arXiv: arXiv:2605.22344
- 문서 / 릴리스 노트: ByteDance Bernini 모델 소스
Kijai/WanVideo_comfy_fp8_scaled (Bernini assets)
- Hugging Face: Kijai/WanVideo_comfy_fp8_scaled
- 문서 / 릴리스 노트: Kijai Bernini ComfyUI fp8 모델 자산
RH-RunningHub/ComfyUI-RH-Bernini
- GitHub: RH-RunningHub/ComfyUI-RH-Bernini
- 문서 / 릴리스 노트: RunComfy Bernini 커스텀 노드
Kosinkadink/ComfyUI-VideoHelperSuite
- GitHub: Kosinkadink/ComfyUI-VideoHelperSuite
- 문서 / 릴리스 노트: ComfyUI Video Helper Suite

참고: 참조된 모델, 데이터 세트 및 코드의 사용은 해당 저자 및 유지 관리자가 제공하는 각 라이센스 및 조건에 따릅니다.

Want More ComfyUI Workflows?

LTX 2.3 Outpainting | 원활한 비디오 프레임 확장

일관된 움직임과 시점으로 비디오 장면을 부드럽게 확장하세요.

Reallusion AI 렌더 | 3D에서 ComfyUI 워크플로우 컬렉션

ComfyUI + Reallusion = 3D 비주얼을 위한 속도, 접근성 및 용이성

LTX 2.3 ID-LoRA | 말하는 아바타 생성기

음성과 시각이 동기화된 생생한 말하는 아바타를 만듭니다.

Nunchaku Qwen Image | 다중 이미지 편집기

다음 수준의 제어로 여러 이미지를 혼합하고 스타일링하세요.

AnimateDiff + Batch Prompt Schedule | 텍스트에서 비디오로

AnimateDiff와 Batch Prompt schedule의 조합은 애니메이션 제작에서 내러티브와 시각적 요소에 대한 정밀한 제어를 제공합니다.

Instagirl v.20 | Wan 2.2 LoRA Demo

Instara의 Instagirl LoRA를 시연하기 위한 Wan 2.2 워크플로우입니다.

Flux Krea Dev | 자연 텍스트에서 이미지로

최고의 오픈 소스 FLUX 모델! 정말로 놀라운 자연스러운 결과.

Boogu Image Edit ComfyUI 워크플로우 | 스마트 사진 리라이트

스타일과 구조를 잃지 않고 사진을 스마트하게 편집하세요.

팔로우하기

지원

리소스

법적 고지

RunComfy

RunComfy는 최고의 ComfyUI 플랫폼으로서 ComfyUI 온라인 환경과 서비스를 제공하며 ComfyUI 워크플로우 멋진 비주얼을 제공합니다. RunComfy는 또한 제공합니다 AI Models, 예술가들이 최신 AI 도구를 활용하여 놀라운 예술을 창조할 수 있도록 지원합니다.

Bernini Video Edit Pro | Multimodal Generator