Bernini 다중 모드 비디오 생성 및 편집 워크플로우#
이 Bernini 다중 모드 비디오 생성 및 편집 워크플로우는 ComfyUI를 위한 정체성 인식, 참조 기반 비디오 편집 및 비디오-비디오 변환을 위한 턴키 파이프라인입니다. 소스 비디오, 하나 이상의 참조 이미지 및 집중된 프롬프트를 결합하여 모션과 카메라 동작을 보존하면서 주제를 교체하거나 스타일을 변경합니다. 이 워크플로우는 Bernini의 고-저 확산 백본을 Wan 스타일 텍스트 인코딩, Bernini 호환 VAE, LightX2V LoRAs 및 Bernini 전용 조건과 쌍으로 결합하여 프레임 간 일관된 결과를 제공합니다.
ComfyUI 내에서 Bernini를 평가하는 창작자와 연구자를 위해 설계된 이 워크플로우는 캐릭터 교체, 모션 보존 편집, 모방 및 카메라 인식 짧은 형식 생성에 탁월합니다. 편집된 MP4와 선택적인 비교를 함께 내보내어 프롬프트와 참조 세트의 영향을 쉽게 검토할 수 있습니다. 이 README 전체에서 Bernini 다중 모드 비디오 생성 및 편집 워크플로우라는 용어는 이 종단 간 그래프를 의미합니다.
ComfyUI의 Bernini 다중 모드 비디오 생성 및 편집 워크플로우의 주요 모델#
- ByteDance Bernini 확산 모델 패밀리 (HIGH 및 LOW 백본). 두 단계 일정에서 사용되는 핵심 디노이징 네트워크를 제공합니다: HIGH 모델은 더 강한 노이즈 아래에서 구조를 처리하고, LOW 모델은 세부 사항과 시간적 일관성을 세부 조정합니다. 참조 가중치 및 메모는 모델 허브를 참조하십시오: ByteDance/Bernini.
- Wan 텍스트 인코더 (umT5-XXL). Bernini를 위한 조건으로 지시를 변환하는 Wan 스타일의 T5 인코더로, ComfyUI에서 CLIP 호환 인터페이스를 통해 노출됩니다. ComfyUI에 적합한 자산은 여기에서 사용할 수 있습니다: Kijai/WanVideo_comfy_fp8_scaled.
- Wan 2.1 VAE. 디노이즈된 잠재를 비디오 프레임으로 변환하여 Wan/Bernini 훈련과 맞는 색 충실도를 수행합니다. ComfyUI 준비된 VAE는 동일한 자산 팩에 포함되어 있습니다: Kijai/WanVideo_comfy_fp8_scaled.
- LightX2V LoRA 쌍 (high_noise 및 low_noise). 프레임 간 참조 정체성을 보존하면서 Bernini를 안정적인 모션으로 유도하는 경량 어댑터입니다. 제공된 FP8 LoRA 가중치는 이 워크플로우에서 사용되는 두 단계 샘플링과 일치하며 위의 Bernini 자산과 함께 패키지로 제공됩니다: Kijai/WanVideo_comfy_fp8_scaled.
ComfyUI의 Bernini 다중 모드 비디오 생성 및 편집 워크플로우 사용 방법#
이 워크플로우는 네 개의 조정 그룹으로 구성되어 있습니다. 소스 비디오와 하나 이상의 참조 이미지를 제공하고 지시 텍스트를 구성한 후 Execution 그룹이 두 단계의 Bernini 패스를 실행하여 프레임으로 디코드하고 출력 비디오를 조립합니다. 병렬 유틸리티는 LLM 지원 프롬프트 작성을 위한 시스템 및 사용자 프롬프트를 생성할 수 있습니다.
사용자 입력#
VHS_LoadVideo (#90)를 사용하여 소스 비디오를 로드하십시오. 이 노드는 클립을 읽고 메타데이터를 노출하여 최종 렌더가 원래 프레임 속도를 상속하도록 하여 모션 느낌을 보존하는 데 도움이 됩니다. LoadImage (#31)를 사용하여 하나 이상의 정체성 참조를 추가하십시오; 정면의 잘 조명된 중립적인 표정이 가장 효과적입니다. Width (#109) 및 Height (#110)를 사용하여 대상 크기를 설정하고, 이상적으로는 소스 종횡비와 일치시켜 늘어남을 피하십시오. CLIPTextEncode (#4)에 의해 기본 부정 프롬프트가 인코딩되어 저품질 비디오에서 일반적인 아티팩트를 억제합니다; 필요에 따라 수정할 수 있습니다.
프롬프트 처리#
지시가 참조 정체성과 정확히 일치하기를 원한다면, 그래프는 로컬 LLM을 사용하여 참조 이미지에서 정적 특성을 요약할 수 있습니다. llama_cpp_model_loader (#93) 및 llama_cpp_instruct_adv (#92)는 BatchImagesNode (#74)에 의해 배치된 이미지를 분석하고 머리카락, 나이, 의복과 같은 불변 속성의 간결한 설명을 반환합니다. 이 설명은 JjkText (#104)에서 제공하는 작업 지시와 TextConcatenate (#102)를 통해 연결됩니다. 결과는 CLIPTextEncode (#3)로 흘러 들어가 Bernini의 긍정적 조건이 됩니다. 미리보기 노드는 구성된 텍스트를 보여주어 무거운 단계를 실행하기 전에 빠르게 반복할 수 있습니다.
프롬프트 향상#
BerniniPromptEnhancer (#60)는 선택된 작업 유형과 입력에 맞춘 구조화된 “시스템” 및 “사용자” 프롬프트를 생성합니다. 강력한 지시를 얻기 위해 실행하여 LLM에 붙여넣어 더 풍부한 프롬프트 확장을 얻을 수 있습니다; 설계상 메인 그래프에 연결되지 않습니다. 이 유틸리티는 Bernini 커스텀 노드 팩에서 제공됩니다: ComfyUI-RH-Bernini. Bernini의 조건과 잘 작동하는 언어를 표준화하기 위한 사전 작성 도구로 취급하십시오.
실행#
핵심 경로는 Bernini의 HIGH 및 LOW UNets를 로드하고 각 단계에 LightX2V LoRAs를 부착하는 것으로 시작합니다. BerniniConditioning (#34)는 긍정적 및 부정적 인코딩, VAE, 소스 비디오 프레임 및 참조 이미지를 결합하여 Bernini 전용 조건과 해상도 및 프레임 수에 맞춘 초기 잠재를 구축합니다. BasicScheduler (#18)는 디노이징 일정을 생성한 후 SplitSigmas (#17)가 그것을 HIGH 및 LOW 범위로 나눕니다. HIGH 샘플러 SamplerCustom (#19)는 더 강한 노이즈 아래에서 구조와 정체성을 확립하고, LOW 샘플러 SamplerCustom (#15)로 잠재를 전달하여 세부 사항과 시간적 폴리시를 제공합니다. KSamplerSelect (#27)는 샘플러 알고리즘을 선택하고, VAEDecode (#16)는 최종 잠재를 프레임으로 변환하며, VHS_VideoCombine (#87)는 소스 프레임 속도를 상속하는 MP4를 렌더링합니다. 병행하여, ImageConcanate (#97)와 두 번째 VHS_VideoCombine (#96)은 빠른 품질 검사를 위한 비교 렌더를 생성합니다. 비디오 I/O 및 조립은 Video Helper Suite에 의해 제공됩니다: ComfyUI-VideoHelperSuite.
ComfyUI의 Bernini 다중 모드 비디오 생성 및 편집 워크플로우의 주요 노드#
BerniniConditioning (#34) 텍스트 인코딩, VAE, 소스 비디오 및 참조 이미지를 결합하여 Bernini 고유의 조건을 구축합니다. 또한 시작 잠재 볼륨을 준비하고 공간적 및 시간적 크기를 처리합니다. 대상 해상도에 맞추기 위해 width와 height를 조정하고 생성되는 프레임 수를 제어하기 위해 length를 사용하십시오. 이미지에서 참조 주제가 작다면, 모델이 정체성 세부 사항을 더 잘 인식할 수 있도록 ref_max_size를 증가시키십시오. 이 노드는 Bernini 커스텀 팩의 일부입니다: ComfyUI-RH-Bernini.
LoraLoaderModelOnly (#11) HIGH 백본에 LightX2V high_noise LoRA를 적용합니다. strength_model을 높이면 구조적 단계에서 참조에 대한 준수도가 증가하여 주제의 실루엣이나 거친 특징이 소스 비디오와 일치하지 않을 때 유용합니다. 편집이 너무 경직되거나 자연스러운 모션을 억제하면 낮추십시오. LOW 단계 LoRA와 함께 사용하여 충실도와 유동성을 균형 있게 유지하십시오.
LoraLoaderModelOnly (#29) LOW 백본에 LightX2V low_noise LoRA를 적용합니다. 이 LoRA는 HIGH 단계에서 설정된 모션을 유지하면서 머리카락, 피부 및 의복과 같은 질감을 세부 조정합니다. 프레임 간 정체성 세부 사항이 이동하면 강도를 약간 증가시키십시오; 질감이 과도하게 선명해지거나 과적합된 것처럼 보이면 줄이십시오. HIGH 단계 LoRA와 함께 보완적인 쌍을 형성합니다.
SplitSigmas (#17) 디노이징 일정을 HIGH 및 LOW 범위로 나눕니다. 분할을 일찍 이동하면 원본 비디오의 더 많은 부분을 유지하는 부드러운 편집을 제공하며, 나중에 이동하면 HIGH 단계에 더 많은 영향을 주어 강력한 교체를 허용합니다. 프롬프트를 변경하거나 LoRA 강도를 조정할 때 분할을 조정하여 두 단계가 균형을 유지하도록 하십시오. 이 컨트롤은 특히 카메라 고정, 모션 보존 편집에 유용합니다.
KSamplerSelect (#27) 두 디노이징 단계에서 사용되는 샘플러 알고리즘을 선택합니다. 일부 샘플러는 안정성과 시간적 부드러움을 선호하고, 다른 샘플러는 세부 사항이나 속도를 강조합니다. 깜박임이 보이면 일관성으로 알려진 샘플러를 사용해 보십시오; 추가 선명도가 필요하면 더 많은 변화를 주입하는 알고리즘을 시도해 보십시오. 두 단계 모두에서 동일한 선택을 유지하여 예측 가능한 동작을 유지하십시오.
VHS_VideoCombine (#87) VHS_VideoInfo에서 보고된 프레임 속도를 상속하여 디코딩된 프레임을 최종 MP4로 인코딩합니다. 파일 이름 컨트롤을 사용하여 실행을 조직하고 설정을 감사할 계획이라면 메타데이터 저장을 활성화하십시오. 두 번째 인스턴스 (#96)는 빠른 시각적 비교를 위한 비교 렌더를 출력합니다. ComfyUI-VideoHelperSuite에 의해 제공됩니다.
선택적 추가 기능#
- 정체성이 중요한 작업의 경우, 일관된 머리카락, 조명 및 표정을 보여주는 고품질 참조 이미지를 두세 장 제공하십시오. 배치 입력을 사용하여 함께 피드하십시오.
- 대상 종횡비를 소스 비디오에 가깝게 유지하십시오. 큰 불일치는 얼굴을 늘리고 모션을 불안정하게 만들 수 있습니다.
- 배경이나 카메라가 이동하는 경우, 카메라 위치와 장면을 고정하는 지시의 언어를 강화하고 간결한 부정 프롬프트로 보강하십시오.
- LoRA 강도나 시그마 분할을 조정할 때 측면 비교 내보내기를 사용하십시오. 차이를 명확하게 보여주어 반복 시간을 단축합니다.
- 더 빠른 실험을 위해 로드하는 프레임 수를 제한한 다음, 정체성 일치 및 모션 품질에 만족하면 규모를 확장하십시오.
이 Bernini 다중 모드 비디오 생성 및 편집 워크플로우는 안전하게 편집할 수 있도록 설계되었습니다: 기본값으로 시작하고 지시 및 참조에서 반복한 다음, 주제 및 장면에 맞게 LoRA 강도 및 시그마 분할을 미세 조정하십시오.
감사의 말씀#
이 워크플로우는 다음 작업 및 리소스를 구현하고 기반으로 합니다. 우리는 Bernini를 위해 ByteDance, ComfyUI-RH-Bernini를 위해 RH-RunningHub, ComfyUI-VideoHelperSuite를 위해 Kosinkadink에게 그들의 기여와 유지 보수에 대해 감사드립니다. 권위 있는 세부 사항은 아래에 링크된 원본 문서 및 저장소를 참조하십시오.
리소스#
- RunningHub/Bernini Multimodal Video Generation and Editing (ComfyUI Workflow)
- 문서 / 릴리스 노트: RunningHub 워크플로우 참조
- RunComfy/Cloud Save workflow
- 문서 / 릴리스 노트: RunComfy Cloud Save 워크플로우
- ByteDance/Bernini-R
- GitHub: bytedance/Bernini
- Hugging Face: ByteDance/Bernini-R
- arXiv: arXiv:2605.22344
- 문서 / 릴리스 노트: ByteDance Bernini 모델 소스
- Kijai/WanVideo_comfy_fp8_scaled (Bernini assets)
- Hugging Face: Kijai/WanVideo_comfy_fp8_scaled
- 문서 / 릴리스 노트: Kijai Bernini ComfyUI fp8 모델 자산
- RH-RunningHub/ComfyUI-RH-Bernini
- GitHub: RH-RunningHub/ComfyUI-RH-Bernini
- 문서 / 릴리스 노트: RunComfy Bernini 커스텀 노드
- Kosinkadink/ComfyUI-VideoHelperSuite
- GitHub: Kosinkadink/ComfyUI-VideoHelperSuite
- 문서 / 릴리스 노트: ComfyUI Video Helper Suite
참고: 참조된 모델, 데이터 세트 및 코드의 사용은 해당 저자 및 유지 관리자가 제공하는 각 라이센스 및 조건에 따릅니다.




