LTX-2.3-Video-Face-Swap no ComfyUI | Fluxo de Trabalho de Substituição de Rosto Realista

ComfyUI LTX-2.3-Video-Face-Swap Fluxo de Trabalho

LTX-2.3-Video-Face-Swap in ComfyUI | Realistic Face Replacement Workflow

Deseja executar este fluxo de trabalho?

Fluxos de trabalho totalmente operacionais
Sem nós ou modelos ausentes
Nenhuma configuração manual necessária
Apresenta visuais impressionantes

ComfyUI LTX-2.3-Video-Face-Swap Exemplos

LTX-2.3-Video-Face-Swap para ComfyUI#

Este fluxo de trabalho oferece substituição de rosto em vídeo de alta fidelidade e temporalmente estável usando a família LTX 2.3. Construído para RunComfy e ComfyUI, ele combina uma imagem guia de identidade com um vídeo-alvo e orientação de áudio opcional para preservar expressões, iluminação e movimento em todos os quadros. O resultado é uma troca realista, resistente a cintilações, que se mantém em close-ups e tomadas médias.

Criadores, artistas de VFX e cineastas de IA podem usar o LTX-2.3-Video-Face-Swap para manter controle criativo total: faça prompts manualmente ou gere prompts estruturados a partir das entradas, escolha entre as variantes dev, distilled, FP8 ou GGUF, e finalize com uma decodificação espaço-temporal e upscaling latente 2x opcional para detalhes nítidos.

Modelos chave no fluxo de trabalho Comfyui LTX-2.3-Video-Face-Swap#

LTX 2.3 22B Video Diffusion Transformer. Modelo central de geração e edição de vídeo que impulsiona a preservação de identidade e coerência temporal. Veja a família de modelos oficial em Lightricks/LTX-2.3.
LTX 2.3 Text Encoders. O gráfico emparelha o codificador de texto LTX 2.3 com um codificador de instruções Gemma 3 12B para melhorar o alinhamento de prompts para edição de vídeo. Exemplos de artefatos: ltx-2-3-22b-text_encoder.safetensors e gemma_3_12B_it.safetensors.
LTX 2.3 VAE e Audio VAE. Codificadores/decodificadores usados para comprimir e reconstruir quadros visuais e faixas de áudio enquanto preservam detalhes e sincronização. Veja Lightricks/LTX-2.3 VAE files e variantes de audio VAE no repositório dividido vantagewithai/LTX-2.3-Split.
LTX 2.3 Spatial Upscaler x2. Upscaler 2x em espaço latente que aumenta a fidelidade espacial antes da decodificação final, ideal para detalhes faciais. ltx-2.3-spatial-upscaler-x2-1.1.safetensors.
Head‑swap LoRA. Um LoRA adaptativo em rank especializado para transferência de identidade que melhora a semelhança e estabilidade ao conduzir a edição. Exemplo: head_swap_v3_rank_adaptive_fro_098.safetensors.
MelBandRoFormer. Modelo opcional de separação de fonte musical usado aqui para isolar vocais para uma orientação de movimento bucal mais forte. Kijai/MelBandRoFormer_comfy.
Variantes de implantação opcionais. Pesos FP8 apenas para transformadores para velocidade em GPUs suportadas Kijai/LTX2.3_comfy e construções leves UNet GGUF para CPU ou cenários de baixa VRAM vantagewithai/LTX-2.3-GGUF.

Como usar o fluxo de trabalho Comfyui LTX-2.3-Video-Face-Swap#

Este gráfico funciona em duas etapas. A primeira etapa realiza a troca principal na resolução latente nativa com orientação de áudio. A segunda etapa faz upsampling no espaço latente e refina a região do rosto antes de uma decodificação espaço-temporal e multiplexação final para vídeo.

Entradas#

Carregue sua imagem de identidade em Face Image (LoadImage (#255)). Use uma foto bem iluminada, frontal ou de três quartos para a extração de identidade mais confiável.
Carregue a filmagem-alvo em Reference Video (VHS_LoadVideo (#393)). Os quadros são normalizados e pré-visualizados via ResizeImagesByLongerEdge e Control Video Preview (VHS_VideoCombine (#396)) para verificações rápidas antes da amostragem.
O ReservedRegionFrameComposer (#395) prepara quadros guia que alinham a imagem do rosto ao layout da cena, ajudando o modelo a focar na área de troca durante o condicionamento.

Prompt#

Você pode descrever o visual e a ação desejados manualmente em Manual Prompt ou deixar o gráfico compor automaticamente um prompt estruturado. Video Prompt (AILab_QwenVL (#400)) extrai o movimento corporal e a cena do vídeo enquanto Face Prompt (AILab_QwenVL (#401)) extrai detalhes de identidade da imagem facial.
Concat Prompts mescla identidade e ação em uma instrução concisa, então Select Prompt encaminha seu texto manual ou o prompt automático para CLIP Text Encode. O texto do prompt negativo é codificado separadamente para suprimir artefatos comuns de vídeo.

Modelo#

O grupo Model carrega o LTX 2.3 UNet ou sua variante GGUF, aplica o LoRA destilado e o LoRA de troca de rosto, e traz os VAEs LTX e codificadores de texto duplos. A configuração de dois codificadores melhora o alinhamento para conteúdo falado e bloqueio de câmera sem restringir excessivamente a identidade.
Se você estiver otimizando para velocidade ou memória, alterne entre dev, destilado, apenas transformador FP8, ou GGUF no seletor de modelo fornecido. Nenhuma configuração extra é necessária no RunComfy.

Amostrador#

A primeira etapa combina latentes de vídeo e áudio em LTXVConcatAVLatent (#321), depois remove o ruído com CFGGuider (#326), LTXVScheduler (#324), e SamplerCustomAdvanced (#257). O LTXVAddGuideMulti (#392) injeta seu guia de identidade para que o rosto seja estabelecido cedo e permaneça estável ao longo do tempo.
Após a primeira passagem, LTXVSeparateAVLatent (#323) divide fluxos para que LTXVCropGuides (#282) possa focar a edição ao redor do rosto. Isso concentra o cálculo onde é importante e melhora a consistência temporal.

Amostragem de Upscale (2x)#

LTXVLatentUpsampler (#279) aplica o upscaler espacial x2 do LTX 2.3 no espaço latente. O latente de vídeo com upscaling é então reunido com o latente de áudio em LTXVConcatAVLatent (#287) e refinado por uma segunda passagem SamplerCustomAdvanced (#288) guiada por CFGGuider (#284).
Esta estratégia de duas etapas produz pele, olhos e cabelos mais nítidos enquanto mantém a troca bloqueada na identidade pretendida.

Áudio#

O grupo Audio permite que você encaminhe áudio original, silêncio ou um segmento cortado via Switch Audio. Para pistas de movimento labial mais fortes, a faixa selecionada é enviada através de MelBandRoFormerSampler (#355) para isolar vocais, depois codificada com LTXVAudioVAEEncode (#364).
Uma máscara de ruído sólida (SetLatentNoiseMask (#365)) previne mudanças indesejadas impulsionadas por áudio fora da região da boca enquanto ainda aproveita o tempo da fala para guiar expressões.

Decodificação e exportação#

Os quadros finais são reconstruídos com LTXVSpatioTemporalTiledVAEDecode (#377), que decodifica com mosaico sensível ao tempo para evitar costuras e manter a continuidade do movimento. CreateVideo (#292) multiplica as imagens com o áudio escolhido, e SaveVideo grava o clipe finalizado.

Nós chave no fluxo de trabalho Comfyui LTX-2.3-Video-Face-Swap#

LTXVAddGuideMulti (#392). Alimenta o guia de rosto alinhado no fluxo de condicionamento para que o modelo fixe-se na identidade-alvo desde os primeiros passos. Se a semelhança se desviar em movimento rápido, aumente o número ou a frequência dos quadros guia em vez de aumentar a orientação globalmente.
LTXVCropGuides (#282). Foca automaticamente a segunda passagem na região facial derivada dos latentes e prompts da primeira etapa. Use-o para apertar a área de edição quando fundos ou mãos competirem por atenção.
SamplerCustomAdvanced (#257). Passagem principal de remoção de ruído que estabelece identidade, iluminação e movimento grosseiro. Emparelhe-o com o LTXVScheduler para modelagem de etapas e mantenha a escolha do amostrador estável em experimentos para tornar comparações significativas.
LTXVLatentUpsampler (#279). Realiza um upscale latente 2x usando o upscaler espacial LTX antes do refinamento. Use isso quando precisar de poros mais nítidos, cílios e costuras de chapéu sem introduzir cintilação de upscalers de pixels pós-decodificação.
SamplerCustomAdvanced (#288). Passagem de refinamento após o upscaling. Ajuste moderadamente a orientação aqui para aguçar características enquanto preserva a identidade definida pela primeira passagem.
LTXVSpatioTemporalTiledVAEDecode (#377). Decodificador sensível ao tempo que reduz costuras de mosaico em quadros. Se você atingir limites de VRAM em clipes longos, prefira ajustar seu layout de mosaico em vez de diminuir a resolução.
MelBandRoFormerSampler (#355). Separação vocal usada apenas para orientação. Se o áudio fonte for barulhento, mude para áudio original ou silencioso para evitar a propagação de artefatos em movimento de boca.

Extras opcionais#

A qualidade da imagem do rosto importa. Use uma foto neutra, bem iluminada, de frente ou ligeiramente de três quartos com idade e expressão semelhantes à performance.
Mantenha o vídeo de referência estável. Tomadas estáticas ou com tripé produzem os resultados mais estáveis do LTX-2.3-Video-Face-Swap, especialmente em tomadas médias e close.
Os prompts devem ser concisos. Declare a cena e a ação em um único parágrafo e reserve adjetivos de identidade para o prompt de rosto, não para o prompt de ação.
A orientação de áudio é opcional. O discurso claro melhora as formas da boca; faixas apenas musicais oferecem pouco benefício, então escolha silêncio para concentrar o cálculo em visuais.
Para execução com baixa VRAM ou apenas CPU, prefira a construção UNet GGUF; para alta taxa de transferência em GPUs modernas, os pesos apenas para transformadores FP8 são uma boa opção padrão.
Use com responsabilidade. Obtenha consentimento para qualquer semelhança que você trocar e cumpra as leis e políticas de plataforma aplicáveis.

Agradecimentos#

Este fluxo de trabalho implementa e constrói sobre os seguintes trabalhos e recursos. Agradecemos imensamente ao LTX-2.3 pelo modelo LTX-2.3, e ao EyeForAILabs pelo tutorial no YouTube, por suas contribuições e manutenção. Para detalhes autoritativos, consulte a documentação original e os repositórios vinculados abaixo.

Recursos#

LTX-2.3/LTX-2.3 Model
- Hugging Face: Hugging Face Model
EyeForAILabs/YouTube Tutorial
- Docs / Release Notes: EyeForAILabs YouTube Tutorial

Nota: O uso dos modelos, conjuntos de dados e códigos referenciados está sujeito às respectivas licenças e termos fornecidos por seus autores e mantenedores.

Want More ComfyUI Workflows?

ReActor | Troca Rápida de Rostos

Conjunto de ferramentas profissional para troca de rostos no ComfyUI que permite substituição e aprimoramento natural de rostos.

Transformação de Vídeo de Dança | Personalização de Cenário & Troca de Rosto

Transforme vídeos de dança com edição de cenário, troca de rosto e preservação de movimento.

LivePortrait | Anima Retratos | Vid2Vid

Atualizado em 16/06/2025: versão do ComfyUI atualizada para v0.3.39 para melhorar a estabilidade e compatibilidade. Transfira expressões faciais e movimentos de um vídeo de condução para um vídeo fonte.

DreamID-Omni | Criador de Vídeo Falante a partir de Fotos

Transforma fotos em vídeos falantes ultra-reais em segundos.

InfiniteTalk | Gerador de Avatar Sincronizado com Lábios

Foto + Voz = Avatar Falante Perfeitamente Sincronizado em Minutos

Treinamento FLUX LoRA

Guia você por todo o processo de treinamento de modelos FLUX LoRA usando seus conjuntos de dados personalizados.

CogvideoX Fun | Modelo de Vídeo para Vídeo

CogVideoX Fun: Modelo avançado de vídeo para vídeo para geração de vídeos de alta qualidade.

ICEdit | Edição de Imagens com IA Rápida com Nunchaku

ICEdit+Nunchaku: Uma solução para edição de imagens com IA ultra-rápida e precisa.

Suporte

Recursos

Legal

RunComfy

RunComfy é a principal ComfyUI plataforma, oferecendo ComfyUI online ambiente e serviços, juntamente com fluxos de trabalho do ComfyUI apresentando visuais impressionantes. RunComfy também oferece AI Models, permitindo que artistas utilizem as mais recentes ferramentas de AI para criar arte incrível.

LTX 2.3 - Troca de Rosto em Vídeo | Substituição de Rosto Sem Interrupções