logo
RunComfy
  • ComfyUI
  • TrainerNew
  • Models
  • API
  • Pricing
discord logo
ComfyUI>Fluxos de Trabalho>LTX 2.3 - Troca de Rosto em Vídeo | Substituição de Rosto Sem Interrupções

LTX 2.3 - Troca de Rosto em Vídeo | Substituição de Rosto Sem Interrupções

Workflow Name: RunComfy/LTX-2.3-Video-Face-Swap
Workflow ID: 0000...1391
Com este fluxo de trabalho avançado de substituição de rosto, você pode trocar rostos em vídeos sem esforço, mantendo expressões naturais, iluminação consistente e precisão temporal. Ideal para criadores e artistas de VFX, garante rastreamento de identidade estável e coerência em cada quadro. Aproveitando o design orientado por difusão do LTX 2.3, minimiza cintilação e melhora o realismo. Você pode ajustar as instruções de controle para flexibilidade criativa e resultados refinados. Perfeito para cineastas de IA que buscam troca de rosto de nível profissional sem trabalho manual complexo.

LTX-2.3-Video-Face-Swap para ComfyUI

Este fluxo de trabalho oferece substituição de rosto em vídeo de alta fidelidade e temporalmente estável usando a família LTX 2.3. Construído para RunComfy e ComfyUI, ele combina uma imagem guia de identidade com um vídeo-alvo e orientação de áudio opcional para preservar expressões, iluminação e movimento em todos os quadros. O resultado é uma troca realista, resistente a cintilações, que se mantém em close-ups e tomadas médias.

Criadores, artistas de VFX e cineastas de IA podem usar o LTX-2.3-Video-Face-Swap para manter controle criativo total: faça prompts manualmente ou gere prompts estruturados a partir das entradas, escolha entre as variantes dev, distilled, FP8 ou GGUF, e finalize com uma decodificação espaço-temporal e upscaling latente 2x opcional para detalhes nítidos.

Modelos chave no fluxo de trabalho Comfyui LTX-2.3-Video-Face-Swap

  • LTX 2.3 22B Video Diffusion Transformer. Modelo central de geração e edição de vídeo que impulsiona a preservação de identidade e coerência temporal. Veja a família de modelos oficial em Lightricks/LTX-2.3.
  • LTX 2.3 Text Encoders. O gráfico emparelha o codificador de texto LTX 2.3 com um codificador de instruções Gemma 3 12B para melhorar o alinhamento de prompts para edição de vídeo. Exemplos de artefatos: ltx-2-3-22b-text_encoder.safetensors e gemma_3_12B_it.safetensors.
  • LTX 2.3 VAE e Audio VAE. Codificadores/decodificadores usados para comprimir e reconstruir quadros visuais e faixas de áudio enquanto preservam detalhes e sincronização. Veja Lightricks/LTX-2.3 VAE files e variantes de audio VAE no repositório dividido vantagewithai/LTX-2.3-Split.
  • LTX 2.3 Spatial Upscaler x2. Upscaler 2x em espaço latente que aumenta a fidelidade espacial antes da decodificação final, ideal para detalhes faciais. ltx-2.3-spatial-upscaler-x2-1.1.safetensors.
  • Head‑swap LoRA. Um LoRA adaptativo em rank especializado para transferência de identidade que melhora a semelhança e estabilidade ao conduzir a edição. Exemplo: head_swap_v3_rank_adaptive_fro_098.safetensors.
  • MelBandRoFormer. Modelo opcional de separação de fonte musical usado aqui para isolar vocais para uma orientação de movimento bucal mais forte. Kijai/MelBandRoFormer_comfy.
  • Variantes de implantação opcionais. Pesos FP8 apenas para transformadores para velocidade em GPUs suportadas Kijai/LTX2.3_comfy e construções leves UNet GGUF para CPU ou cenários de baixa VRAM vantagewithai/LTX-2.3-GGUF.

Como usar o fluxo de trabalho Comfyui LTX-2.3-Video-Face-Swap

Este gráfico funciona em duas etapas. A primeira etapa realiza a troca principal na resolução latente nativa com orientação de áudio. A segunda etapa faz upsampling no espaço latente e refina a região do rosto antes de uma decodificação espaço-temporal e multiplexação final para vídeo.

Entradas

  • Carregue sua imagem de identidade em Face Image (LoadImage (#255)). Use uma foto bem iluminada, frontal ou de três quartos para a extração de identidade mais confiável.
  • Carregue a filmagem-alvo em Reference Video (VHS_LoadVideo (#393)). Os quadros são normalizados e pré-visualizados via ResizeImagesByLongerEdge e Control Video Preview (VHS_VideoCombine (#396)) para verificações rápidas antes da amostragem.
  • O ReservedRegionFrameComposer (#395) prepara quadros guia que alinham a imagem do rosto ao layout da cena, ajudando o modelo a focar na área de troca durante o condicionamento.

Prompt

  • Você pode descrever o visual e a ação desejados manualmente em Manual Prompt ou deixar o gráfico compor automaticamente um prompt estruturado. Video Prompt (AILab_QwenVL (#400)) extrai o movimento corporal e a cena do vídeo enquanto Face Prompt (AILab_QwenVL (#401)) extrai detalhes de identidade da imagem facial.
  • Concat Prompts mescla identidade e ação em uma instrução concisa, então Select Prompt encaminha seu texto manual ou o prompt automático para CLIP Text Encode. O texto do prompt negativo é codificado separadamente para suprimir artefatos comuns de vídeo.

Modelo

  • O grupo Model carrega o LTX 2.3 UNet ou sua variante GGUF, aplica o LoRA destilado e o LoRA de troca de rosto, e traz os VAEs LTX e codificadores de texto duplos. A configuração de dois codificadores melhora o alinhamento para conteúdo falado e bloqueio de câmera sem restringir excessivamente a identidade.
  • Se você estiver otimizando para velocidade ou memória, alterne entre dev, destilado, apenas transformador FP8, ou GGUF no seletor de modelo fornecido. Nenhuma configuração extra é necessária no RunComfy.

Amostrador

  • A primeira etapa combina latentes de vídeo e áudio em LTXVConcatAVLatent (#321), depois remove o ruído com CFGGuider (#326), LTXVScheduler (#324), e SamplerCustomAdvanced (#257). O LTXVAddGuideMulti (#392) injeta seu guia de identidade para que o rosto seja estabelecido cedo e permaneça estável ao longo do tempo.
  • Após a primeira passagem, LTXVSeparateAVLatent (#323) divide fluxos para que LTXVCropGuides (#282) possa focar a edição ao redor do rosto. Isso concentra o cálculo onde é importante e melhora a consistência temporal.

Amostragem de Upscale (2x)

  • LTXVLatentUpsampler (#279) aplica o upscaler espacial x2 do LTX 2.3 no espaço latente. O latente de vídeo com upscaling é então reunido com o latente de áudio em LTXVConcatAVLatent (#287) e refinado por uma segunda passagem SamplerCustomAdvanced (#288) guiada por CFGGuider (#284).
  • Esta estratégia de duas etapas produz pele, olhos e cabelos mais nítidos enquanto mantém a troca bloqueada na identidade pretendida.

Áudio

  • O grupo Audio permite que você encaminhe áudio original, silêncio ou um segmento cortado via Switch Audio. Para pistas de movimento labial mais fortes, a faixa selecionada é enviada através de MelBandRoFormerSampler (#355) para isolar vocais, depois codificada com LTXVAudioVAEEncode (#364).
  • Uma máscara de ruído sólida (SetLatentNoiseMask (#365)) previne mudanças indesejadas impulsionadas por áudio fora da região da boca enquanto ainda aproveita o tempo da fala para guiar expressões.

Decodificação e exportação

  • Os quadros finais são reconstruídos com LTXVSpatioTemporalTiledVAEDecode (#377), que decodifica com mosaico sensível ao tempo para evitar costuras e manter a continuidade do movimento. CreateVideo (#292) multiplica as imagens com o áudio escolhido, e SaveVideo grava o clipe finalizado.

Nós chave no fluxo de trabalho Comfyui LTX-2.3-Video-Face-Swap

  • LTXVAddGuideMulti (#392). Alimenta o guia de rosto alinhado no fluxo de condicionamento para que o modelo fixe-se na identidade-alvo desde os primeiros passos. Se a semelhança se desviar em movimento rápido, aumente o número ou a frequência dos quadros guia em vez de aumentar a orientação globalmente.
  • LTXVCropGuides (#282). Foca automaticamente a segunda passagem na região facial derivada dos latentes e prompts da primeira etapa. Use-o para apertar a área de edição quando fundos ou mãos competirem por atenção.
  • SamplerCustomAdvanced (#257). Passagem principal de remoção de ruído que estabelece identidade, iluminação e movimento grosseiro. Emparelhe-o com o LTXVScheduler para modelagem de etapas e mantenha a escolha do amostrador estável em experimentos para tornar comparações significativas.
  • LTXVLatentUpsampler (#279). Realiza um upscale latente 2x usando o upscaler espacial LTX antes do refinamento. Use isso quando precisar de poros mais nítidos, cílios e costuras de chapéu sem introduzir cintilação de upscalers de pixels pós-decodificação.
  • SamplerCustomAdvanced (#288). Passagem de refinamento após o upscaling. Ajuste moderadamente a orientação aqui para aguçar características enquanto preserva a identidade definida pela primeira passagem.
  • LTXVSpatioTemporalTiledVAEDecode (#377). Decodificador sensível ao tempo que reduz costuras de mosaico em quadros. Se você atingir limites de VRAM em clipes longos, prefira ajustar seu layout de mosaico em vez de diminuir a resolução.
  • MelBandRoFormerSampler (#355). Separação vocal usada apenas para orientação. Se o áudio fonte for barulhento, mude para áudio original ou silencioso para evitar a propagação de artefatos em movimento de boca.

Extras opcionais

  • A qualidade da imagem do rosto importa. Use uma foto neutra, bem iluminada, de frente ou ligeiramente de três quartos com idade e expressão semelhantes à performance.
  • Mantenha o vídeo de referência estável. Tomadas estáticas ou com tripé produzem os resultados mais estáveis do LTX-2.3-Video-Face-Swap, especialmente em tomadas médias e close.
  • Os prompts devem ser concisos. Declare a cena e a ação em um único parágrafo e reserve adjetivos de identidade para o prompt de rosto, não para o prompt de ação.
  • A orientação de áudio é opcional. O discurso claro melhora as formas da boca; faixas apenas musicais oferecem pouco benefício, então escolha silêncio para concentrar o cálculo em visuais.
  • Para execução com baixa VRAM ou apenas CPU, prefira a construção UNet GGUF; para alta taxa de transferência em GPUs modernas, os pesos apenas para transformadores FP8 são uma boa opção padrão.
  • Use com responsabilidade. Obtenha consentimento para qualquer semelhança que você trocar e cumpra as leis e políticas de plataforma aplicáveis.

Agradecimentos

Este fluxo de trabalho implementa e constrói sobre os seguintes trabalhos e recursos. Agradecemos imensamente ao LTX-2.3 pelo modelo LTX-2.3, e ao EyeForAILabs pelo tutorial no YouTube, por suas contribuições e manutenção. Para detalhes autoritativos, consulte a documentação original e os repositórios vinculados abaixo.

Recursos

  • LTX-2.3/LTX-2.3 Model
    • Hugging Face: Hugging Face Model
  • EyeForAILabs/YouTube Tutorial
    • Docs / Release Notes: EyeForAILabs YouTube Tutorial

Nota: O uso dos modelos, conjuntos de dados e códigos referenciados está sujeito às respectivas licenças e termos fornecidos por seus autores e mantenedores.

Want More ComfyUI Workflows?

ReActor | Troca Rápida de Rostos

Conjunto de ferramentas profissional para troca de rostos no ComfyUI que permite substituição e aprimoramento natural de rostos.

Transformação de Vídeo de Dança | Personalização de Cenário & Troca de Rosto

Transforme vídeos de dança com edição de cenário, troca de rosto e preservação de movimento.

LivePortrait | Anima Retratos | Vid2Vid

Atualizado em 16/06/2025: versão do ComfyUI atualizada para v0.3.39 para melhorar a estabilidade e compatibilidade. Transfira expressões faciais e movimentos de um vídeo de condução para um vídeo fonte.

DreamID-Omni | Criador de Vídeo Falante a partir de Fotos

Transforma fotos em vídeos falantes ultra-reais em segundos.

InfiniteTalk | Gerador de Avatar Sincronizado com Lábios

Foto + Voz = Avatar Falante Perfeitamente Sincronizado em Minutos

ACE++ Face Swap | Edição de Imagem

Troque rostos em imagens com instruções em linguagem natural enquanto preserva o estilo e o contexto.

Step1X-Edit | Ferramenta de Edição de Imagens AI

Realize 11 operações de edição com linguagem natural no Step1X-Edit.

EchoMimic | Animações de Retratos Guiadas por Áudio

Gere cabeças falantes realistas e gestos corporais sincronizados com o áudio fornecido.

Siga-nos
  • LinkedIn
  • Facebook
  • Instagram
  • Twitter
Suporte
  • Discord
  • E-mail
  • Status do Sistema
  • afiliado
Recursos
  • ComfyUI Online Gratuito
  • Guias do ComfyUI
  • RunComfy API
  • Tutoriais do ComfyUI
  • Nós do ComfyUI
  • Saiba Mais
Legal
  • Termos de Serviço
  • Política de Privacidade
  • Política de Cookies
RunComfy
Copyright 2026 RunComfy. Todos os Direitos Reservados.

RunComfy é a principal ComfyUI plataforma, oferecendo ComfyUI online ambiente e serviços, juntamente com fluxos de trabalho do ComfyUI apresentando visuais impressionantes. RunComfy também oferece AI Models, permitindo que artistas utilizem as mais recentes ferramentas de AI para criar arte incrível.