logo
RunComfy
  • ComfyUI
  • TrainerNew
  • Models
  • API
  • Pricing
discord logo
ComfyUI>Flujos de trabajo>LTX 2.3 ID-LoRA | Generador de Avatares Parlantes

LTX 2.3 ID-LoRA | Generador de Avatares Parlantes

Workflow Name: RunComfy/LTX-2.3-ID-LoRA
Workflow ID: 0000...1385
Con este flujo de trabajo consciente de la identidad, puedes crear fácilmente avatares parlantes realistas a partir de una sola imagen, un breve clip de audio y entrada de texto. Combina la consistencia facial con sincronización labial precisa y transferencia de voz expresiva. El modelo mantiene las características únicas del sujeto mientras combina movimiento realista y tono. Ideal para personalidades virtuales, influenciadores digitales y narrativas basadas en personajes. Esta herramienta simplifica los complejos pasos de generación en un proceso unificado para una salida audiovisual sin fisuras.

Flujo de trabajo de video parlante LTX 2.3 ID-LoRA para ComfyUI

Este flujo de trabajo convierte una sola imagen facial, un breve clip de voz y un aviso en un video parlante totalmente sincronizado. Construido sobre LTX‑2.3, fusiona audio y visuales en un solo proceso de difusión y agrega un adaptador de identidad LoRA en contexto para que la persona en tu imagen de referencia se mantenga consistente en todos los fotogramas. LTX 2.3 ID-LoRA es ideal para avatares, anfitriones virtuales y cualquier escenario donde la sincronización labial, la semejanza y el control del aviso deben alinearse en una sola pasada.

Proporcionas tres cosas: una imagen de referencia, una o dos frases de audio y un aviso de texto que describe apariencia y rendimiento. La ruta LTX 2.3 ID-LoRA maneja la identidad mientras un preprocesador de audio ligero mejora la claridad de la voz para indicaciones de boca más fuertes. El resultado es un video coherente, que preserva la identidad, con habla sincronizada que no requiere entrenamiento por sujeto.

Modelos clave en el flujo de trabajo Comfyui LTX 2.3 ID-LoRA

  • Lightricks LTX‑2.3 22B base checkpoint. El modelo base de audio‑video conjunto que genera fotogramas y sonido sincronizados a partir de texto, imagen y condicionamiento de audio. Es el generador principal utilizado por esta pipeline de ComfyUI. Model card
  • LTX‑2.3 distilled LoRA 384. Adaptador LoRA oficial que aplica orientación destilada al modelo base para estabilizar y acelerar el muestreo sin sacrificar calidad. Está conectado como el modelo de segunda etapa en este flujo de trabajo. Ver la tabla de checkpoints en la página LTX‑2.3. Model card
  • LTX‑2.3 spatial upscaler x2. Ampliador espacial de espacio latente utilizado dentro del subgrafo del muestreador para elevar el detalle espacial antes de la decodificación, mejorando la fidelidad de rostros y bordes en el video final. Model card
  • Gemma 3 12B Instruct text encoder for LTX‑2.3. Proporciona el condicionamiento de texto que impulsa el estilo, la escena y el rendimiento. Este flujo de trabajo utiliza el codificador Gemma 3 empaquetado para LTX‑2 en ComfyUI. Codificadores de texto Comfy‑Org
  • LTX‑2.3 VAEs para video y audio. VAEs construidos específicamente decodifican latentes visuales y acústicos producidos por el modelo en imágenes y una forma de onda. Se hacen referencias a compilaciones compatibles bf16 en el gráfico. Fuentes de ejemplo: Video VAE · Audio VAE
  • Mel‑Band RoFormer para separación vocal. Preprocesador opcional que extrae voces limpias del audio de referencia para que el modelo pueda rastrear sílabas y formas de boca de manera más confiable. Paper · Nodo ComfyUI
  • LTX 2.3 ID‑LoRA (IC‑LoRA). Un LoRA de identidad en contexto entrenado para uso en video parlante que inclina el generador hacia el rostro en tu imagen de referencia mientras respeta las indicaciones y señales de voz. Lightricks documenta el uso de LoRA y IC‑LoRA con LTX‑2.3 en la página del modelo. Model card

Cómo usar el flujo de trabajo Comfyui LTX 2.3 ID-LoRA

Flujo general. La pipeline carga la base LTX‑2.3 con codificadores de texto y VAEs, prepara tu imagen y audio, luego ejecuta un muestreador LTX de dos etapas que combina texto, la referencia facial y una pista vocal para generar fotogramas y habla sincronizados. Se incluye un muestreador paralelo sin ID‑LoRA para comparaciones rápidas. Los fotogramas finales y el audio se combinan en un MP4.

  • Modelo
    • El gráfico carga el checkpoint base con CheckpointLoaderSimple (#5493), los codificadores de texto basados en Gemma a través de LTXAVTextEncoderLoader (#5494), y los VAEs dedicados para video VAELoader (#5651) y audio VAELoaderKJ (#5649). Luego aplica dos adaptadores: el LoRA destilado oficial para formar un modelo de etapa 2 y el LTX 2.3 ID-LoRA para el condicionamiento de identidad a través de LoraLoaderModelOnly (#5573).
    • Esta etapa asegura que el generador entienda tu aviso, tenga las pilas de decodificación correctas y esté preparado con orientación de eficiencia y sesgo de identidad.
    • Generalmente no modificas nada aquí más allá de cambiar checkpoints o LoRAs si tienes alternativas.
  • Configuración de Video
    • Controla dimensiones de salida, tasa de fotogramas, pasos y duración. Width (#5284), Height (#5286), y Frame Rate (#5289) alimentan una pequeña utilidad que calcula el total de fotogramas a partir de segundos, manteniendo la sincronización consistente entre audio y video.
    • Las configuraciones se almacenan una vez y son leídas por todos los nodos posteriores para que los dos muestreadores y el combinador se mantengan alineados.
    • Ajusta estos valores primero cuando quieras un aspecto, suavidad o duración diferentes.
  • Cargar Referencia de Imagen
    • Proporciona una imagen facial clara a través de Load Image (Input) (#5525). La imagen se redimensiona con ImageResizeKJv2 (#5280) para coincidir con tu salida elegida.
    • Esta imagen preprocesada se convierte en el ancla para la identidad en la etapa LTX 2.3 ID-LoRA, guiando la semejanza y la composición de la toma.
    • Usa una foto bien iluminada, frontal, con mínimo desenfoque de movimiento para obtener los mejores resultados.
  • Preprocesamiento de Audio
    • Coloca un breve WAV o MP3 usando Reference Audio (Input) (#5652). El clip se recorta si es necesario y luego se pasa a MelBandRoFormerSampler (#5473) para aislar las vocales.
    • Las vocales limpias ayudan al modelo a inferir fonemas y temporización para movimientos labiales precisos y ritmo de habla.
    • Si tu audio ya es solo de voz, puedes omitir la separación y alimentarlo directamente.
  • Muestreo LTX con ID Lora
    • Este es el camino principal. El subgrafo del muestreador (Samplers (#5278)) mezcla tu aviso positivo de Enhanced Prompt (Positive) (#5174), la lista negativa, la referencia facial, y la pista vocal a través de la tubería latente AV de LTX‑2.3.
    • LTXVReferenceAudio alinea el movimiento con el discurso mientras LTXVImgToVideoInplace inyecta la imagen facial en el latente como un ancla. El adaptador LTX 2.3 ID-LoRA dirige el generador hacia la identidad de tu sujeto.
    • La etapa incluye un ampliador latente interno para elevar el detalle antes de la decodificación. Produce fotogramas más una secuencia de audio sincronizada.
  • Muestreo LTX sin ID Lora
    • Un muestreador reflejado (Samplers (#5643)) ejecuta el mismo condicionamiento pero sin el adaptador ID‑LoRA. Úsalo para comprobaciones A/B o cuando quieras más libertad alejándote de la identidad de referencia.
    • Todo lo demás permanece idéntico, por lo que las diferencias que notes se deben únicamente al condicionamiento de identidad.
    • Este camino puede ser útil para borradores rápidos o desviaciones creativas.
  • Combinación de Video y Salida
    • Los fotogramas y el audio generado se combinan en MP4 con Video Combine (Output) (#5218). La tasa de fotogramas proviene de tu configuración global, por lo que el movimiento y la sincronización labial coinciden con la temporización del muestreador.
    • El Video Combine (#5645) secundario previsualiza la rama sin ID‑LoRA si la habilitaste, lo cual es útil para comparaciones.
    • El flujo de trabajo limpia la caché entre ejecuciones para mantener estable la VRAM en sesiones largas.

Nodos clave en el flujo de trabajo Comfyui LTX 2.3 ID-LoRA

  • LoraLoaderModelOnly (#5573)
    • Carga el LTX 2.3 ID-LoRA que preserva la identidad facial. Reduce su peso si deseas más variación creativa o aumentalo para fijar más firmemente la semejanza. Combínalo cuidadosamente con la fuerza del aviso para que identidad y estilo no compitan. Referencia: Uso de LoRA LTX‑2.3 en la página del modelo. Model card
  • LTXVReferenceAudio (#5589)
    • Convierte tu audio de referencia en condicionamiento para la temporización de sílabas, prosodia y formas de boca. Alimenta discurso claro para la mejor alineación. Si escuchas bombeo o articulación desfasada, acorta o simplifica el clip en lugar de aumentar la fuerza.
  • LTXVImgToVideoInplace (#5245, también usado más tarde)
    • Inyecta la imagen facial en la secuencia de video latente como un prior espacial. El control de fuerza de imagen equilibra la adherencia a la foto versus la libertad de movimiento. Para una identidad fuerte con movimiento natural, mantén la fuerza de imagen moderada y deja que el ID‑LoRA lleve la semejanza.
  • LTXVConditioning (#5621)
    • Empaqueta el condicionamiento de texto y las señales de temporización para los muestreadores LTX. Asegúrate de que su entrada de tasa de fotogramas coincida con tu tasa de fotogramas de salida para que los campos de movimiento y la temporización de fonemas se mantengan coherentes.
  • VHS_VideoCombine (#5218)
    • Mezcla los fotogramas y el audio en el archivo final. Si tu audio es ligeramente más largo que los fotogramas, habilita el recorte aquí para evitar una cola negra al final. Para compatibilidad con plataformas, mantén la configuración H.264 predeterminada a menos que tengas una razón para cambiarlas. Referencia de nodo: ComfyUI‑VideoHelperSuite
  • MelBandRoFormerSampler (#5473)
    • Separa las vocales de la música usando un transformador de banda Mel para que el generador se fije en el discurso. Si las sibilantes se emborronan o las plosivas explotan, prueba con un archivo de modelo diferente de la misma familia o reduce la intensidad de entrada. Lectura de fondo: arXiv

Extras opcionales

  • Para generaciones más estables con LTX‑2.3, usa ancho y alto divisibles por 32 y elige una cuenta de fotogramas de 8n + 1 como documentado por Lightricks. Model card
  • Mantén la imagen de referencia consistente con tu aviso. Si describes iluminación exterior pero proporcionas una foto interior, la identidad puede mantenerse mientras el color y el sombreado luchan contra el aviso.
  • Dale al audio de 2 a 8 segundos con un ritmo natural. Los clips sobrecomprimidos o reverberantes reducen la fidelidad de sincronización labial incluso después de la separación vocal.
  • Cuando los rostros se desvían, reduce ligeramente la fuerza de la imagen y confía más en el LTX 2.3 ID-LoRA. Cuando los rostros vagan demasiado, haz lo contrario.
  • Para tomas más largas, genera en segmentos que compartan la misma semilla y configuraciones globales, luego une los clips en edición de video si es necesario.

Referencias y repositorios útiles

  • Pesos abiertos y notas LTX‑2.3: Página del modelo Hugging Face
  • Nodos ComfyUI oficiales para LTX Video: Lightricks/ComfyUI‑LTXVideo
  • Base de código y paper LTX‑2: Lightricks/LTX‑Video · arXiv
  • Codificadores IT Gemma 3 12B para LTX en ComfyUI: Comfy‑Org/ltx‑2 text_encoders
  • Antecedentes de Mel‑Band RoFormer: arXiv

Agradecimientos

Este flujo de trabajo implementa y se basa en los siguientes trabajos y recursos. Agradecemos profundamente a los creadores de LTX 2.3 ID-LoRA Source para el flujo de trabajo LTX 2.3 ID-LoRA Source por sus contribuciones y mantenimiento. Para detalles autoritativos, por favor consulta la documentación original y los repositorios vinculados a continuación.

Recursos

  • LTX 2.3 ID-LoRA Source
    • Docs / Notas de lanzamiento: YouTube @Benji’s AI Playground

Nota: El uso de los modelos, conjuntos de datos y código referenciados está sujeto a las respectivas licencias y términos proporcionados por sus autores y mantenedores.

Want More ComfyUI Workflows?

InfiniteTalk | Generador de Avatares Sincronizados con Labios

Foto + Voz = Avatar Hablante Perfectamente Sincronizado en Minutos

DreamID-Omni | Creador de Video Hablante a partir de Foto

Convierte fotos en videos hablantes ultrarrealistas en segundos.

EchoMimic | Animaciones de Retratos Impulsadas por Audio

Genera cabezas parlantes y gestos corporales realistas sincronizados con el audio proporcionado.

Hallo2 | Animación de Retrato de Sincronización Labial

Sincronización labial impulsada por audio para animación de retratos en 4K.

LatentSync| Modelo de Sincronización de Labios

Tecnología avanzada de sincronización de labios impulsada por audio.

FLUX.2 Dev LoRA Inferencia | AI Toolkit ComfyUI

Ejecute su FLUX.2 Dev LoRA entrenado con AI Toolkit en ComfyUI con comportamiento coincidente con el entrenamiento usando un único nodo personalizado RunComfy RC.

Wan 2.1 Control LoRA | Profundidad y Mosaico

Avanza la generación de video Wan 2.1 con LoRAs de profundidad y mosaico ligeros para mejorar la estructura y el detalle.

Wan 2.2 Animate | Intercambio de Personajes y Sincronización Labial

Transforma cualquier rostro para hablar y moverse como el original con facilidad.

Síguenos
  • LinkedIn
  • Facebook
  • Instagram
  • Twitter
Soporte
  • Discord
  • Correo electrónico
  • Estado del sistema
  • afiliado
Recursos
  • ComfyUI en línea gratis
  • Guías de ComfyUI
  • RunComfy API
  • Tutoriales de ComfyUI
  • Nodos de ComfyUI
  • Aprende más
Legal
  • Términos de servicio
  • Política de privacidad
  • Política de cookies
RunComfy
Derechos de autor 2026 RunComfy. Todos los derechos reservados.

RunComfy es la principal ComfyUI plataforma, ofreciendo ComfyUI en línea entorno y servicios, junto con flujos de trabajo de ComfyUI con impresionantes imágenes. RunComfy también ofrece AI Models, permitiendo a los artistas aprovechar las últimas herramientas de AI para crear arte increíble.