logo
RunComfy
ComfyUIPlaygroundPricing
discord logo
ComfyUI>Workflows>LatentSync| Modèle de Synchronisation Labiale

LatentSync| Modèle de Synchronisation Labiale

Workflow Name: RunComfy/LatentSync
Workflow ID: 0000...1182
Mis à jour le 16/06/2025 : version ComfyUI mise à jour à v0.3.40 pour une stabilité et une compatibilité améliorées. LatentSync redéfinit la synchronisation labiale avec des modèles de diffusion latente conditionnés par l'audio, contournant les représentations intermédiaires du mouvement pour un alignement audio-visuel sans faille. En tirant parti de la Stable Diffusion, il capture des corrélations complexes tout en assurant une fluidité temporelle. Contrairement aux approches basées sur les pixels, LatentSync assure une cohérence temporelle supérieure avec son module innovant d'Alignement de REPréSentation Temporelle (TREPA). Le module TREPA aide à offrir une précision et un réalisme inégalés.

LatentSync est un cadre de synchronisation labiale de bout en bout à la pointe de la technologie qui exploite la puissance des modèles de diffusion latente conditionnés par l'audio pour une génération réaliste de synchronisation labiale. Ce qui distingue LatentSync, c'est sa capacité à modéliser directement les corrélations complexes entre les composants audio et visuels sans s'appuyer sur une quelconque représentation intermédiaire du mouvement, révolutionnant l'approche de la synthèse de synchronisation labiale.

Au cœur du pipeline de LatentSync se trouve l'intégration de la Stable Diffusion, un modèle génératif puissant réputé pour sa capacité exceptionnelle à capturer et générer des images de haute qualité. En exploitant les capacités de la Stable Diffusion, LatentSync peut apprendre et reproduire efficacement les dynamiques complexes entre l'audio de la parole et les mouvements labiaux correspondants, aboutissant à des animations de synchronisation labiale très précises et convaincantes.

L'un des principaux défis des méthodes de synchronisation labiale basées sur la diffusion est de maintenir la cohérence temporelle entre les images générées, ce qui est crucial pour des résultats réalistes. LatentSync relève ce défi de front avec son module révolutionnaire d'Alignement de REPréSentation Temporelle (TREPA), spécialement conçu pour améliorer la cohérence temporelle des animations de synchronisation labiale. TREPA emploie des techniques avancées pour extraire des représentations temporelles des images générées en utilisant des modèles vidéo auto-supervisés à grande échelle. En alignant ces représentations avec les images de vérité terrain, le cadre de LatentSync assure un haut degré de cohérence temporelle, aboutissant à des animations de synchronisation labiale remarquablement fluides et convaincantes qui correspondent étroitement à l'entrée audio.

1.1 Comment Utiliser le Workflow LatentSync ?

LatentSync

Voici le workflow LatentSync, les nœuds de gauche sont les entrées pour télécharger la vidéo, le milieu est le traitement des nœuds LatentSync, et à droite se trouve le nœud de sortie.

  • Téléchargez votre Vidéo dans les nœuds d'entrée.
  • Téléchargez votre entrée Audio des dialogues.
  • Cliquez sur Rendre !!!

1.2 Entrée Vidéo

LatentSync

  • Cliquez et Téléchargez votre Vidéo de Référence qui contient un visage.

La vidéo est ajustée à 25 FPS pour synchroniser correctement avec le modèle Audio

1.3 Entrée Audio

LatentSync

  • Cliquez et Téléchargez votre audio ici.

LatentSync établit une nouvelle référence pour la synchronisation labiale avec son approche innovante de la génération audio-visuelle. En combinant précision, cohérence temporelle et la puissance de la Stable Diffusion, LatentSync transforme la manière dont nous créons du contenu synchronisé. Redéfinissez ce qui est possible en synchronisation labiale avec LatentSync.

Want More ComfyUI Workflows?

Hallo2 | Animation de portrait synchronisée sur les lèvres

Synchronisation labiale pilotée par audio pour l'animation de portrait en 4K.

EchoMimic | Animations de Portraits Dirigées par l'Audio

Générez des têtes parlantes réalistes et des gestes corporels synchronisés avec l'audio fourni.

DiffuEraser | Restauration de Vidéo

Effacez des objets des vidéos avec un masquage automatique et une reconstruction réaliste.

ACE++ Cohérence des Personnages

Générez des images cohérentes de votre personnage à travers des poses, angles et styles à partir d'une seule photo.

Vid2Vid Partie 1 | Composition et Masquage

Le ComfyUI Vid2Vid offre deux workflows distincts pour créer des animations de haute qualité et professionnelles : Vid2Vid Partie 1, qui améliore votre créativité en se concentrant sur la composition et le masquage de votre vidéo originale, et Vid2Vid Partie 2, qui utilise le SDXL Style Transfer pour transformer le style de votre vidéo afin de correspondre à l'esthétique souhaitée. Cette page couvre spécifiquement Vid2Vid Partie 1

InfiniteYou | Génération de Visages avec Préservation de l'Identité

Génération à double mode avec préservation de l'identité grâce aux workflows Face Combine et Zero-Shot utilisant InfiniteYou.

SVD + IPAdapter V1 | Image vers Vidéo

Utilisez IPAdapters pour la génération d'images statiques et Stable Video Diffusion pour la génération dynamique de vidéos.

Wan 2.2 Low Vram | Wrapper Kijai

Faible VRAM. Plus d'attente. Wrapper Kijai inclus.

Suivez-nous
  • LinkedIn
  • Facebook
  • Instagram
  • Twitter
Support
  • Discord
  • Email
  • État du système
  • affilié
Ressources
  • ComfyUI en ligne gratuit
  • Guides ComfyUI
  • RunComfy API
  • Tutoriels ComfyUI
  • Nœuds ComfyUI
  • En savoir plus
Légal
  • Conditions d'utilisation
  • Politique de confidentialité
  • Politique relative aux cookies
RunComfy
Droits d'auteur 2025 RunComfy. Tous droits réservés.

RunComfy est la première ComfyUI plateforme, offrant des ComfyUI en ligne environnement et services, ainsi que des workflows ComfyUI proposant des visuels époustouflants. RunComfy propose également AI Playground, permettant aux artistes d'utiliser les derniers outils d'IA pour créer des œuvres d'art incroyables.