logo
RunComfy
  • Modèles
  • ComfyUI
  • EntraîneurNouveau
  • API
  • Tarification
discord logo
ComfyUI>Workflows>ComfyUI F5 TTS | Moteur de Clonage Vocal Naturel

ComfyUI F5 TTS | Moteur de Clonage Vocal Naturel

Workflow Name: RunComfy/ComfyUI-F5-TTS
Workflow ID: 0000...1335
Ce flux de travail vous aide à transformer du texte en discours expressif en utilisant une synthèse vocale avancée. Il vous permet de cloner des voix à partir de courts échantillons audio et de contrôler le timbre, le ton et le rythme pour des résultats naturels. Vous pouvez générer des narrations, des voix off ou des répliques de personnages directement dans ComfyUI. L'interface est flexible et reproductible, ce qui la rend idéale pour les créateurs et les concepteurs recherchant un contrôle vocal précis. Intégrez-le dans des pipelines de nœuds plus larges pour une génération audio et un prototypage entièrement personnalisés avec un contrôle local complet.

ComfyUI F5 TTS : texte-à-parole et clonage de voix en un seul flux de travail

Ce flux de travail ComfyUI F5 TTS vous permet de générer un discours naturel à partir de texte et de cloner des voix directement à l'intérieur de ComfyUI. Il est alimenté par les nœuds personnalisés ComfyUI-F5-TTS et comprend un chemin complet pour le clonage basé sur des références : fournissez un court fichier WAV plus une transcription correspondante pour conditionner le modèle, puis synthétisez de nouvelles lignes qui suivent le timbre et le style du locuteur de référence. Le graphique est également livré avec des tests prêts à l'emploi pour plusieurs variantes de modèles, langues et vocodeurs, afin que vous puissiez comparer rapidement les sorties et décider ce qui convient le mieux aux narrations, voix off, dialogues de personnages ou démonstrations de produits.

Tout est organisé en groupes clairs pour que vous puissiez utiliser ComfyUI F5 TTS de deux manières : TTS rapide en un clic en anglais, français, allemand et japonais, ou clonage de voix via un enregistreur intégré ou des fichiers appariés. Un chemin de transcription Whisper compact est inclus pour vous aider à obtenir une transcription d'échantillon précise lorsque vous avez déjà un enregistrement propre.

Modèles clés dans le flux de travail ComfyUI F5 TTS

  • Fish Audio F5-TTS. TTS zéro-coup qui apprend les caractéristiques d'un locuteur à partir d'une courte référence et produit un discours de haute qualité dans plusieurs langues. Voir le projet pour les détails du modèle et le contexte de formation. GitHub
  • OpenAI Whisper. Reconnaissance vocale utilisée ici pour transcrire automatiquement votre extrait de référence afin que le texte d'échantillon corresponde exactement, ce qui améliore la qualité du clonage. GitHub
  • BigVGAN. Un vocodeur neuronal haute fidélité disponible en option de décodage pour une sortie plus nette et plus claire. GitHub
  • Vocos. Une alternative de vocodeur neuronal rapide et légère axée sur la vitesse et la faible latence. GitHub
  • Nœuds personnalisés ComfyUI-F5-TTS. L'intégration ComfyUI qui connecte F5-TTS et les backends compatibles en nœuds utilisés tout au long de ce graphique. GitHub

Comment utiliser le flux de travail ComfyUI F5 TTS

À un niveau élevé, le flux de travail offre des groupes indépendants pour des comparaisons rapides de modèles et une voie de clonage dédiée. Commencez par auditionner les groupes préconfigurés pour confirmer la voix et le vocodeur que vous préférez, puis passez au clonage avec votre propre échantillon. Chaque sous-section ci-dessous explique ce que fait le groupe et les quelques entrées qui comptent.

Test Audio From Inputs

Cette voie démontre la transcription de référence plus le conditionnement. LoadAudio (#4) importe un WAV, Apply Whisper (#13) le transcrit, et F5TTSAudioInputs (#26) utilise à la fois l'échantillon audio et le texte Whisper pour conditionner la voix avant l'aperçu. Fournissez un échantillon parlé propre et laissez Whisper remplir le port de transcription pour que la paire corresponde exactement. Si vous souhaitez fournir des fichiers directement, placez un .wav et un .txt appariés avec le même nom de fichier dans ComfyUI/input, puis redémarrez ComfyUI pour que le graphique puisse les voir.

Test multi-voix

Ce groupe montre le changement stylistique au sein d'une ligne en utilisant un seul nœud de synthèse. F5TTSAudio (#17) lit un script avec des segments étiquetés, vous permettant d'auditionner plusieurs styles de caractères ou des changements d'emphase en un seul passage. C'est un moyen rapide d'entendre comment ComfyUI F5 TTS gère les timbres contrastés ou le rythme narrateur-versus-personnage.

Audio EN

Utilisez F5TTSAudio (#15) pour un TTS anglais simple. Entrez votre script et prévisualisez pour évaluer la prononciation de base et le rythme avec le préréglage F5 par défaut. Cette voie est idéale pour une itération rapide avant de vous engager dans le clonage ou le mélange multi-voix.

F5v1

Ce chemin exécute le nœud F5TTSAudio (#33) contre la variante F5 v1 afin que vous puissiez comparer le ton et la prosodie avec le préréglage principal F5. Utilisez le même texte que la voie EN pour rendre les différences faciles à juger. C'est utile lors du choix d'un modèle par défaut pour un projet plus long.

Audio FR

Cette voie cible la synthèse française avec F5TTSAudio (#27) configuré pour un préréglage français. Fournissez un script en français et prévisualisez la sortie pour vérifier les voyelles nasales et la gestion des liaisons. Alternez avec la voie EN pour comparer la clarté et la vitesse.

Audio DE bigvgan

Ici, F5TTSAudio (#30) utilise un préréglage allemand et le vocodeur BigVGAN pour un décodage plus brillant et plus net. Utilisez cette voie lorsque vous souhaitez plus de présence ou un éclat de type studio. Si vous préférez un rendu plus doux, comparez avec une voie Vocos.

Audio JP

Ce chemin utilise F5TTSAudio (#25) avec un préréglage japonais. Collez un script japonais pour évaluer l'accent de hauteur et le timing des moras. C'est un bon point de départ pour des lectures de style anime ou des lignes de produits destinées à un public japonais.

Test E2

Ce groupe utilise F5TTSAudio (#29) avec un préréglage compatible E2 et le vocodeur Vocos pour auditionner un backend alternatif. Utilisez-le pour comparer la latence et les caractéristiques de timbre avec vos exécutions F5.

Clonez votre propre voix

Enregistrez, appariez et clonez directement dans ComfyUI. Appuyez sur le microphone dans VrchAudioRecorderNode (#43) et lisez l'invite affichée dans la boîte "Sample Text to Record" Textbox (#42). L'enregistreur dirige votre WAV vers F5TTSAudioInputs (#44) avec le texte exact que vous avez prononcé, ce qui conditionne le modèle sur votre timbre et votre style avant l'aperçu dans PreviewAudio (#45). Pour de meilleurs résultats, parlez dans une pièce calme et assurez-vous que le texte de référence correspond exactement à ce que vous avez dit ; puis tapez toutes les nouvelles lignes que vous souhaitez que la voix clonée dise et exécutez le graphique.

Nœuds clés dans le flux de travail ComfyUI F5 TTS

F5TTSAudio (#15)

Le nœud TTS à passage unique principal utilisé dans les groupes EN, FR, DE, JP, F5v1 et E2. Fournissez votre script et choisissez le préréglage de modèle et le vocodeur qui conviennent à votre langue et à votre diffusion. Si vous souhaitez des prises reproductibles, gardez la graine fixe ; si vous souhaitez de la variété, randomisez entre les exécutions. L'implémentation est fournie par l'extension ComfyUI-F5-TTS. GitHub GitHub - FishAudio/F5-TTS

F5TTSAudioInputs (#44)

Le point d'entrée de clonage qui consomme un WAV de référence et sa transcription correspondante pour construire une représentation du locuteur, puis synthétise de nouvelles lignes dans cette voix. Utilisez un échantillon propre avec une intensité sonore constante et assurez-vous que la transcription est exacte pour maximiser la similarité et réduire les artefacts. Changez les préréglages de modèle ou les vocodeurs ici si vous avez besoin d'un décodage plus brillant ou plus neutre. GitHub - FishAudio/F5-TTS

Apply Whisper (#13)

Transcription automatique pour votre échantillon de référence. Choisissez une taille de Whisper qui équilibre la vitesse et la précision pour votre matériel et votre langue, puis alimentez son texte de sortie au nœud de clonage pour que l'audio et le texte soient parfaitement alignés. Cela prévient les erreurs de conditionnement qui peuvent se produire lorsque le texte d'échantillon diffère de ce qui a été réellement dit. GitHub

VrchAudioRecorderNode (#43)

Un enregistreur intégré au graphique qui capture une courte invite parlée pour le clonage, éliminant le besoin d'outils externes. Maintenez pour enregistrer, relâchez pour arrêter et entendez immédiatement comment ComfyUI F5 TTS sonne dans votre propre voix. Gardez le micro proche et réduisez le bruit ambiant pour un résultat le plus propre possible.

Extras optionnels

  • Utilisez de 5 à 15 secondes de discours propre pour la référence, sans musique ni effets.
  • Assurez-vous que la transcription de l'échantillon correspond exactement à l'enregistrement ; même de petites discordances peuvent réduire la fidélité du clonage.
  • Comparez Vocos et BigVGAN sur la même ligne pour décider entre vitesse et détail.
  • Gardez une graine fixe lorsque vous avez besoin de reprises cohérentes ; randomisez lorsque vous explorez le style.
  • Pour les projets multilingues, auditionnez d'abord les voies EN, FR, DE et JP, puis finalisez le clonage une fois que vous êtes satisfait de la prononciation et du rythme.

Remerciements

Ce flux de travail met en œuvre et s'appuie sur les travaux et ressources suivants. Nous remercions chaleureusement niknah pour le nœud ComfyUI-F5-TTS, niknah pour l'exemple de flux de travail F5TTS-test-all.json, et la communauté r/StableDiffusion pour le guide "Voice Cloning with F5-TTS in ComfyUI" pour leurs contributions et leur maintenance. Pour des détails autorisés, veuillez vous référer à la documentation originale et aux dépôts liés ci-dessous.

Ressources

  • niknah/ComfyUI-F5-TTS
    • GitHub: niknah/ComfyUI-F5-TTS
  • niknah/ComfyUI-F5-TTS (Exemple de flux de travail : F5TTS-test-all.json)
    • GitHub: example_workflows/F5TTS-test-all.json
  • r/StableDiffusion/Guide Communautaire (Clonage Vocal avec F5-TTS dans ComfyUI)
    • GitHub: example_web_viewer_005_audio_web_viewer_f5_tts.json
    • Docs / Notes de Version: Clonez Votre Propre Voix Facilement en Utilisant ComfyUI et Presque en Temps Réel ! (Tutoriel et Flux de Travail Inclus)

Note : L'utilisation des modèles, ensembles de données et code référencés est soumise aux licences et conditions respectives fournies par leurs auteurs et mainteneurs.

Want More ComfyUI Workflows?

MMAudio | Vidéo-à-Audio

MMAudio : Modèle vidéo-à-audio avancé pour la génération audio de haute qualité.

Génération Musicale ACE-Step | Création Audio IA

Générez de la musique de qualité studio 15× plus rapidement grâce à une technologie de diffusion révolutionnaire.

EchoMimic | Animations de Portraits Dirigées par l'Audio

Générez des têtes parlantes réalistes et des gestes corporels synchronisés avec l'audio fourni.

Hunyuan3D 2.1 | Image vers Modèle 3D

Grand saut depuis 2.0 : Transformez instantanément des photos en modèles 3D incroyables.

LongCat Avatar dans ComfyUI | Animation d'avatar cohérente en termes d'identité

Transforme une image en une animation d'avatar fluide et cohérente en termes d'identité.

Wan 2.1 Fun | Génération Vidéo ControlNet

Générez des vidéos avec des passes visuelles de style ControlNet comme Profondeur, Canny, et OpenPose.

Wan 2.2 | Leader Open-Source en Génération Vidéo

Disponible maintenant ! Meilleure précision + mouvement plus fluide.

Omost | Améliorer la Création d'Images

Omost | Améliorer la Création d'Images

Omost utilise le codage LLM pour générer des images précises et de haute qualité.

Suivez-nous
  • LinkedIn
  • Facebook
  • Instagram
  • Twitter
Support
  • Discord
  • Email
  • État du système
  • affilié
Ressources
  • ComfyUI en ligne gratuit
  • Guides ComfyUI
  • RunComfy API
  • Tutoriels ComfyUI
  • Nœuds ComfyUI
  • En savoir plus
Légal
  • Conditions d'utilisation
  • Politique de confidentialité
  • Politique relative aux cookies
RunComfy
Droits d'auteur 2026 RunComfy. Tous droits réservés.

RunComfy est la première ComfyUI plateforme, offrant des ComfyUI en ligne environnement et services, ainsi que des workflows ComfyUI proposant des visuels époustouflants. RunComfy propose également AI Models, permettant aux artistes d'utiliser les derniers outils d'IA pour créer des œuvres d'art incroyables.