logo
RunComfy
  • ComfyUI
  • TrainerNew
  • Models
  • API
  • Pricing
discord logo
ComfyUI>Workflows>ComfyUI MOSS TTS | Générateur de Voix & Parole AI

ComfyUI MOSS TTS | Générateur de Voix & Parole AI

Workflow Name: RunComfy/ComfyUI-MOSS-TTS
Workflow ID: 0000...1401
Avec ce workflow, vous pouvez créer des voix à sonorité naturelle directement à partir de texte en utilisant la technologie OpenMOSS. Il vous aide à concevoir des voix uniques, à générer des dialogues entre plusieurs locuteurs et à affiner le ton émotionnel de la parole. Parfait pour les concepteurs audio ou les animateurs recherchant des pipelines vocaux polyvalents. Prend en charge à la fois les modèles locaux rapides et les modèles étendus pour une performance équilibrée. Personnalisez le ton, la hauteur et la livraison de manière transparente au sein du workflow de votre projet.

ComfyUI MOSS TTS: synthèse vocale, clonage de voix, effets spéciaux, et dialogue dans un seul workflow

Ce workflow ComfyUI MOSS TTS transforme le texte en parole vivante à 24 kHz en utilisant la famille OpenMOSS MOSS-TTS. Il couvre la synthèse rapide à un seul locuteur, le clonage de voix zéro-coup à partir d'un court extrait de référence, la conception vocale descriptive, les effets sonores procéduraux, et le dialogue multi-locuteurs avec des références optionnelles par locuteur.

Construit sur la pile de nœuds et la famille de modèles officiels MOSS-TTS, il équilibre vitesse et qualité. Le chemin Local 1.7B est la voie rapide pratique sur un seul GPU, tandis que les modèles Delay 8B plus grands échangent la vitesse pour une capacité et une expressivité plus larges. Si vous avez besoin de prompts réutilisables, de voix clonées ou de dialogues dans ComfyUI, ce workflow ComfyUI MOSS TTS est conçu pour vous.

Modèles clés dans le workflow ComfyUI MOSS TTS

  • OpenMOSS MOSS-TTS Local 1.7B. Transformateur de synthèse vocale à un seul GPU qui délivre une parole naturelle à 24 kHz pour le travail de production quotidien. Carte du modèle : MOSS-TTS-Local-Transformer.
  • OpenMOSS MOSS-TTS Delay 8B. Une ligne de modèles plus grande qui met l'accent sur la qualité, la similarité des locuteurs et la prosodie au détriment de la vitesse et de la mémoire. Carte du modèle : MOSS-TTS.
  • MOSS Audio Tokenizer. Le codec appris qui relie les formes d'onde et les tokens discrets pour les modèles MOSS-TTS, permettant un décodage haute fidélité. Carte du modèle : MOSS-Audio-Tokenizer.

Pour les détails de mise en œuvre et les mises à jour, consultez les dépôts officiels : OpenMOSS/MOSS-TTS et la pile de nœuds alimentant ce workflow richservo/comfyui-moss-tts.

Comment utiliser le workflow ComfyUI MOSS TTS

Ce graphique est organisé en cinq groupes indépendants. Choisissez le groupe qui correspond à votre objectif, exécutez-le, puis prévisualisez l'audio directement sur le canevas. Vous pouvez exécuter plusieurs groupes en parallèle pour auditionner différentes approches.

TTS de base

Le groupe TTS de base convertit le texte brut en parole avec le chemin rapide Local 1.7B. Chargez le modèle dans MossTTSModelLoader (#1), alimentez votre texte dans MossTTSGenerate (#2), puis écoutez dans PreviewAudio (#3). Le générateur se conditionne sur votre prompt pour façonner la prononciation et la prosodie, donc écrivez naturellement avec ponctuation pour le rythme. Gardez la graine fixe lorsque vous voulez des prises répétables, ou randomisez-la lorsque vous explorez des variantes de livraison.

Clonage de voix

Le groupe de clonage de voix effectue le clonage de voix zéro-coup à partir d'un court extrait audio de référence. Importez un échantillon de voix propre en utilisant LoadAudio (#4), connectez-le à MossTTSGenerate (#6) piloté par MossTTSModelLoader (#5), et fournissez le texte cible. Le modèle extrait le timbre et le style du locuteur à partir de la référence et rend votre nouveau script dans cette voix. Utilisez un contenu neutre et un bruit de fond minimal dans la référence pour améliorer la similarité, et gardez les durées modérées pour un retour rapide.

Conception de voix

La conception de voix crée une nouvelle voix à partir d'une description en langage naturel plutôt que d'un extrait d'exemple. MossTTSVoiceDesign (#9) utilise une description textuelle comme "Une voix masculine chaude, profonde avec un léger accent britannique," combinée à votre script, pour synthétiser une parole à 24 kHz. Le nœud est alimenté par un chemin de générateur de voix dédié chargé via MossTTSModelLoader (#8). C'est idéal lorsque vous voulez une persona cohérente et reproductible sans source d'enregistrements réels. Affinez les descripteurs avec des traits tels que l'âge, le timbre, l'accent et l'énergie pour orienter le son.

Effets sonores

Les effets sonores génèrent de l'audio non verbal à partir de prompts textuels, utiles pour les pistes de fond, les transitions ou les couches ambiantes. Avec MossTTSSoundEffect (#12) et son tuyau modèle de MossTTSModelLoader (#11), des prompts comme "Pluie battante sur un toit en tôle avec tonnerre lointain" produisent des textures riches et bouclables. Utilisez des noms et des actions concis pour définir la scène, puis ajoutez quelques adjectifs pour clouer l'intensité ou la distance. Prévisualisez dans PreviewAudio (#13) et itérez rapidement pour ajuster votre mixage.

Dialogue multi-locuteurs

Le groupe de dialogue multi-locuteurs rend des conversations scriptées avec des extraits de référence optionnels par locuteur. Écrivez votre script en utilisant des balises de locuteur entre crochets, par exemple [S1] Bonjour. et [S2] Salut !, puis passez-le à MossTTSDialogue (#15) sous le tuyau modèle de MossTTSModelLoader (#14). Vous pouvez attacher des entrées audio de référence pour S1 et S2 pour cloner des voix spécifiques pour chaque rôle, ou les laisser vides pour laisser le modèle choisir des locuteurs distincts à partir du contexte textuel seul. Ce chemin est bien adapté pour les appels et réponses, la narration avec des lignes de personnages, ou les maquettes d'interface utilisateur vocale.

Nœuds clés dans le workflow ComfyUI MOSS TTS

MossTTSModelLoader (#1)

Charge la famille de modèles OpenMOSS sélectionnée et assemble le pipeline TTS interne. Choisissez la variante Local 1.7B pour une itération rapide sur un seul GPU, ou passez à un modèle Delay 8B plus grand lorsque vous privilégiez l'expressivité et la similarité. Gardez un chargeur par famille de tâches pour que chaque branche en aval reste autonome.

MossTTSGenerate (#2)

Le principal synthétiseur à un seul locuteur qui consomme votre prompt textuel et un audio de référence optionnel pour produire une parole à 24 kHz. Fournissez un texte propre et bien ponctué pour un rythme plus clair, et connectez un court extrait vocal lorsque vous avez besoin d'un clonage zéro-coup. Basculer entre des semences fixes et aléatoires pour équilibrer la reproductibilité et l'exploration.

MossTTSVoiceDesign (#9)

Génère une voix nouvelle à partir d'un prompt descriptif accompagné du texte à prononcer. Concentrez la description sur le timbre, l'âge, l'accent et l'énergie pour orienter l'identité tout en la gardant concise. C'est un choix fort lorsque le licenciement ou la source d'une voix réelle n'est pas pratique.

MossTTSSoundEffect (#12)

Synthétise de l'audio non verbal à partir d'une courte description textuelle. Écrivez des prompts compacts qui ancrent la source, l'action et l'espace, puis itérez pour correspondre à la scène. Idéal pour l'ambiance et les one-shots dans le même graphique ComfyUI MOSS TTS que vous utilisez pour le dialogue.

MossTTSDialogue (#15)

Analyse les balises de locuteur entre crochets et rend les conversations multi-tours comme une seule sortie audio. Utilisez [S1], [S2], etc. pour marquer chaque ligne, et connectez éventuellement des extraits de référence par locuteur pour préserver l'identité à travers les tours. Gardez les lignes concises pour les transferts les plus fiables entre les locuteurs.

Extras optionnels

  • Commencez avec le modèle Local 1.7B pour des brouillons rapides, puis passez à un point de contrôle Delay 8B lorsque vous avez besoin d'une plus forte similarité ou d'une prosodie plus riche.
  • Pour le clonage zéro-coup, utilisez un extrait vocal propre de 5 à 15 s avec un minimum de réverbération et de bruit pour améliorer le transfert de timbre.
  • Dans le dialogue, gardez les balises de locuteur cohérentes et sans ponctuation comme [S1] pour éviter les erreurs d'analyse.
  • Concevez des prompts de conception vocale avec 3 à 6 traits tels que le timbre, l'âge, l'accent, le style et l'énergie pour des résultats prévisibles.
  • Utilisez la ponctuation et les sauts de ligne dans votre texte pour contrôler les pauses et le rythme dans les sorties ComfyUI MOSS TTS.
  • Ajoutez un nœud SaveAudio après toute prévisualisation si vous souhaitez une exportation automatique de fichiers pour les rendus par lots.

Références : OpenMOSS/MOSS-TTS • MOSS-TTS-Local-Transformer • MOSS-TTS • MOSS-Audio-Tokenizer • comfyui-moss-tts

Remerciements

Ce workflow implémente et s'appuie sur les travaux et ressources suivants. Nous remercions chaleureusement richservo pour les nœuds personnalisés ComfyUI MOSS-TTS, OpenMOSS pour le dépôt MOSS-TTS, et OpenMOSS-Team pour les modèles MOSS-TTS (Delay 8B et Local 1.7B) et le MOSS Audio Tokenizer pour leurs contributions et leur maintenance. Pour des détails autoritaires, veuillez vous référer à la documentation et aux dépôts originaux liés ci-dessous.

Ressources

  • richservo/comfyui-moss-tts
    • GitHub: richservo/comfyui-moss-tts
  • OpenMOSS/MOSS-TTS
    • GitHub: OpenMOSS/MOSS-TTS
    • Hugging Face: OpenMOSS-Team/MOSS-TTS
    • arXiv: 2603.18090
  • OpenMOSS-Team/MOSS-TTS (Delay 8B)
    • GitHub: OpenMOSS/MOSS-TTS
    • Hugging Face: OpenMOSS-Team/MOSS-TTS
    • arXiv: 2603.18090
  • OpenMOSS-Team/MOSS-TTS-Local-Transformer (Local 1.7B)
    • GitHub: OpenMOSS/MOSS-TTS
    • Hugging Face: OpenMOSS-Team/MOSS-TTS-Local-Transformer
    • arXiv: 2603.18090
  • OpenMOSS-Team/MOSS-Audio-Tokenizer
    • Hugging Face: OpenMOSS-Team/MOSS-Audio-Tokenizer
    • arXiv: 2602.10934

Note : L'utilisation des modèles, ensembles de données et code référencés est soumise aux licences et termes respectifs fournis par leurs auteurs et mainteneurs.

Want More ComfyUI Workflows?

Fish Audio S2 TTS | Générateur de Voix Expressif

Créez des discours réalistes avec des émotions, des styles et des voix clonées rapidement.

MMAudio | Vidéo-à-Audio

MMAudio : Modèle vidéo-à-audio avancé pour la génération audio de haute qualité.

Génération Musicale ACE-Step | Création Audio IA

Générez de la musique de qualité studio 15× plus rapidement grâce à une technologie de diffusion révolutionnaire.

ACE-Step 1.5XL Base texte en musique | Générateur de son AI

Transforme votre texte en musique entièrement créée par IA instantanément.

ACE-Step 1.5XL Turbo comfyui workflow | Générateur de texte en musique

Transforme votre texte en musique incroyable rapidement et clairement.

APISR | Upscaler d'images/vidéos d'anime

Le modèle APISR améliore et restaure les images et vidéos d'anime, rendant vos visuels plus vibrants et plus nets.

Portrait en direct avancé | Contrôle des paramètres

Utilisez des paramètres personnalisables pour contrôler chaque caractéristique, des clignements d'yeux aux mouvements de tête, pour des résultats naturels.

Wan2.2 Animate | Photo en vidéo réaliste

Transformez des images en personnages vivants et animés avec un mouvement naturel du corps et du visage.

Suivez-nous
  • LinkedIn
  • Facebook
  • Instagram
  • Twitter
Support
  • Discord
  • Email
  • État du système
  • affilié
Ressources
  • ComfyUI en ligne gratuit
  • Guides ComfyUI
  • RunComfy API
  • RunComfy MCP
  • Tutoriels ComfyUI
  • Nœuds ComfyUI
  • En savoir plus
Légal
  • Conditions d'utilisation
  • Politique de confidentialité
  • Politique relative aux cookies
RunComfy
Droits d'auteur 2026 RunComfy. Tous droits réservés.

RunComfy est la première ComfyUI plateforme, offrant des ComfyUI en ligne environnement et services, ainsi que des workflows ComfyUI proposant des visuels époustouflants. RunComfy propose également AI Models, permettant aux artistes d'utiliser les derniers outils d'IA pour créer des œuvres d'art incroyables.