ChatterBox TTS ComfyUI : TTS multi-mode, conversion de voix, multilingue et synthèse de dialogue en un seul graphique#
ChatterBox TTS ComfyUI est un workflow audio compact et convivial qui vous permet de générer du discours dans plusieurs modes à partir d'une seule toile : TTS standard, Turbo TTS pour des brouillons rapides, narration multilingue, clonage de voix guidé par référence, conversion de voix et dialogue scripté à deux interlocuteurs. Il est alimenté par la suite de nœuds FL ChatterBox de ComfyUI_Fill-ChatterBox, qui intègre le projet open-source Resemble AI Chatterbox.
Utilisez ce workflow pour prototyper des voix AI, localiser des répliques dans d'autres langues, convertir une performance en une autre voix, ou organiser des échanges de personnages. La disposition garde chaque chemin séparé, vous permettant d'auditionner les résultats côte à côte et de décider rapidement quel mode ChatterBox TTS ComfyUI convient à votre tâche.
Modèles clés dans le workflow Comfyui ChatterBox TTS ComfyUI#
- Modèles TTS Chatterbox de Resemble AI. TTS neuronal de base qui transforme un script en discours naturel, avec une option audio de référence pour orienter la voix et le style. Resemble AI Chatterbox
- Chatterbox Turbo TTS de Resemble AI. Une variante TTS à faible latence optimisée pour la vitesse lorsque vous avez besoin de prises rapides et d'incitations itératives. Resemble AI Chatterbox
- Chatterbox Multilingual TTS de Resemble AI. Modèles qui rendent le texte dans plusieurs langues tout en préservant un style ou une voix de référence choisi. Resemble AI Chatterbox
- Conversion de voix Chatterbox de Resemble AI. Transforme le timbre d'un enregistrement en une voix cible tout en conservant le timing et le contenu. Resemble AI Chatterbox
Comment utiliser le workflow Comfyui ChatterBox TTS ComfyUI#
Ce graphique est organisé comme des chemins parallèles qui commencent à partir d'entrées audio partagées et se dirigent vers les nœuds ChatterBox, chacun prévisualisant son propre résultat. Chargez ou remplacez les deux clips d'entrée, puis déclenchez le chemin souhaité.
Entrées : audio de référence et source#
Deux nœuds LoadAudio fournissent des entrées réutilisables. LoadAudio (#12) alimente plusieurs chemins en tant que style ou référence source. LoadAudio (#20) sert de référence alternative ou de voix cible. Vous pouvez pointer ces derniers vers des clips courts et propres qui représentent le style de parole ou l'identité que vous souhaitez émuler. Les deux acceptent des fichiers audio courants et peuvent également extraire l'audio d'une vidéo.
TTS standard avec référence de style optionnelle#
FL_ChatterboxTTS (#16) génère un discours à partir de votre script et peut éventuellement prendre audio_prompt de LoadAudio (#12) pour capturer la voix et la livraison. Entrez votre texte, connectez une référence appropriée si vous souhaitez une similarité vocale, et mettez en file d'attente le nœud. Utilisez le PreviewAudio attaché pour auditionner. Fixez la graine lorsque vous avez besoin de prises reproductibles, ou randomisez pour explorer les variations.
Turbo TTS pour une itération rapide#
FL_ChatterboxTurboTTS (#15) se concentre sur la synthèse rapide pour des brouillons rapides et l'édition interactive. Il accepte un audio_prompt de LoadAudio (#20) si vous souhaitez influencer le ton ou l'identité. Gardez les scripts concis lors de mouvements rapides, et expérimentez avec le balisage comme l'exemple "[laugh]" pour tester les indices non verbaux. Prévisualisez le résultat, puis passez à TTS standard ou multilingue si vous souhaitez une livraison plus riche.
Narration multilingue#
FL_ChatterboxMultilingualTTS (#25) rend votre script dans la langue sélectionnée et peut emprunter le style de audio_prompt sur LoadAudio (#12). Choisissez l'étiquette de langue (par exemple, English (en) comme indiqué dans le graphique) et fournissez le texte dans cette langue. Un court clip de référence aide à maintenir un accent ou une personnalité cohérent à travers les langues. Écoutez dans PreviewAudio et itérez sur la formulation pour plus de clarté.
Conversion de voix#
FL_ChatterboxVC (#19) convertit le timbre d'une ligne input_audio de LoadAudio (#12) en target_voice de LoadAudio (#20). C'est idéal lorsque vous avez déjà une lecture parfaitement chronométrée et que vous souhaitez simplement qu'elle soit prononcée par une autre voix. Éliminez les silences et gardez la voix cible propre pour réduire les artefacts. Utilisez la prévisualisation pour confirmer que le contenu est préservé tandis que l'identité change.
Synthèse de dialogue à deux interlocuteurs#
FL_ChatterboxDialogTTS (#23) transforme un script multi-lignes en une seule piste dialog_audio. Fournissez des speaker_A_Audio et speaker_B_Audio optionnels à partir des deux nœuds LoadAudio pour ancrer la voix de chaque personnage. Dans la boîte de script, préfixez les lignes avec des balises de locuteur comme "SPEAKER A:" et "SPEAKER B:" pour attribuer les tours, comme démontré dans le graphique. Vous pouvez étendre aux locuteurs C et D en ajoutant des clips de référence à leurs entrées.
Prévisualiser et comparer#
Chaque chemin s'étend à son propre PreviewAudio pour que vous puissiez écouter immédiatement et comparer les modes. Exécutez un chemin à la fois ou mettez plusieurs en file d'attente pour auditionner les différences entre les sorties standard, Turbo, multilingue, conversion et dialogue au sein de la même session ChatterBox TTS ComfyUI.
Nœuds clés dans le workflow Comfyui ChatterBox TTS ComfyUI#
FL_ChatterboxTTS (#16)#
TTS polyvalent qui accepte un script et une référence audio_prompt optionnelle pour imiter le style. Utilisez-le lorsque la qualité et la contrôlabilité sont les plus importantes. Gardez le même clip de référence à travers les prises pour une identité cohérente, et verrouillez la graine lorsque vous avez besoin d'une reproductibilité exacte.
FL_ChatterboxTurboTTS (#15)#
TTS rapide pour ébaucher des lignes, itérer sur des incitations ou prévisualiser des idées de balisage. Il accepte également audio_prompt pour diriger la voix. Si vous remarquez une prosodie plus fine par rapport au chemin standard, finalisez avec FL_ChatterboxTTS en utilisant le même script et référence.
FL_ChatterboxMultilingualTTS (#25)#
TTS conscient des langues qui préserve une personnalité choisie tout en changeant de langue. Choisissez l'étiquette de langue et fournissez le texte dans cette langue. Un audio_prompt correspondant garde l'accent et l'énergie alignés avec votre voix de référence.
FL_ChatterboxVC (#19)#
Conversion de voix qui mappe une performance input_audio à une target_voice. Utilisez un clip cible propre et représentatif et une lecture source bien rythmée. Pour de meilleurs résultats, éliminez les longs silences et évitez le bruit de fond important dans l'un ou l'autre clip.
FL_ChatterboxDialogTTS (#23)#
TTS multi-locuteur qui analyse les lignes étiquetées en une seule conversation. Assignez des références pour chaque entrée de personnage que vous prévoyez d'utiliser, puis structurez le script avec des balises "SPEAKER X:" claires. Gardez les tours raisonnablement courts pour un rythme naturel et des modifications de timing plus faciles plus tard.
Extras optionnels#
- Gardez les clips de référence courts, propres et expressifs ; le bruit de fond et l'intonation réduisent la fidélité de la voix.
- Utilisez une graine fixe lorsque vous devez faire correspondre le timing et la livraison à travers les révisions ; randomisez pour explorer des alternatives.
- Si un chemin semble trop fort ou saturé, normalisez vos références et réduisez le gain d'entrée avant la synthèse.
- Turbo est idéal pour explorer les incitations ; réexécutez les lignes prometteuses avec TTS standard ou multilingue pour une finition finale.
- Les scripts de dialogue sont plus faciles à maintenir si vous placez une phrase par ligne et étiquetez les locuteurs de manière cohérente.
- Ajoutez un nœud
SaveAudioaprès toute prévisualisation si vous souhaitez exporter des fichiers directement depuis la toile.
ChatterBox TTS ComfyUI vous offre un terrain de jeu flexible en un seul graphique pour essayer des voix, des langues et des dialogues sans changer de contexte, le tout soutenu par ComfyUI_Fill-ChatterBox et Resemble AI Chatterbox.
Remerciements#
Ce workflow implémente et s'appuie sur les travaux et ressources suivants. Nous remercions chaleureusement filliptm pour ComfyUI_Fill-ChatterBox et Resemble AI pour Chatterbox, pour leurs contributions et leur maintenance. Pour des détails autoritaires, veuillez vous référer à la documentation originale et aux dépôts liés ci-dessous.
Ressources#
- filliptm/ComfyUI_Fill-ChatterBox
- GitHub: filliptm/ComfyUI_Fill-ChatterBox
- resemble-ai/chatterbox
- GitHub: resemble-ai/chatterbox
Note: L'utilisation des modèles, ensembles de données et code référencés est soumise aux licences et conditions respectives fournies par leurs auteurs et mainteneurs.


