ComfyUI F5 TTS 工作流 | 文字转语音和语音克隆

ComfyUI F5 TTS Workflow

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

ComfyUI F5 TTS Examples

ComfyUI F5 TTS: 零样本文字转语音和语音克隆在一个工作流中#

此 ComfyUI F5 TTS 工作流让您可以直接在 ComfyUI 内从文字生成自然语音并克隆声音。它由 ComfyUI-F5-TTS 自定义节点提供支持，包括一个基于参考的完整克隆路径：提供一个短的 WAV 及其匹配的文字稿来调整模型，然后合成遵循参考说话者音色和风格的新台词。此图中还附带多个模型变体、语言和声码器的现成测试，您可以快速比较输出并决定最适合旁白、配音、角色对话或产品演示的选项。

一切都安排得井井有条，因此您可以以两种方式使用 ComfyUI F5 TTS：快速、一键式的英语、法语、德语和日语 TTS，或通过内置录音机或配对文件进行语音克隆。包括一个紧凑的 Whisper 转录路径，帮助您在已有清晰录音时获得准确的样本文字稿。

ComfyUI F5 TTS 工作流中的关键模型#

Fish Audio F5-TTS。零样本 TTS，从短参考中学习说话者特征，并在多种语言中生成高质量语音。查看项目以获取模型详细信息和训练背景。GitHub
OpenAI Whisper。用于自动转录您的参考剪辑，使样本文字完全匹配，从而提高克隆质量。GitHub
BigVGAN。作为解码选项的高保真神经声码器，提供更锐利、更清晰的输出。GitHub
Vocos。一种快速、轻量的神经声码器替代方案，专注于速度和低延迟。GitHub
ComfyUI-F5-TTS 自定义节点。ComfyUI 集成将 F5-TTS 和兼容的后端接入到此图中使用的节点。GitHub

如何使用 ComfyUI F5 TTS 工作流#

在较高层次上，工作流提供独立的组以进行快速模型比较和专门的克隆通道。首先试听预配置组以确认您喜欢的声音和声码器，然后使用您自己的样本进行克隆。下面的每个小节解释了该组的功能和重要的几个输入。

音频输入测试#

此通道展示了参考转录和条件处理。LoadAudio (#4) 引入 WAV，Apply Whisper (#13) 转录它，F5TTSAudioInputs (#26) 使用样本音频和 Whisper 文字在预览前调整声音。提供一个清晰的口语样本，让 Whisper 填充文字稿端口，以便配对完全匹配。如果您希望直接提供文件，将配对的 .wav 和 .txt 文件放在 ComfyUI/input 中，然后重新启动 ComfyUI 以便图中可以看到它们。

多语音测试#

此组展示了使用单个合成节点在一行中进行风格切换。F5TTSAudio (#17) 读取带标记段落的脚本，因此您可以在一次通过中试听多种角色风格或强调变化。这是一个快速了解 ComfyUI F5 TTS 如何处理对比音色或叙述者与角色节奏的方式。

英语音频#

使用 F5TTSAudio (#15) 进行简单的英语 TTS。输入您的脚本并预览以评估默认 F5 预设的基本发音和节奏。在您承诺进行克隆或多语音混合之前，此通道是快速迭代的理想选择。

F5v1#

此路径针对 F5 v1 变体运行 F5TTSAudio (#33) 节点，以便您可以将音调和韵律与主 F5 预设进行比较。使用与 EN 通道相同的文字以便于判断差异。这在选择较长项目的默认模型时很有帮助。

法语音频#

此通道针对法语合成，配置 F5TTSAudio (#27) 为法语预设。提供法语脚本并预览输出以检查鼻音元音和连读处理。与 EN 通道来回切换以比较清晰度和速度。

德语音频 bigvgan#

这里 F5TTSAudio (#30) 使用德语预设和 BigVGAN 声码器进行更明亮、更清晰的解码。当您想要更多存在感或工作室般的光泽时，请使用此通道。如果您更喜欢柔和的渲染，请与 Vocos 通道进行比较。

日语音频#

此路径使用 F5TTSAudio (#25) 配置为日语预设。粘贴日语脚本以评估音高重音和音节时间。它是动漫风格阅读或面向日本观众的产品线的良好起点。

E2 测试#

此组使用 E2 兼容预设和 Vocos 声码器测试 F5TTSAudio (#29)，以试听替代后端。用它来比较延迟和音色特征与您的 F5 运行。

克隆您的声音#

直接在 ComfyUI 中录制、配对和克隆。在 VrchAudioRecorderNode (#43) 中按下麦克风，并在“要录制的样本文本”框中的 Textbox (#42) 中阅读显示的提示。录音机将您的 WAV 路由到 F5TTSAudioInputs (#44)，以及您所说的准确文本，这在预览前根据您的音色和风格调整模型。在安静的房间中讲话，并确保参考文本与您所说的完全一致以获得最佳效果；然后输入您希望克隆的声音说出的任何新台词并运行图。

ComfyUI F5 TTS 工作流中的关键节点#

`F5TTSAudio` (#15)#

用于 EN、FR、DE、JP、F5v1 和 E2 组的核心单次 TTS 节点。提供您的脚本，并选择适合您的语言和传递方式的模型预设和声码器。如果您想要可复制的录音，请保持种子固定；如果您想要变化，请在运行之间随机化。实现由 ComfyUI-F5-TTS 扩展提供。GitHub GitHub - FishAudio/F5-TTS

`F5TTSAudioInputs` (#44)#

克隆入口，消耗一个参考 WAV 及其匹配的文字稿以建立说话者表示，然后在该声音中合成新台词。使用清晰的样本并保持一致的响度，确保文字稿准确以最大化相似性并减少伪影。如果您需要更明亮或更中性的解码，请在此处切换模型预设或声码器。GitHub - FishAudio/F5-TTS

`Apply Whisper` (#13)#

为您的参考样本进行自动转录。选择一个平衡速度和准确性的 Whisper 大小，以适应您的硬件和语言，然后将其输出文字提供给克隆节点，使音频和文字完美对齐。这可以防止样本文字与实际说出内容不同而导致的条件错误。GitHub

`VrchAudioRecorderNode` (#43)#

一个图内录音机，捕捉用于克隆的简短口语提示，无需外部工具。按住录音，释放停止，并立即听到 ComfyUI F5 TTS 以您的声音的效果。保持麦克风靠近并减少房间噪音以获得最清晰的结果。

可选附加功能#

使用 5 到 15 秒的干净语音作为参考，没有音乐或效果。
确保样本文字稿与录音完全匹配；即使是小的不匹配也会降低克隆保真度。
在同一行上比较 Vocos 和 BigVGAN，以决定速度和细节之间的选择。
当您需要一致的重录时保持固定种子；当探索风格时随机化。
对于多语言项目，首先试听 EN、FR、DE 和 JP 通道，然后在您对发音和节奏满意后最终确定克隆。

致谢#

此工作流实施并构建在以下作品和资源之上。我们感谢 niknah 提供 ComfyUI-F5-TTS 节点，niknah 提供 F5TTS-test-all.json 示例工作流，以及 r/StableDiffusion 社区提供的“在 ComfyUI 中使用 F5-TTS 进行语音克隆”指南的贡献和维护。如需权威详细信息，请参阅以下链接的原始文档和存储库。

资源#

niknah/ComfyUI-F5-TTS
- GitHub: niknah/ComfyUI-F5-TTS
niknah/ComfyUI-F5-TTS (示例工作流: F5TTS-test-all.json)
- GitHub: example_workflows/F5TTS-test-all.json
r/StableDiffusion/Community Guide (在 ComfyUI 中使用 F5-TTS 进行语音克隆)
- GitHub: example_web_viewer_005_audio_web_viewer_f5_tts.json
- 文档 / 发布说明: 使用 ComfyUI 几乎实时地轻松克隆您的声音！(包含逐步教程和工作流)

注意：所引用的模型、数据集和代码的使用受其作者和维护者提供的各自许可和条款的约束。

Want More ComfyUI Workflows?

MMAudio | 视频到音频

MMAudio：用于高质量音频生成的先进视频到音频模型。

ACE-Step 音乐生成 | AI 音频创作

利用突破性的扩散技术，生成录音室质量的音乐，速度提高 15 倍。

EchoMimic | 音频驱动的人像动画

生成与提供的音频同步的逼真说话头像和身体动作。

Hunyuan3D 2.1 | 图像到3D模型

从2.0到大跃进：瞬间将照片变成令人惊叹的3D模型。

产品重新照明 | Magnific.AI Relight 替代方案

轻松提升您的产品摄影，是 Magnific.AI Relight 的顶级替代方案。

Qwen 图像编辑 | 精准 AI 照片编辑

通过风格、重新照明和对象控制精度快速编辑照片。

InfiniteYou | 身份保留人脸生成

使用 InfiniteYou 的人脸合并和零样本工作流进行双模式身份保留生成。

Character AI Ovi | 会说话的化身生成器

将任何照片转换为具有情感和语音的逼真会说话的化身。

关注我们

支持

资源

法律

RunComfy

RunComfy 是首选的 ComfyUI 平台，提供 ComfyUI 在线环境和服务，以及 ComfyUI 工作流具有惊艳的视觉效果。 RunComfy还提供 AI Models, 帮助艺术家利用最新的AI工具创作出令人惊叹的艺术作品。

ComfyUI F5 TTS | 自然语音克隆引擎