ComfyUI>Рабочие процессы>Fish Audio S2 TTS | Генератор выразительного голоса

Fish Audio S2 TTS | Генератор выразительного голоса

Workflow Name: RunComfy/Fish-Audio-S2-TTS
Workflow ID: 0000...1374
С помощью этого рабочего процесса вы можете преобразовать текст в выразительный, естественный голосовой выход, используя мощный синтез речи. Он поддерживает многоголосые диалоги, теги эмоций и стиля, а также точное клонирование голоса из образцов клипов. Выбирайте настраиваемые теги эмоций, такие как шепот или смех, чтобы оживить сценарии. Настройка позволяет гибко управлять тоном и быстро выполнять вывод для разнообразных голосовых проектов. Идеально подходит для создателей, ищущих реалистичное, эмоционально насыщенное повествование или генерацию диалогов с помощью передового моделирования TTS.

ComfyUI Fish Audio S2 TTS Workflow

Fish Audio S2 TTS in ComfyUI | Emotion, Multi-Speaker, Cloning
Want to run this workflow?
  • Fully operational workflows
  • No missing nodes or models
  • No manual setups required
  • Features stunning visuals

ComfyUI Fish Audio S2 TTS Examples

Fish Audio S2 TTS для ComfyUI: высококачественный TTS, клонирование голоса и многоголосые диалоги#

Fish Audio S2 TTS — это готовый к использованию рабочий процесс ComfyUI, который превращает текст в естественную речь, клонирует голос из короткого эталонного клипа и генерирует многоголосые разговоры. Он работает на базе семейства Fish Audio S2-Pro и поддерживает богатое управление стилем с помощью тегов эмоций и прозодии, таких как [excited], [whisper] и [laughing].

Этот рабочий процесс идеально подходит для создателей, продуктовых команд и разработчиков, которые хотят иметь гибкий, выразительный синтез речи в ComfyUI. Он включает в себя опциональное преобразование речи в текст для быстрого захвата транскрипции, автоматическое обнаружение языка и несколько вариантов точности, включая fp8 и sage_attention для эффективного вывода.

Примечание: Запускайте этот рабочий процесс на машине типа 2X Large или больше. Более мелкие экземпляры могут столкнуться с нехваткой памяти (OOM).

Основные модели в рабочем процессе Comfyui Fish Audio S2 TTS#

  • Fish Audio S2-Pro — основная генеративная модель синтеза текста в речь, используемая для одноголосого TTS, клонирования голоса и многоголосых диалогов. Она поддерживает обширные стилевые токены и многоязычный синтез model card и является частью проекта Fish-Speech repo.
  • Fish Audio S2-Pro FP8 — вариант S2-Pro с эффективным использованием памяти, который снижает потребности в VRAM с минимальными потерями качества, рекомендуется для ограниченных GPU model card.
  • OpenAI Whisper large-v3 — опциональная модель преобразования речи в текст, используемая для автоматической транскрипции вашего эталонного аудио при подготовке подсказок для клонирования голоса repo.

Как использовать рабочий процесс Comfyui Fish Audio S2 TTS#

Этот рабочий процесс содержит три основных пути, которые можно запускать независимо: TTS, Voice Clone и Multi Speaker Clone. Опциональная группа Whisper STT может генерировать транскрипцию для клонирования голоса. Каждый путь заканчивается предварительным прослушиванием аудио, чтобы вы могли быстро оценить результаты.

Группа TTS#

Узел FishS2TTS (#42) выполняет прямое преобразование текста в речь с помощью Fish Audio S2 TTS. Введите свой сценарий в текстовое поле узла и добавьте теги стиля, такие как [excited], [pause] или [whisper], чтобы сформировать эмоции и темп. Обнаружение языка происходит автоматически, поэтому вы можете писать на целевом языке, и модель адаптируется. Выберите вариант S2-Pro, соответствующий памяти вашего GPU, например fp8 для меньших нагрузок. Выход направляется в PreviewAudio для мгновенного прослушивания.

Группа Voice Clone#

Используйте LoadAudio, чтобы предоставить короткий, чистый эталонный клип целевого голоса, затем направьте его в FishS2VoiceCloneTTS (#14). Предоставьте транскрипцию, соответствующую желаемому стилю речи; точный текст помогает модели сохранить ритм и акцент. Вы можете использовать текст из группы STT или ввести свой собственный, а также добавить теги стиля для уточнения эмоций и подачи. Настройки точности и внимания помогают сбалансировать скорость, память и стабильность для длинных строк. Синтезированный клон отправляется в PreviewAudio, чтобы вы могли быстро итератировать.

Группа Multi Speaker Clone#

Загрузите один эталонный клип на каждого говорящего, используя узлы LoadAudio, затем подключите их к FishS2MultiSpeakerTTS (#41). Предоставьте сценарий диалога, который маркирует каждый поворот с помощью [speaker_1], [speaker_2] и так далее. Этот шаблон по умолчанию включает двух говорящих, и узел поддерживает масштабирование до восьми различных голосов при соответствующей настройке. Вы можете смешивать повествовательную прозу, теги и диалог для управления потоком и эмоциями каждого персонажа. Финальный микс предварительно прослушивается для проверки времени и ясности.

Whisper STT для клонирования голоса (опционально)#

Load Whisper (mtb) (#6) с large-v3 обеспечивает работу Audio To Text (mtb) (#7) для автоматической транскрипции эталонного клипа. Распознанный текст отображается ShowText|pysssss (#8). Небольшой переключатель, построенный с использованием ComfySwitchNode (#34) и булевого управления, позволяет выбрать между выводом STT (true) или вашим собственным введенным текстом из Text Box line spot (#31) (false). Это полезно, когда вам нужна быстрая базовая транскрипция или при создании точной подсказки для клонирования.

Ключевые узлы в рабочем процессе Comfyui Fish Audio S2 TTS#

FishS2TTS (#42)#

Генерирует одноголосую речь из текста с опциональными тегами стиля и автоматическим обнаружением языка. Настройте вариант модели в соответствии с вашим оборудованием, например, выбрав fp8, когда VRAM ограничен. Используйте контроль семян для повторяемых дублей и вносите небольшие изменения при исследовании альтернативных подач. Для длинных сценариев выберите бэкэнд внимания, оптимизированный для стабильности.

FishS2VoiceCloneTTS (#14)#

Создает клонированный голос, используя в качестве условия reference_audio и reference_text. Лучшие результаты достигаются из чистой речи с постоянным тоном и транскрипцией, которая отражает предполагаемую каденцию. Теги стиля могут быть добавлены в финальный текст для управления настроением без ущерба для идентичности. Настройки точности и внимания помогают сбалансировать качество и память для расширенных строк.

FishS2MultiSpeakerTTS (#41)#

Синтезирует многоголосые разговоры, сочетая эталонное аудио каждого говорящего с диалогом, маркированным метками [speaker_n]. Увеличьте количество говорящих по мере необходимости и назначьте отдельные клипы для более сильного разделения. Поддерживайте постоянный тон эталонного аудио каждого говорящего, чтобы избежать смешивания. Используйте seed для детерминированного микширования при рендеринге сцен с несколькими дублями.

Дополнительные опции#

  • Используйте теги стиля обдуманно. Начните с нескольких, таких как [excited], [whisper], [emphasis], [pause], и добавляйте только по мере необходимости для ясности.
  • Для клонирования голоса обрежьте тишину в начале и конце эталонного аудио и избегайте фонового шума, чтобы сохранить тембр.
  • Если память GPU ограничена, предпочитайте S2-Pro fp8 или варианты с квантованием во время выполнения. Для максимальной точности используйте более высокую точность.
  • Пунктуация имеет значение. Запятые и точки улучшают фразировку, а теги, размещенные на границах клауз, звучат более естественно.
  • Для многоголосых сценариев держите одно высказывание на строку и всегда префиксируйте правильной меткой [speaker_n] для поддержания разделения.

Ресурсы:

Благодарности#

Этот рабочий процесс реализует и основывается на следующих работах и ресурсах. Мы выражаем благодарность Saganaki22 за пользовательские узлы ComfyUI-FishAudioS2 и Fish Audio за модель S2-Pro за их вклад и поддержку. Для получения авторитетной информации, пожалуйста, обратитесь к оригинальной документации и репозиториям, указанным ниже.

Ресурсы#

Примечание: Использование ссылочных моделей, наборов данных и кода подчиняется соответствующим лицензиям и условиям, предоставленным их авторами и поддерживающими организациями.

Want More ComfyUI Workflows?

RunComfy
Авторское право 2026 RunComfy. Все права защищены.

RunComfy - ведущая ComfyUI платформа, предлагающая ComfyUI онлайн среду и услуги, а также рабочие процессы ComfyUI с потрясающей визуализацией. RunComfy также предоставляет AI Models, позволяя художникам использовать новейшие инструменты AI для создания невероятного искусства.