logo
RunComfy
  • ComfyUI
  • TrainerNew
  • Models
  • API
  • Pricing
discord logo
ComfyUI>Рабочие процессы>Fish Audio S2 TTS | Генератор выразительного голоса

Fish Audio S2 TTS | Генератор выразительного голоса

Workflow Name: RunComfy/Fish-Audio-S2-TTS
Workflow ID: 0000...1374
С помощью этого рабочего процесса вы можете преобразовать текст в выразительный, естественный голосовой выход, используя мощный синтез речи. Он поддерживает многоголосые диалоги, теги эмоций и стиля, а также точное клонирование голоса из образцов клипов. Выбирайте настраиваемые теги эмоций, такие как шепот или смех, чтобы оживить сценарии. Настройка позволяет гибко управлять тоном и быстро выполнять вывод для разнообразных голосовых проектов. Идеально подходит для создателей, ищущих реалистичное, эмоционально насыщенное повествование или генерацию диалогов с помощью передового моделирования TTS.

Fish Audio S2 TTS для ComfyUI: высококачественный TTS, клонирование голоса и многоголосые диалоги#

Fish Audio S2 TTS — это готовый к использованию рабочий процесс ComfyUI, который превращает текст в естественную речь, клонирует голос из короткого эталонного клипа и генерирует многоголосые разговоры. Он работает на базе семейства Fish Audio S2-Pro и поддерживает богатое управление стилем с помощью тегов эмоций и прозодии, таких как [excited], [whisper] и [laughing].

Этот рабочий процесс идеально подходит для создателей, продуктовых команд и разработчиков, которые хотят иметь гибкий, выразительный синтез речи в ComfyUI. Он включает в себя опциональное преобразование речи в текст для быстрого захвата транскрипции, автоматическое обнаружение языка и несколько вариантов точности, включая fp8 и sage_attention для эффективного вывода.

Примечание: Запускайте этот рабочий процесс на машине типа 2X Large или больше. Более мелкие экземпляры могут столкнуться с нехваткой памяти (OOM).

Основные модели в рабочем процессе Comfyui Fish Audio S2 TTS#

  • Fish Audio S2-Pro — основная генеративная модель синтеза текста в речь, используемая для одноголосого TTS, клонирования голоса и многоголосых диалогов. Она поддерживает обширные стилевые токены и многоязычный синтез model card и является частью проекта Fish-Speech repo.
  • Fish Audio S2-Pro FP8 — вариант S2-Pro с эффективным использованием памяти, который снижает потребности в VRAM с минимальными потерями качества, рекомендуется для ограниченных GPU model card.
  • OpenAI Whisper large-v3 — опциональная модель преобразования речи в текст, используемая для автоматической транскрипции вашего эталонного аудио при подготовке подсказок для клонирования голоса repo.

Как использовать рабочий процесс Comfyui Fish Audio S2 TTS#

Этот рабочий процесс содержит три основных пути, которые можно запускать независимо: TTS, Voice Clone и Multi Speaker Clone. Опциональная группа Whisper STT может генерировать транскрипцию для клонирования голоса. Каждый путь заканчивается предварительным прослушиванием аудио, чтобы вы могли быстро оценить результаты.

Группа TTS#

Узел FishS2TTS (#42) выполняет прямое преобразование текста в речь с помощью Fish Audio S2 TTS. Введите свой сценарий в текстовое поле узла и добавьте теги стиля, такие как [excited], [pause] или [whisper], чтобы сформировать эмоции и темп. Обнаружение языка происходит автоматически, поэтому вы можете писать на целевом языке, и модель адаптируется. Выберите вариант S2-Pro, соответствующий памяти вашего GPU, например fp8 для меньших нагрузок. Выход направляется в PreviewAudio для мгновенного прослушивания.

Группа Voice Clone#

Используйте LoadAudio, чтобы предоставить короткий, чистый эталонный клип целевого голоса, затем направьте его в FishS2VoiceCloneTTS (#14). Предоставьте транскрипцию, соответствующую желаемому стилю речи; точный текст помогает модели сохранить ритм и акцент. Вы можете использовать текст из группы STT или ввести свой собственный, а также добавить теги стиля для уточнения эмоций и подачи. Настройки точности и внимания помогают сбалансировать скорость, память и стабильность для длинных строк. Синтезированный клон отправляется в PreviewAudio, чтобы вы могли быстро итератировать.

Группа Multi Speaker Clone#

Загрузите один эталонный клип на каждого говорящего, используя узлы LoadAudio, затем подключите их к FishS2MultiSpeakerTTS (#41). Предоставьте сценарий диалога, который маркирует каждый поворот с помощью [speaker_1], [speaker_2] и так далее. Этот шаблон по умолчанию включает двух говорящих, и узел поддерживает масштабирование до восьми различных голосов при соответствующей настройке. Вы можете смешивать повествовательную прозу, теги и диалог для управления потоком и эмоциями каждого персонажа. Финальный микс предварительно прослушивается для проверки времени и ясности.

Whisper STT для клонирования голоса (опционально)#

Load Whisper (mtb) (#6) с large-v3 обеспечивает работу Audio To Text (mtb) (#7) для автоматической транскрипции эталонного клипа. Распознанный текст отображается ShowText|pysssss (#8). Небольшой переключатель, построенный с использованием ComfySwitchNode (#34) и булевого управления, позволяет выбрать между выводом STT (true) или вашим собственным введенным текстом из Text Box line spot (#31) (false). Это полезно, когда вам нужна быстрая базовая транскрипция или при создании точной подсказки для клонирования.

Ключевые узлы в рабочем процессе Comfyui Fish Audio S2 TTS#

FishS2TTS (#42)#

Генерирует одноголосую речь из текста с опциональными тегами стиля и автоматическим обнаружением языка. Настройте вариант модели в соответствии с вашим оборудованием, например, выбрав fp8, когда VRAM ограничен. Используйте контроль семян для повторяемых дублей и вносите небольшие изменения при исследовании альтернативных подач. Для длинных сценариев выберите бэкэнд внимания, оптимизированный для стабильности.

FishS2VoiceCloneTTS (#14)#

Создает клонированный голос, используя в качестве условия reference_audio и reference_text. Лучшие результаты достигаются из чистой речи с постоянным тоном и транскрипцией, которая отражает предполагаемую каденцию. Теги стиля могут быть добавлены в финальный текст для управления настроением без ущерба для идентичности. Настройки точности и внимания помогают сбалансировать качество и память для расширенных строк.

FishS2MultiSpeakerTTS (#41)#

Синтезирует многоголосые разговоры, сочетая эталонное аудио каждого говорящего с диалогом, маркированным метками [speaker_n]. Увеличьте количество говорящих по мере необходимости и назначьте отдельные клипы для более сильного разделения. Поддерживайте постоянный тон эталонного аудио каждого говорящего, чтобы избежать смешивания. Используйте seed для детерминированного микширования при рендеринге сцен с несколькими дублями.

Дополнительные опции#

  • Используйте теги стиля обдуманно. Начните с нескольких, таких как [excited], [whisper], [emphasis], [pause], и добавляйте только по мере необходимости для ясности.
  • Для клонирования голоса обрежьте тишину в начале и конце эталонного аудио и избегайте фонового шума, чтобы сохранить тембр.
  • Если память GPU ограничена, предпочитайте S2-Pro fp8 или варианты с квантованием во время выполнения. Для максимальной точности используйте более высокую точность.
  • Пунктуация имеет значение. Запятые и точки улучшают фразировку, а теги, размещенные на границах клауз, звучат более естественно.
  • Для многоголосых сценариев держите одно высказывание на строку и всегда префиксируйте правильной меткой [speaker_n] для поддержания разделения.

Ресурсы:

  • Fish Audio S2-Pro model card: Hugging Face
  • Вариант S2-Pro fp8: Hugging Face
  • Проект Fish-Speech: GitHub
  • Узлы ComfyUI Fish Audio S2: GitHub
  • Whisper large-v3: GitHub

Благодарности#

Этот рабочий процесс реализует и основывается на следующих работах и ресурсах. Мы выражаем благодарность Saganaki22 за пользовательские узлы ComfyUI-FishAudioS2 и Fish Audio за модель S2-Pro за их вклад и поддержку. Для получения авторитетной информации, пожалуйста, обратитесь к оригинальной документации и репозиториям, указанным ниже.

Ресурсы#

  • Saganaki22/ComfyUI-FishAudioS2 Custom Nodes
    • GitHub: Saganaki22/ComfyUI-FishAudioS2
  • Fish Audio/S2-Pro Model
    • Hugging Face: fishaudio/s2-pro

Примечание: Использование ссылочных моделей, наборов данных и кода подчиняется соответствующим лицензиям и условиям, предоставленным их авторами и поддерживающими организациями.

Want More ComfyUI Workflows?

MMAudio | Видео-в-Аудио

MMAudio: Продвинутая модель видео-в-аудио для высококачественной генерации аудио.

Ace Step 1.5 | Генератор Музыки Коммерческого Уровня с ИИ

Преобразует текст в полные песни с умным планированием и мощью диффузии.

Stable Audio Open 1.0 | Инструмент Текст-в-Музыку

Преобразует текстовые подсказки в кинематографическую музыку быстро и без швов.

Генерация музыки ACE-Step | Создание аудио с помощью ИИ

Создавайте студийного качества музыку в 15 раз быстрее с прорывной технологией диффузии.

Stable Diffusion 3 (SD3) | Текст в изображение

Stable Diffusion 3 (SD3) | Текст в изображение

Интегрируйте Stable Diffusion 3 medium в свой рабочий процесс для создания исключительного искусства ИИ.

Wan 2.1 Control LoRA | Глубина и Плитка

Усовершенствуйте генерацию видео Wan 2.1 с помощью легких глубинных и плиточных LoRA для улучшения структуры и деталей.

InstantCharacter

Одно фото, бесконечные персонажи. Идеальное сохранение идентичности.

Wan 2.2 FLF2V | Генерация видео из первого и последнего кадров

Создавайте плавные видео из начального и конечного кадра с помощью Wan 2.2 FLF2V.

Подписывайтесь на нас
  • LinkedIn
  • Facebook
  • Instagram
  • Twitter
Поддержка
  • Discord
  • Email
  • Статус системы
  • партнёр
Ресурсы
  • Бесплатный ComfyUI онлайн
  • Руководства по ComfyUI
  • RunComfy API
  • RunComfy MCP
  • ComfyUI Уроки
  • ComfyUI Узлы
  • Узнать больше
Юридическая информация
  • Условия обслуживания
  • Политика конфиденциальности
  • Политика в отношении файлов cookie
RunComfy
Авторское право 2026 RunComfy. Все права защищены.

RunComfy - ведущая ComfyUI платформа, предлагающая ComfyUI онлайн среду и услуги, а также рабочие процессы ComfyUI с потрясающей визуализацией. RunComfy также предоставляет AI Models, позволяя художникам использовать новейшие инструменты AI для создания невероятного искусства.