Fish Audio S2 TTS в ComfyUI | Эмоции, Многоголосие, Клонирование

ComfyUI Fish Audio S2 TTS Workflow

Fish Audio S2 TTS in ComfyUI | Emotion, Multi-Speaker, Cloning

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

ComfyUI Fish Audio S2 TTS Examples

Fish Audio S2 TTS для ComfyUI: высококачественный TTS, клонирование голоса и многоголосые диалоги#

Fish Audio S2 TTS — это готовый к использованию рабочий процесс ComfyUI, который превращает текст в естественную речь, клонирует голос из короткого эталонного клипа и генерирует многоголосые разговоры. Он работает на базе семейства Fish Audio S2-Pro и поддерживает богатое управление стилем с помощью тегов эмоций и прозодии, таких как [excited], [whisper] и [laughing].

Этот рабочий процесс идеально подходит для создателей, продуктовых команд и разработчиков, которые хотят иметь гибкий, выразительный синтез речи в ComfyUI. Он включает в себя опциональное преобразование речи в текст для быстрого захвата транскрипции, автоматическое обнаружение языка и несколько вариантов точности, включая fp8 и sage_attention для эффективного вывода.

Примечание: Запускайте этот рабочий процесс на машине типа 2X Large или больше. Более мелкие экземпляры могут столкнуться с нехваткой памяти (OOM).

Основные модели в рабочем процессе Comfyui Fish Audio S2 TTS#

Fish Audio S2-Pro — основная генеративная модель синтеза текста в речь, используемая для одноголосого TTS, клонирования голоса и многоголосых диалогов. Она поддерживает обширные стилевые токены и многоязычный синтез model card и является частью проекта Fish-Speech repo.
Fish Audio S2-Pro FP8 — вариант S2-Pro с эффективным использованием памяти, который снижает потребности в VRAM с минимальными потерями качества, рекомендуется для ограниченных GPU model card.
OpenAI Whisper large-v3 — опциональная модель преобразования речи в текст, используемая для автоматической транскрипции вашего эталонного аудио при подготовке подсказок для клонирования голоса repo.

Как использовать рабочий процесс Comfyui Fish Audio S2 TTS#

Этот рабочий процесс содержит три основных пути, которые можно запускать независимо: TTS, Voice Clone и Multi Speaker Clone. Опциональная группа Whisper STT может генерировать транскрипцию для клонирования голоса. Каждый путь заканчивается предварительным прослушиванием аудио, чтобы вы могли быстро оценить результаты.

Группа TTS#

Узел FishS2TTS (#42) выполняет прямое преобразование текста в речь с помощью Fish Audio S2 TTS. Введите свой сценарий в текстовое поле узла и добавьте теги стиля, такие как [excited], [pause] или [whisper], чтобы сформировать эмоции и темп. Обнаружение языка происходит автоматически, поэтому вы можете писать на целевом языке, и модель адаптируется. Выберите вариант S2-Pro, соответствующий памяти вашего GPU, например fp8 для меньших нагрузок. Выход направляется в PreviewAudio для мгновенного прослушивания.

Группа Voice Clone#

Используйте LoadAudio, чтобы предоставить короткий, чистый эталонный клип целевого голоса, затем направьте его в FishS2VoiceCloneTTS (#14). Предоставьте транскрипцию, соответствующую желаемому стилю речи; точный текст помогает модели сохранить ритм и акцент. Вы можете использовать текст из группы STT или ввести свой собственный, а также добавить теги стиля для уточнения эмоций и подачи. Настройки точности и внимания помогают сбалансировать скорость, память и стабильность для длинных строк. Синтезированный клон отправляется в PreviewAudio, чтобы вы могли быстро итератировать.

Группа Multi Speaker Clone#

Загрузите один эталонный клип на каждого говорящего, используя узлы LoadAudio, затем подключите их к FishS2MultiSpeakerTTS (#41). Предоставьте сценарий диалога, который маркирует каждый поворот с помощью [speaker_1], [speaker_2] и так далее. Этот шаблон по умолчанию включает двух говорящих, и узел поддерживает масштабирование до восьми различных голосов при соответствующей настройке. Вы можете смешивать повествовательную прозу, теги и диалог для управления потоком и эмоциями каждого персонажа. Финальный микс предварительно прослушивается для проверки времени и ясности.

Whisper STT для клонирования голоса (опционально)#

Load Whisper (mtb) (#6) с large-v3 обеспечивает работу Audio To Text (mtb) (#7) для автоматической транскрипции эталонного клипа. Распознанный текст отображается ShowText|pysssss (#8). Небольшой переключатель, построенный с использованием ComfySwitchNode (#34) и булевого управления, позволяет выбрать между выводом STT (true) или вашим собственным введенным текстом из Text Box line spot (#31) (false). Это полезно, когда вам нужна быстрая базовая транскрипция или при создании точной подсказки для клонирования.

Ключевые узлы в рабочем процессе Comfyui Fish Audio S2 TTS#

`FishS2TTS` (#42)#

Генерирует одноголосую речь из текста с опциональными тегами стиля и автоматическим обнаружением языка. Настройте вариант модели в соответствии с вашим оборудованием, например, выбрав fp8, когда VRAM ограничен. Используйте контроль семян для повторяемых дублей и вносите небольшие изменения при исследовании альтернативных подач. Для длинных сценариев выберите бэкэнд внимания, оптимизированный для стабильности.

`FishS2VoiceCloneTTS` (#14)#

Создает клонированный голос, используя в качестве условия reference_audio и reference_text. Лучшие результаты достигаются из чистой речи с постоянным тоном и транскрипцией, которая отражает предполагаемую каденцию. Теги стиля могут быть добавлены в финальный текст для управления настроением без ущерба для идентичности. Настройки точности и внимания помогают сбалансировать качество и память для расширенных строк.

`FishS2MultiSpeakerTTS` (#41)#

Синтезирует многоголосые разговоры, сочетая эталонное аудио каждого говорящего с диалогом, маркированным метками [speaker_n]. Увеличьте количество говорящих по мере необходимости и назначьте отдельные клипы для более сильного разделения. Поддерживайте постоянный тон эталонного аудио каждого говорящего, чтобы избежать смешивания. Используйте seed для детерминированного микширования при рендеринге сцен с несколькими дублями.

Дополнительные опции#

Используйте теги стиля обдуманно. Начните с нескольких, таких как [excited], [whisper], [emphasis], [pause], и добавляйте только по мере необходимости для ясности.
Для клонирования голоса обрежьте тишину в начале и конце эталонного аудио и избегайте фонового шума, чтобы сохранить тембр.
Если память GPU ограничена, предпочитайте S2-Pro fp8 или варианты с квантованием во время выполнения. Для максимальной точности используйте более высокую точность.
Пунктуация имеет значение. Запятые и точки улучшают фразировку, а теги, размещенные на границах клауз, звучат более естественно.
Для многоголосых сценариев держите одно высказывание на строку и всегда префиксируйте правильной меткой [speaker_n] для поддержания разделения.

Ресурсы:

Fish Audio S2-Pro model card: Hugging Face
Вариант S2-Pro fp8: Hugging Face
Проект Fish-Speech: GitHub
Узлы ComfyUI Fish Audio S2: GitHub
Whisper large-v3: GitHub

Благодарности#

Этот рабочий процесс реализует и основывается на следующих работах и ресурсах. Мы выражаем благодарность Saganaki22 за пользовательские узлы ComfyUI-FishAudioS2 и Fish Audio за модель S2-Pro за их вклад и поддержку. Для получения авторитетной информации, пожалуйста, обратитесь к оригинальной документации и репозиториям, указанным ниже.

Ресурсы#

Saganaki22/ComfyUI-FishAudioS2 Custom Nodes
- GitHub: Saganaki22/ComfyUI-FishAudioS2
Fish Audio/S2-Pro Model
- Hugging Face: fishaudio/s2-pro

Примечание: Использование ссылочных моделей, наборов данных и кода подчиняется соответствующим лицензиям и условиям, предоставленным их авторами и поддерживающими организациями.

Want More ComfyUI Workflows?

MMAudio | Видео-в-Аудио

MMAudio: Продвинутая модель видео-в-аудио для высококачественной генерации аудио.

Ace Step 1.5 | Генератор Музыки Коммерческого Уровня с ИИ

Преобразует текст в полные песни с умным планированием и мощью диффузии.

Stable Audio Open 1.0 | Инструмент Текст-в-Музыку

Преобразует текстовые подсказки в кинематографическую музыку быстро и без швов.

Генерация музыки ACE-Step | Создание аудио с помощью ИИ

Создавайте студийного качества музыку в 15 раз быстрее с прорывной технологией диффузии.

Z Image Real Skin рабочий процесс | Генератор реалистичных портретов

Создает портреты с текстурой настоящей человеческой кожи и естественным освещением.

Стиль пергамента с Unsampling

Преобразуйте ваше видео в анимации в стиле пергамента, используя метод Unsampling.

FLUX LoRA Обучение

Руководство по всему процессу обучения моделей FLUX LoRA с использованием ваших собственных наборов данных.

Анимация от одного ко всем | Создатель видео на основе поз

Создавайте плавные видео, следуя позам, с потрясающей согласованностью движений.

Подписывайтесь на нас

Поддержка

Ресурсы

Юридическая информация

RunComfy

RunComfy - ведущая ComfyUI платформа, предлагающая ComfyUI онлайн среду и услуги, а также рабочие процессы ComfyUI с потрясающей визуализацией. RunComfy также предоставляет AI Models, позволяя художникам использовать новейшие инструменты AI для создания невероятного искусства.

Fish Audio S2 TTS | Генератор выразительного голоса