logo
RunComfy
  • Models
  • ComfyUI
  • TrainerNew
  • API
  • Pricing
discord logo
ComfyUI>Рабочие процессы>ComfyUI F5 TTS | Движок естественного клонирования голосов

ComfyUI F5 TTS | Движок естественного клонирования голосов

Workflow Name: RunComfy/ComfyUI-F5-TTS
Workflow ID: 0000...1335
Этот рабочий процесс помогает вам преобразовать текст в выразительную речь, используя передовой синтез голоса. Он позволяет клонировать голоса из коротких аудиосэмплов и управлять тембром, тоном и темпом для достижения естественных результатов. Вы можете генерировать повествования, озвучки или реплики персонажей непосредственно в ComfyUI. Интерфейс гибкий и воспроизводимый, что делает его идеальным для создателей и дизайнеров, стремящихся к точному управлению голосом. Интегрируйте его в более крупные узловые каналы для полностью индивидуального создания аудио и прототипирования с полным локальным контролем.

ComfyUI F5 TTS: клонирование голоса и преобразование текста в речь в одном рабочем процессе

Этот рабочий процесс ComfyUI F5 TTS позволяет генерировать естественную речь из текста и клонировать голоса непосредственно в ComfyUI. Он поддерживается пользовательскими узлами ComfyUI-F5-TTS и включает полный путь для клонирования на основе ссылок: предоставьте короткий WAV плюс соответствующую расшифровку, чтобы настроить модель, затем синтезируйте новые строки, которые следуют тембру и стилю референтного говорящего. Граф также содержит готовые тесты для нескольких вариантов моделей, языков и вокодеров, чтобы вы могли быстро сравнить результаты и решить, что лучше всего подходит для повествования, озвучки, диалогов персонажей или демонстраций продуктов.

Все организовано в четкие группы, чтобы вы могли использовать ComfyUI F5 TTS двумя способами: быстрое преобразование текста в речь одним нажатием на английском, французском, немецком и японском языках или клонирование голосов через встроенный рекордер или парные файлы. Включен компактный путь транскрипции Whisper, чтобы помочь вам получить точную расшифровку образца, если у вас уже есть чистая запись.

Ключевые модели в рабочем процессе ComfyUI F5 TTS

  • Fish Audio F5-TTS. Преобразование текста в речь без предварительного обучения, изучающее характеристики говорящего из короткой ссылки и производящее высококачественную речь на нескольких языках. Подробности о модели и обучении смотрите в проекте. GitHub
  • OpenAI Whisper. Распознавание речи, используемое здесь для автоматической транскрипции вашего референсного клипа, чтобы текст образца точно соответствовал, что улучшает качество клонирования. GitHub
  • BigVGAN. Высококачественный нейронный вокодер, доступный в качестве опции декодирования для более четкого, кристального вывода. GitHub
  • Vocos. Быстрая, легковесная альтернатива нейронному вокодеру, ориентированная на скорость и низкую задержку. GitHub
  • ComfyUI-F5-TTS custom nodes. Интеграция ComfyUI, которая подключает F5-TTS и совместимые бэкенды к узлам, используемым в этом графе. GitHub

Как использовать рабочий процесс ComfyUI F5 TTS

На высоком уровне рабочий процесс предлагает независимые группы для быстрых сравнений моделей и выделенный канал клонирования. Начните с прослушивания предварительно настроенных групп, чтобы подтвердить предпочтительный голос и вокодер, затем переходите к клонированию с вашим собственным образцом. Каждая подгруппа ниже объясняет, что делает группа и какие немногие входы имеют значение.

Тест аудио из входных данных

Этот канал демонстрирует транскрипцию ссылок плюс настройку. LoadAudio (#4) загружает WAV, Apply Whisper (#13) транскрибирует его, и F5TTSAudioInputs (#26) использует как образец аудио, так и текст Whisper для настройки голоса перед предварительным просмотром. Предоставьте чистый, произнесенный образец и позвольте Whisper заполнить порт транскрипта, чтобы пара точно совпадала. Если вы хотите предоставить файлы напрямую, поместите парный .wav и .txt с одним и тем же именем файла в папку ComfyUI/input, затем перезапустите ComfyUI, чтобы граф мог их увидеть.

Тест нескольких голосов

Эта группа показывает стилистическое переключение в одной строке, используя один узел синтеза. F5TTSAudio (#17) читает сценарий с помеченными сегментами, чтобы вы могли прослушать несколько стилей персонажей или изменения акцентов в одном проходе. Это быстрый способ услышать, как ComfyUI F5 TTS справляется с контрастными тембрами или темпами повествования по сравнению с персонажем.

Аудио EN

Используйте F5TTSAudio (#15) для простого преобразования текста в речь на английском языке. Введите ваш сценарий и прослушайте, чтобы оценить базовое произношение и темп с настройками по умолчанию F5. Этот канал идеален для быстрой итерации перед тем, как вы решите клонировать или смешивать несколько голосов.

F5v1

Этот путь запускает узел F5TTSAudio (#33) против варианта F5 v1, чтобы вы могли сравнить тон и просодию с основной настройкой F5. Используйте тот же текст, что и в канале EN, чтобы различия было легко оценить. Это полезно при выборе модели по умолчанию для более длительного проекта.

Аудио FR

Этот канал нацелен на синтез на французском языке с использованием F5TTSAudio (#27), настроенного для французского пресета. Предоставьте французский сценарий и прослушайте выходные данные, чтобы проверить носовые гласные и обработку связок. Переключайтесь между каналами EN и FR, чтобы сравнить четкость и скорость.

Аудио DE bigvgan

Здесь F5TTSAudio (#30) использует немецкий пресет и вокодер BigVGAN для более яркого, кристального декодирования. Используйте этот канал, когда вы хотите больше присутствия или студийного блеска. Если вы предпочитаете более мягкую интерпретацию, сравните с каналом Vocos.

Аудио JP

Этот путь использует F5TTSAudio (#25) с японским пресетом. Вставьте японский сценарий, чтобы оценить акцент и временные параметры мора. Это хорошая отправная точка для аниме-стилей или продуктовых линий, предназначенных для японской аудитории.

Тест E2

Эта группа использует F5TTSAudio (#29) с совместимым пресетом E2 и вокодером Vocos для прослушивания альтернативного бэкенда. Используйте его, чтобы сравнить задержку и характеристики тембра с вашими запусками F5.

Клонируйте ваш собственный голос

Записывайте, соединяйте и клонируйте напрямую в ComfyUI. Нажмите на микрофон в VrchAudioRecorderNode (#43) и прочитайте подсказку, отображаемую в поле "Sample Text to Record" Textbox (#42). Рекордер направляет ваш WAV в F5TTSAudioInputs (#44) вместе с точным текстом, который вы произнесли, что настраивает модель на ваш тембр и стиль перед предварительным просмотром в PreviewAudio (#45). Для получения наилучших результатов говорите в тихой комнате и убедитесь, что текст ссылки точно соответствует тому, что вы сказали дословно; затем введите любые новые строки, которые вы хотите, чтобы клонированный голос произнес, и запустите граф.

Ключевые узлы в рабочем процессе ComfyUI F5 TTS

F5TTSAudio (#15)

Основной узел для преобразования текста в речь в один проход, используемый в группах EN, FR, DE, JP, F5v1 и E2. Предоставьте ваш сценарий и выберите модельный пресет и вокодер, которые подходят вашему языку и подаче. Если вы хотите воспроизводимые дубли, держите семя фиксированным; если хотите разнообразия, рандомизируйте между запусками. Реализация предоставлена расширением ComfyUI-F5-TTS. GitHub GitHub - FishAudio/F5-TTS

F5TTSAudioInputs (#44)

Точка входа для клонирования, которая использует референсный WAV и его соответствующую расшифровку для создания представления говорящего, а затем синтезирует новые строки в этом голосе. Используйте чистый образец с постоянной громкостью и убедитесь, что расшифровка точна, чтобы максимизировать сходство и уменьшить артефакты. Переключайте пресеты моделей или вокодеры здесь, если вам нужен более яркий или более нейтральный декод. GitHub - FishAudio/F5-TTS

Apply Whisper (#13)

Автоматическая транскрипция для вашего референсного образца. Выберите размер Whisper, который балансирует скорость и точность для вашего оборудования и языка, затем передайте его выходной текст в узел клонирования, чтобы аудио и текст были идеально согласованы. Это предотвращает ошибки настройки, которые могут возникнуть, когда текст образца отличается от того, что было фактически сказано. GitHub

VrchAudioRecorderNode (#43)

Встроенный рекордер, который захватывает короткую произнесенную подсказку для клонирования, устраняя необходимость во внешних инструментах. Удерживайте для записи, отпустите для остановки и сразу услышите, как ComfyUI F5 TTS звучит в вашем собственном голосе. Держите микрофон близко и снижайте шум в комнате для получения наилучшего результата.

Дополнительные опции

  • Используйте от 5 до 15 секунд чистой речи для референса, без музыки или эффектов.
  • Убедитесь, что текст образца точно соответствует записи; даже небольшие несоответствия могут снизить точность клонирования.
  • Сравните Vocos и BigVGAN на одной линии, чтобы выбрать между скоростью и детализацией.
  • Держите фиксированное семя, когда вам нужны согласованные дубли; рандомизируйте при изучении стиля.
  • Для многоязычных проектов сначала прослушайте каналы EN, FR, DE и JP, затем завершите клонирование, когда вы будете довольны произношением и темпом.

Благодарности

Этот рабочий процесс реализует и основывается на следующих работах и ресурсах. Мы благодарны niknah за узел ComfyUI-F5-TTS, niknah за пример рабочего процесса F5TTS-test-all.json и сообществу r/StableDiffusion за руководство "Клонирование голосов с F5-TTS в ComfyUI" за их вклад и поддержку. Для получения авторитетной информации, пожалуйста, обращайтесь к оригинальной документации и репозиториям, перечисленным ниже.

Ресурсы

  • niknah/ComfyUI-F5-TTS
    • GitHub: niknah/ComfyUI-F5-TTS
  • niknah/ComfyUI-F5-TTS (Пример рабочего процесса: F5TTS-test-all.json)
    • GitHub: example_workflows/F5TTS-test-all.json
  • r/StableDiffusion/Community Guide (Клонирование голосов с F5-TTS в ComfyUI)
    • GitHub: example_web_viewer_005_audio_web_viewer_f5_tts.json
    • Документы / Заметки о выпуске: Effortlessly Clone Your Own Voice by using ComfyUI and Almost in Real-Time! (Step-by-Step Tutorial & Workflow Included)

Примечание: Использование упомянутых моделей, наборов данных и кода подчиняется соответствующим лицензиям и условиям, предоставленным их авторами и поддерживающими.

Want More ComfyUI Workflows?

MMAudio | Видео-в-Аудио

MMAudio: Продвинутая модель видео-в-аудио для высококачественной генерации аудио.

Генерация музыки ACE-Step | Создание аудио с помощью ИИ

Создавайте студийного качества музыку в 15 раз быстрее с прорывной технологией диффузии.

EchoMimic | Анимации портретов, управляемые аудио

Создайте реалистичные говорящие головы и жесты тела, синхронизированные с предоставленным аудио.

Hunyuan3D 2.1 | Изображение в 3D-модель

Большой скачок от 2.0: Превращайте фотографии в невероятные 3D-модели мгновенно.

PuLID | Точное встраивание лиц для генерации изображений по тексту

PuLID | Точное встраивание лиц для генерации изображений по тексту

Интегрируйте идентичности лиц и контролируйте стили с помощью PuLID и IPAdapter Plus.

ToonCrafter | Генеративная мультяшная интерполяция

ToonCrafter может создавать мультяшные интерполяции между двумя мультяшными изображениями.

SVD + IPAdapter V1 | Изображение в Видео

Используйте IPAdapters для генерации статических изображений и Stable Video Diffusion для генерации динамических видео.

Consistent Characters with Flux

Consistent Characters with Flux

Оптимизируйте создание AI-персонажей и обеспечьте их однородный внешний вид.

Подписывайтесь на нас
  • LinkedIn
  • Facebook
  • Instagram
  • Twitter
Поддержка
  • Discord
  • Email
  • Статус системы
  • партнёр
Ресурсы
  • Бесплатный ComfyUI онлайн
  • Руководства по ComfyUI
  • RunComfy API
  • ComfyUI Уроки
  • ComfyUI Узлы
  • Узнать больше
Юридическая информация
  • Условия обслуживания
  • Политика конфиденциальности
  • Политика в отношении файлов cookie
RunComfy
Авторское право 2026 RunComfy. Все права защищены.

RunComfy - ведущая ComfyUI платформа, предлагающая ComfyUI онлайн среду и услуги, а также рабочие процессы ComfyUI с потрясающей визуализацией. RunComfy также предоставляет AI Models, позволяя художникам использовать новейшие инструменты AI для создания невероятного искусства.