ComfyUI中的音頻互動視覺化工作流程

透過轉換你的主題（舞者）來創建令人驚嘆的視頻動畫，並給他們一個由各種複雜幾何和迷幻圖案組成的動態音頻互動背景。您可以使用此工作流程與單個或多個主題。通過這個工作流程，您可以製作出完美與音樂節奏同步的迷人音頻互動視覺效果，提供沉浸式體驗。該工作流程允許您將其用於單個或多個主題，所有這些都增強了音頻互動元素。

如何使用音頻互動舞者進化工作流程：

在輸入部分上傳主題視頻
選擇最終視頻的所需寬度和高度，以及應跳過輸入視頻幀數的“every_nth”。您還可以限制總渲染幀數“frame_load_cap”。
填寫正負提示。設置批次幀次數以匹配您希望場景過渡發生的時間。
為每個默認IP適配器主題遮罩顏色上傳圖像：
紅色、綠色、藍色 = 主題
黑色 = 背景
白色 = 白色音頻互動膨脹遮罩
黃色、洋紅色 = 背景噪聲遮罩圖案
在“模型”部分加載一個好的LCM檢查點（我使用Machine Delusions的ParadigmLCM）。
使用模型加載器下方的Lora堆疊器添加任何lora
點擊隊列提示

視頻指南

Audioreactive Dancers Evolved WalkthroughJ_4

節點和組顏色

對於此工作流程，我根據每個組內的功能對節點進行了顏色協調。
組區段標題是顏色協調的，以便更容易區分。

輸入

將所需的主題視頻上傳到加載視頻（上傳）節點。
您可以使用左上角的兩個輸入調整輸出寬度和高度。
every_nth 設定是否使用每隔一幀、每三幀等（2 = 每隔一幀）。默認設置為1。
skip_frames 用於在視頻開頭跳過幀數。（100 = 跳過輸入視頻的前100幀）。默認設置為0。
frame_load_cap 用於指定應加載輸入視頻的總幀數。測試設置時最好保持較低（例如30 - 60），然後在渲染最終視頻時增加或設置為0（無幀數限制）。
右下角的數字字段顯示有關上傳的輸入視頻的信息：從上到下的總幀數、寬度、高度和FPS。
如果您已經生成了主題的遮罩視頻，您可以取消靜音“上傳主題遮罩”部分並上傳遮罩視頻。您可以選擇靜音“分段舞者”部分以節省一些處理時間。
有時分段的主題不會完美，您可以使用上圖右下角的預覽框檢查遮罩質量。如果是這種情況，您可以在“Florence2Run”節點中嘗試不同的提示以定位不同的身體部位，如“頭部”、“胸部”、“腿部”等，看看是否能獲得更好的結果。

提示

使用批次格式設置正提示：
- 例如：“0”："4k, masterpiece, 1girl standing on the beach, absurdres", "25": "HDR, sunset scene, 1girl with black hair and a white jacket, absurdres", …
負提示是正常格式，如果需要可以添加嵌入。

音頻處理

此部分從輸入視頻中提取音頻，提取stem（低音、鼓、人聲等），然後將其轉換為與輸入視頻幀同步的標準化幅度，以創建音頻互動視覺效果。
amp_control = 幅度可以行進的總範圍。
amp_offset = 幅度可以取的最小值。
- 例如：amp_control = 0.8 和 amp_offset = 0.2 意味著信號將在0.2和1.0之間行進。
有時鼓stem會有歌曲的實際低音音符，預覽每個stem以查看哪個用於您的音頻互動遮罩。
使用圖表可以很好地了解該stem的信號在視頻長度上的變化情況

Voronoi生成器

此部分使用每組兩個FAI_Voronoi_Generator自定義節點生成Voronoi噪聲圖案，並使用乘法合成在一起。
您可以將父括號中的隨機調度器值從0增加，以打破最終輸出中的對稱圖案。
增加括號中的細節調度器值以增加輸出噪聲圖案中的細節數。較低的值會導致較低的噪聲區分度。
更改FAI比例調度器節點中的“公式”參數，以對最終噪聲圖案運動產生重大影響。
您還可以更改FAI_Voronoi_Generator節點本身的“距離度量”函數，以大大影響生成的圖案和最終噪聲的形狀。

音頻遮罩

此部分用於將voronoi噪聲圖像批次轉換為彩色遮罩，並與主題合成，並同步它們的運動與低音或鼓的音頻stem的節拍。這些遮罩是創建音頻互動效果的關鍵。
增加AK Lag Chop節點中的“lag_factor”以增加最終幅度圖的“尖銳”程度。這將導致輸出噪聲運動更快和更慢地突然變化，而較低的lag_factor將導致每次節拍後的運動更逐漸減速。這用於避免噪聲遮罩動畫看起來過於“跳躍”和僵硬。
AK Rescale Float List用於將標準化幅度值從0-1重新映射到new_min和new_max。值1.0代表噪聲動畫的30FPS播放速度，而0.5代表15FPS，2.0代表60FPS等。調整此值以更改音頻互動噪聲圖案在節拍外（幅度0.0）時的動畫速度，以及在節拍上（幅度1.0）時的移動速度。
關鍵幀調度器對遮罩的外觀有很大影響。它創建一個float值列表，以指定用於噪聲輸入圖像的像素亮度值的閾值，這將導致部分噪聲被裁剪並轉換為最終遮罩。降低此值以保留更多的輸入噪聲，增加以保留更少的噪聲。

膨脹遮罩

每個彩色組對應於將由其生成的膨脹遮罩的顏色。
您可以使用以下節點設置膨脹遮罩的最小和最大半徑以及形狀：
形狀：“圓形”是最準確的，但生成時間較長。當您準備進行最終渲染時設置此選項。“方形”計算速度快，但不太準確，最適合測試工作流程並決定IP適配器圖像。
最大半徑：當幅度值最大（1.0）時遮罩的像素半徑。
最小半徑：當幅度值最小（0.0）時遮罩的像素半徑。
如果您已經生成了合成遮罩視頻，您可以取消靜音“覆蓋合成遮罩”組並上傳它。如果覆蓋，建議繞過膨脹遮罩組以節省處理時間。

潛在噪聲遮罩

使用潛在噪聲遮罩來控制哪些遮罩實際上被ksampler擴散（夢想）。繞過您不想擴散的彩色遮罩組（即希望原始視頻中的元素出現）。
啟用所有遮罩組將導致白色最終噪聲遮罩（所有內容將被擴散）。
示例： 點擊快速繞過節點繞過紅色主題遮罩組，以便您的舞者或主題出現在最終輸出中。

原始輸入視頻：

繞過紅色和黃色遮罩組：

合成遮罩

此部分創建voronoi噪聲遮罩與主題遮罩（如果啟用，則包括音頻互動膨脹遮罩）的最終合成。

模型

使用一個好的LCM模型作為檢查點。我推薦Machine Delusions的ParadigmLCM。
您可以使用模型合併堆疊將多個模型合併在一起以獲得各種有趣的效果。確保啟用模型的權重加起來為1.0。
您可以選擇性地指定AnimateLCM_sd15_t2v_lora.safetensors，權重為0.18，以進一步增強最終結果。
使用模型加載器下方的Lora堆疊器向模型添加任何其他Lora。

AnimateDiff

您可以設置不同的運動Lora，而不是我使用的（LiquidAF-0-1.safetensors）
增加/減少比例和效果浮動以增加/減少輸出中的運動量。

IP適配器

在這裡，您可以指定將用於渲染每個膨脹遮罩背景以及您的視頻主題的參考圖像。
每個組的顏色代表它針對的遮罩：

紅色、綠色、藍色：

主題遮罩參考圖像。

黑色：

背景遮罩圖像，為背景上傳參考圖像。

白色：

膨脹遮罩參考圖像，為每個使用的彩色膨脹遮罩上傳參考圖像。

黃色、洋紅色

Voronoi噪聲遮罩參考圖像。

ControlNet

此工作流程使用5個不同的controlnet，包括AD、Lineart、QR Code、Depth和OpenPose。
所有controlnet的輸入都是自動生成的
如果需要，您可以選擇通過取消靜音“覆蓋”組來覆蓋Lineart、Depth和Openpose controlnet的輸入視頻，如下所示：
如果覆蓋，建議您同時靜音“生成”組以節省處理時間。

提示：

繞過Ksampler並使用完整的輸入視頻開始渲染。一旦所有預處理器視頻生成，保存它們並上傳到相應的覆蓋。從現在起，測試工作流程時，您將不必等待每個預處理器視頻單獨生成。

取樣器

默認情況下，HiRes Fix取樣器組將靜音，以在測試時節省處理時間
我建議在嘗試膨脹遮罩設置時繞過取樣器組以節省時間。
在最終渲染時，您可以取消靜音HiRes Fix組，這將放大並為最終結果添加細節。

輸出

有兩個輸出組：左側是標準取樣器輸出，右側是HiRes Fix取樣器輸出。
您可以通過更改“FileNamePrefixDateDirFirst”節點中的“custom_directory”字符串來更改文件的保存位置。默認情況下，該節點將在ComfyUI的“output”目錄中以時間戳目錄保存輸出視頻
- 例如 …/ComfyUI/output/240812/<custom_directory>/<my_video>.mp4

創建音頻互動視頻可以為您的主題添加身臨其境的脈動能量，每幀都實時響應節拍。因此，潛入音頻互動藝術的世界，享受節奏引導的轉變！

## 關於作者

Akatz AI:

聯繫方式:

電子郵件: akatzfey@sendysoftware.com

Want More ComfyUI Workflows?

音頻反應面具擴張 | 驚艷動畫

改變您的主題，賦予他們隨著節奏舞動的脈動、音樂驅動的光環。

線性遮罩膨脹 | 驚豔動畫

轉換您的主題，讓他們無縫地穿梭於不同的場景中。

InstantID | 肖像轉化為藝術

InstantID精確地增強和轉化肖像，具有風格和美學吸引力。

IPAdapter V1 FaceID Plus | 一致的角色

利用 IPAdapter FaceID Plus V2 模型創建一致的角色。

Vid2Vid 第1部分 | 組成與遮罩

ComfyUI Vid2Vid 提供兩種不同的工作流程來創建高品質、專業的動畫：Vid2Vid 第1部分，通過專注於原始視頻的組成和遮罩來增強您的創造力，以及 Vid2Vid 第2部分，利用 SDXL Style Transfer 將視頻的風格轉變為您想要的美學風格。本頁專門涵蓋 Vid2Vid 第1部分。

FLUX | 新的藝術圖像生成

由 Black Forest Labs 開發的新圖像生成模型

Wan 2.2 Lightning T2V I2V | 4 步驟超高速

Wan 2.2 現在速度提升 20 倍！T2V + I2V 僅需 4 步。

FLUX Dev ControlNet | 多條件 ControlNet

使用 Pose、Depth、Canny 和 ReColor 進行 FLUX Dev 圖像生成控制

關注我們

支持

資源

法律

RunComfy

RunComfy 是首選的 ComfyUI 平台，提供 ComfyUI 在線環境和服務，以及 ComfyUI 工作流程具有驚豔的視覺效果。 RunComfy還提供 AI Models, 幫助藝術家利用最新的AI工具創作出令人驚艷的藝術作品。