Vevo

Sleeping

积极的屁孩 commited on Apr 19

Commit

defde46

1 Parent(s): a8377f8

trying to fix vevo style

Files changed (1) hide show

app.py CHANGED Viewed

@@ -385,17 +385,25 @@ def vevo_style(content_wav, style_wav):
     else:
         raise ValueError("Invalid content audio format")
-    if isinstance(style_wav, tuple) and len(style_wav) == 2:
-        # 确保正确的顺序 (data, sample_rate)
-        if isinstance(style_wav[0], np.ndarray):
-            style_data, style_sr = style_wav
-        else:
-            style_sr, style_data = style_wav
-        style_tensor = torch.FloatTensor(style_data)
-        if style_tensor.ndim == 1:
-            style_tensor = style_tensor.unsqueeze(0)  # 添加通道维度
     else:
-        raise ValueError("Invalid style audio format")
     # 打印debug信息
     print(f"Content audio shape: {content_tensor.shape}, sample rate: {content_sr}")

     else:
         raise ValueError("Invalid content audio format")
+    if isinstance(style_wav[0], np.ndarray):
+        style_data, style_sr = style_wav
     else:
+        style_sr, style_data = style_wav
+    # 确保是单声道
+    if len(style_data.shape) > 1 and style_data.shape[1] > 1:
+        style_data = np.mean(style_data, axis=1)
+    # 重采样到24kHz
+    if style_sr != 24000:
+        style_tensor = torch.FloatTensor(style_data).unsqueeze(0)
+        style_tensor = torchaudio.functional.resample(style_tensor, style_sr, 24000)
+        style_sr = 24000
+    else:
+        style_tensor = torch.FloatTensor(style_data).unsqueeze(0)
+    # 归一化音量
+    style_tensor = style_tensor / (torch.max(torch.abs(style_tensor)) + 1e-6) * 0.95
     # 打印debug信息
     print(f"Content audio shape: {content_tensor.shape}, sample rate: {content_sr}")