Spaces:

espnet
/

svs

Running

TangRain commited on Oct 27, 2024

Commit

2c205ff

1 Parent(s): b97dfd9

update pipeline for model loading

Files changed (1) hide show

app.py CHANGED Viewed

@@ -62,6 +62,10 @@ langs = {
     "jp": 1,
 }
 def gen_song(model_name, spk, texts, durs, pitchs):
     fs = 44100
     tempo = 120
@@ -141,15 +145,19 @@ def gen_song(model_name, spk, texts, durs, pitchs):
     # return (fs, np.array([0.0])), "success!"
     # Infer
-    device = "cpu"
-    # device = "cuda" if torch.cuda.is_available() else "cpu"
-    d = ModelDownloader()
-    pretrain_downloaded = d.download_and_unpack(PRETRAIN_MODEL)
-    svs = SingingGenerate(
-        train_config = pretrain_downloaded["train_config"],
-        model_file = pretrain_downloaded["model_file"],
-        device = device
-    )
     if model_name == "Model①(Chinese)-zh":
         sid = np.array([singer_embeddings[model_name][spk]])
         output_dict = svs(batch, sids=sid)
@@ -160,7 +168,7 @@ def gen_song(model_name, spk, texts, durs, pitchs):
     wav_info = output_dict["wav"].cpu().numpy()
     # mos prediction with sr=16k
-    predictor = torch.hub.load("South-Twilight/SingMOS:v0.2.0", "singing_ssl_mos", trust_repo=True)
     wav_mos = librosa.resample(wav_info, orig_sr=fs, target_sr=16000)
     wav_mos = torch.from_numpy(wav_mos).unsqueeze(0)
     len_mos = torch.tensor([wav_mos.shape[1]])

     "jp": 1,
 }
+predictor = torch.hub.load("South-Twilight/SingMOS:v0.2.0", "singing_ssl_mos", trust_repo=True)
+exist_model = "Null"
+svs = None
 def gen_song(model_name, spk, texts, durs, pitchs):
     fs = 44100
     tempo = 120
     # return (fs, np.array([0.0])), "success!"
     # Infer
+    global exist_model
+    global svs
+    if exist_model == "Null" or exist_model != model_name:
+        device = "cpu"
+        # device = "cuda" if torch.cuda.is_available() else "cpu"
+        d = ModelDownloader()
+        pretrain_downloaded = d.download_and_unpack(PRETRAIN_MODEL)
+        svs = SingingGenerate(
+            train_config = pretrain_downloaded["train_config"],
+            model_file = pretrain_downloaded["model_file"],
+            device = device
+        )
+        exist_model = model_name
     if model_name == "Model①(Chinese)-zh":
         sid = np.array([singer_embeddings[model_name][spk]])
         output_dict = svs(batch, sids=sid)
     wav_info = output_dict["wav"].cpu().numpy()
     # mos prediction with sr=16k
+    global predictor
     wav_mos = librosa.resample(wav_info, orig_sr=fs, target_sr=16000)
     wav_mos = torch.from_numpy(wav_mos).unsqueeze(0)
     len_mos = torch.tensor([wav_mos.shape[1]])