Spaces:

tencent
/

SongGeneration

Running on L40S

root commited on 24 days ago

Commit

f919478

1 Parent(s): 3162dea

support large model

Files changed (4) hide show

app.py CHANGED Viewed

@@ -16,14 +16,14 @@ from download import download_model
 # 下载模型
 APP_DIR = op.dirname(op.abspath(__file__))
 download_model(APP_DIR)
-base_full_path = op.join(APP_DIR, "ckpt", "songgeneration_base_full")
-os.makedirs(base_full_path, exist_ok=True)
-download_model(base_full_path, repo_id="lglg666/SongGeneration-base-full", revision="19ebdb6")
 print("Successful downloaded model.")
 # 模型初始化
 from levo_inference import LeVoInference
-MODEL = LeVoInference(base_full_path)
 EXAMPLE_LYRICS = """
 [intro-medium]

 # 下载模型
 APP_DIR = op.dirname(op.abspath(__file__))
 download_model(APP_DIR)
+# base_full_path = op.join(APP_DIR, "ckpt", "songgeneration_base_full")
+# os.makedirs(base_full_path, exist_ok=True)
+download_model(op.join(APP_DIR, "ckpt"), repo_id="lglg666/SongGeneration-large-full", revision="75e2043")
 print("Successful downloaded model.")
 # 模型初始化
 from levo_inference import LeVoInference
+MODEL = LeVoInference(op.join(APP_DIR, "ckpt", "SongGeneration-large"))
 EXAMPLE_LYRICS = """
 [intro-medium]

codeclm/tokenizer/Flow1dVAE/model_1rvq.py CHANGED Viewed

@@ -303,8 +303,8 @@ class PromptCondAudioDiffusion(nn.Module):
         for v in self.bestrq.parameters():v.requires_grad = False
         self.rvq_bestrq_emb = ResidualVectorQuantize(input_dim = 1024, n_codebooks = 1, codebook_size = 16_384, codebook_dim = 32, quantizer_dropout = 0.0, stale_tolerance=200)
         for v in self.rvq_bestrq_emb.parameters():v.requires_grad = False
-        self.hubert = HubertModelWithFinalProj.from_pretrained("ckpt/models--lengyue233--content-vec-best/snapshots/c0b9ba13db21beaa4053faae94c102ebe326fd68")
-        for v in self.hubert.parameters():v.requires_grad = False
         self.zero_cond_embedding1 = nn.Parameter(torch.randn(32*32,))
         # self.xvecmodel = XVECModel()
         config = GPT2Config(n_positions=1000,n_layer=39,n_head=30,n_embd=1200)
@@ -317,7 +317,7 @@ class PromptCondAudioDiffusion(nn.Module):
             nn.Linear(1024, 768)
         )
         self.set_from = "random"
-        self.cfm_wrapper = BASECFM(unet, mlp,self.ssl_layer)
         self.mask_emb = torch.nn.Embedding(3, 48)
         print("Transformer initialized from pretrain.")
         torch.cuda.empty_cache()

         for v in self.bestrq.parameters():v.requires_grad = False
         self.rvq_bestrq_emb = ResidualVectorQuantize(input_dim = 1024, n_codebooks = 1, codebook_size = 16_384, codebook_dim = 32, quantizer_dropout = 0.0, stale_tolerance=200)
         for v in self.rvq_bestrq_emb.parameters():v.requires_grad = False
+        # self.hubert = HubertModelWithFinalProj.from_pretrained("ckpt/models--lengyue233--content-vec-best/snapshots/c0b9ba13db21beaa4053faae94c102ebe326fd68")
+        # for v in self.hubert.parameters():v.requires_grad = False
         self.zero_cond_embedding1 = nn.Parameter(torch.randn(32*32,))
         # self.xvecmodel = XVECModel()
         config = GPT2Config(n_positions=1000,n_layer=39,n_head=30,n_embd=1200)
             nn.Linear(1024, 768)
         )
         self.set_from = "random"
+        # self.cfm_wrapper = BASECFM(unet, mlp,self.ssl_layer)
         self.mask_emb = torch.nn.Embedding(3, 48)
         print("Transformer initialized from pretrain.")
         torch.cuda.empty_cache()

codeclm/tokenizer/Flow1dVAE/model_septoken.py CHANGED Viewed

@@ -271,8 +271,8 @@ class PromptCondAudioDiffusion(nn.Module):
         for v in self.bestrq.parameters():v.requires_grad = False
         self.rvq_bestrq_emb = ResidualVectorQuantize(input_dim = 1024, n_codebooks = 1, codebook_size = 16_384, codebook_dim = 32, quantizer_dropout = 0.0, stale_tolerance=200)
         self.rvq_bestrq_bgm_emb = ResidualVectorQuantize(input_dim = 1024, n_codebooks = 1, codebook_size = 16_384, codebook_dim = 32, quantizer_dropout = 0.0, stale_tolerance=200)
-        self.hubert = HubertModelWithFinalProj.from_pretrained("ckpt/models--lengyue233--content-vec-best/snapshots/c0b9ba13db21beaa4053faae94c102ebe326fd68")
-        for v in self.hubert.parameters():v.requires_grad = False
         self.zero_cond_embedding1 = nn.Parameter(torch.randn(32*32,))
         # self.xvecmodel = XVECModel()
         config = GPT2Config(n_positions=1000,n_layer=16,n_head=20,n_embd=2200,n_inner=4400)

         for v in self.bestrq.parameters():v.requires_grad = False
         self.rvq_bestrq_emb = ResidualVectorQuantize(input_dim = 1024, n_codebooks = 1, codebook_size = 16_384, codebook_dim = 32, quantizer_dropout = 0.0, stale_tolerance=200)
         self.rvq_bestrq_bgm_emb = ResidualVectorQuantize(input_dim = 1024, n_codebooks = 1, codebook_size = 16_384, codebook_dim = 32, quantizer_dropout = 0.0, stale_tolerance=200)
+        # self.hubert = HubertModelWithFinalProj.from_pretrained("ckpt/models--lengyue233--content-vec-best/snapshots/c0b9ba13db21beaa4053faae94c102ebe326fd68")
+        # for v in self.hubert.parameters():v.requires_grad = False
         self.zero_cond_embedding1 = nn.Parameter(torch.randn(32*32,))
         # self.xvecmodel = XVECModel()
         config = GPT2Config(n_positions=1000,n_layer=16,n_head=20,n_embd=2200,n_inner=4400)

download.py CHANGED Viewed

@@ -2,7 +2,7 @@ from huggingface_hub import snapshot_download
 import os
-def download_model(local_dir, repo_id="tencent/SongGeneration", revision="647f0a5"):
     downloaded_path = snapshot_download(
         repo_id=repo_id,
         local_dir=local_dir,

 import os
+def download_model(local_dir, repo_id="tencent/SongGeneration", revision="aa9d1b3"):
     downloaded_path = snapshot_download(
         repo_id=repo_id,
         local_dir=local_dir,