Spaces:

TheStageAI
/

Elastic-musicgen-large

Running on L40S

App Files Files Community

quazim commited on Jun 27

Commit

3d157c8

1 Parent(s): 341afaa

updated

Browse files

Files changed (1) hide show

app.py +53 -25

app.py CHANGED Viewed

@@ -4,10 +4,14 @@ import gc
 import numpy as np
 import random
 import os
 os.environ['ELASTIC_LOG_LEVEL'] = 'DEBUG'
 from transformers import AutoProcessor, pipeline
 from elastic_models.transformers import MusicgenForConditionalGeneration
 def set_seed(seed: int = 42):
     random.seed(seed)
     np.random.seed(seed)
@@ -17,6 +21,7 @@ def set_seed(seed: int = 42):
     torch.backends.cudnn.deterministic = True
     torch.backends.cudnn.benchmark = False
 def cleanup_gpu():
     """Clean up GPU memory to avoid TensorRT conflicts."""
     if torch.cuda.is_available():
@@ -24,17 +29,33 @@ def cleanup_gpu():
         torch.cuda.synchronize()
         gc.collect()
 _generator = None
 _processor = None
 def load_model():
-    """Load the musicgen model and processor using pipeline approach"""
     global _generator, _processor
     if _generator is None:
         print("[MODEL] Starting model initialization...")
         cleanup_gpu()
         device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
         print(f"[MODEL] Using device: {device}")
@@ -42,7 +63,7 @@ def load_model():
         _processor = AutoProcessor.from_pretrained(
             "facebook/musicgen-large"
         )
         print("[MODEL] Loading model...")
         model = MusicgenForConditionalGeneration.from_pretrained(
             "facebook/musicgen-large",
@@ -51,9 +72,9 @@ def load_model():
             mode="S",
             __paged=True,
         )
         model.eval()
         print("[MODEL] Creating pipeline...")
         _generator = pipeline(
             task="text-to-audio",
@@ -61,34 +82,36 @@ def load_model():
             tokenizer=_processor.tokenizer,
             device=device,
         )
         print("[MODEL] Model initialization completed successfully")
     return _generator, _processor
 def calculate_max_tokens(duration_seconds):
     token_rate = 50
     max_new_tokens = int(duration_seconds * token_rate)
     print(f"[MODEL] Duration: {duration_seconds}s -> Tokens: {max_new_tokens} (rate: {token_rate})")
     return max_new_tokens
 def generate_music(text_prompt, duration=10, guidance_scale=3.0):
     try:
         generator, processor = load_model()
         print(f"[GENERATION] Starting generation...")
         print(f"[GENERATION] Prompt: '{text_prompt}'")
         print(f"[GENERATION] Duration: {duration}s")
         print(f"[GENERATION] Guidance scale: {guidance_scale}")
         cleanup_gpu()
         import time
         set_seed(42)
         print(f"[GENERATION] Using seed: {42}")
         max_new_tokens = calculate_max_tokens(duration)
         generation_params = {
             'do_sample': True,
             'guidance_scale': guidance_scale,
@@ -96,39 +119,43 @@ def generate_music(text_prompt, duration=10, guidance_scale=3.0):
             'min_new_tokens': max_new_tokens,
             'cache_implementation': 'paged',
         }
         prompts = [text_prompt]
         outputs = generator(
             prompts,
             batch_size=1,
             generate_kwargs=generation_params
         )
         print(f"[GENERATION] Generation completed successfully")
         output = outputs[0]
         audio_data = output['audio']
         sample_rate = output['sampling_rate']
         print(f"[GENERATION] Audio shape: {audio_data.shape}")
         print(f"[GENERATION] Sample rate: {sample_rate}")
         if len(audio_data.shape) > 1:
-            # If stereo or multi-channel, take first channel
             audio_data = audio_data[0] if audio_data.shape[0] < audio_data.shape[1] else audio_data[:, 0]
         audio_data = audio_data.flatten()
         max_val = np.max(np.abs(audio_data))
         if max_val > 0:
             audio_data = audio_data / max_val * 0.95  # Scale to 95% to avoid clipping
         audio_data = audio_data.astype(np.float32)
         print(f"[GENERATION] Final audio shape: {audio_data.shape}")
         print(f"[GENERATION] Audio range: [{np.min(audio_data):.3f}, {np.max(audio_data):.3f}]")
-        return sample_rate, audio_data
     except Exception as e:
         print(f"[ERROR] Generation failed: {str(e)}")
@@ -139,7 +166,7 @@ def generate_music(text_prompt, duration=10, guidance_scale=3.0):
 with gr.Blocks(title="MusicGen Large - Music Generation") as demo:
     gr.Markdown("# 🎵 MusicGen Large Music Generator")
     gr.Markdown("Generate music from text descriptions using Facebook's MusicGen Large model with elastic compression.")
     with gr.Row():
         with gr.Column():
             text_input = gr.Textbox(
@@ -175,7 +202,7 @@ with gr.Blocks(title="MusicGen Large - Music Generation") as demo:
                 format="wav",
                 interactive=False
             )
             with gr.Accordion("Tips", open=False):
                 gr.Markdown("""
                 - Be specific in your descriptions (e.g., "slow blues guitar with harmonica")
@@ -219,4 +246,5 @@ with gr.Blocks(title="MusicGen Large - Music Generation") as demo:
     """)
 if __name__ == "__main__":
     demo.launch()

 import numpy as np
 import random
 import os
+import tempfile
+import soundfile as sf
 os.environ['ELASTIC_LOG_LEVEL'] = 'DEBUG'
 from transformers import AutoProcessor, pipeline
 from elastic_models.transformers import MusicgenForConditionalGeneration
 def set_seed(seed: int = 42):
     random.seed(seed)
     np.random.seed(seed)
     torch.backends.cudnn.deterministic = True
     torch.backends.cudnn.benchmark = False
 def cleanup_gpu():
     """Clean up GPU memory to avoid TensorRT conflicts."""
     if torch.cuda.is_available():
         torch.cuda.synchronize()
         gc.collect()
+def cleanup_temp_files():
+    """Clean up old temporary audio files."""
+    import glob
+    import time
+    temp_dir = tempfile.gettempdir()
+    cutoff_time = time.time() - 3600
+    for temp_file in glob.glob(os.path.join(temp_dir, "tmp*.wav")):
+        try:
+            if os.path.getctime(temp_file) < cutoff_time:
+                os.remove(temp_file)
+                print(f"[CLEANUP] Removed old temp file: {temp_file}")
+        except OSError:
+            pass
 _generator = None
 _processor = None
 def load_model():
     global _generator, _processor
     if _generator is None:
         print("[MODEL] Starting model initialization...")
         cleanup_gpu()
         device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
         print(f"[MODEL] Using device: {device}")
         _processor = AutoProcessor.from_pretrained(
             "facebook/musicgen-large"
         )
         print("[MODEL] Loading model...")
         model = MusicgenForConditionalGeneration.from_pretrained(
             "facebook/musicgen-large",
             mode="S",
             __paged=True,
         )
         model.eval()
         print("[MODEL] Creating pipeline...")
         _generator = pipeline(
             task="text-to-audio",
             tokenizer=_processor.tokenizer,
             device=device,
         )
         print("[MODEL] Model initialization completed successfully")
     return _generator, _processor
 def calculate_max_tokens(duration_seconds):
     token_rate = 50
     max_new_tokens = int(duration_seconds * token_rate)
     print(f"[MODEL] Duration: {duration_seconds}s -> Tokens: {max_new_tokens} (rate: {token_rate})")
     return max_new_tokens
 def generate_music(text_prompt, duration=10, guidance_scale=3.0):
     try:
         generator, processor = load_model()
         print(f"[GENERATION] Starting generation...")
         print(f"[GENERATION] Prompt: '{text_prompt}'")
         print(f"[GENERATION] Duration: {duration}s")
         print(f"[GENERATION] Guidance scale: {guidance_scale}")
         cleanup_gpu()
         import time
         set_seed(42)
         print(f"[GENERATION] Using seed: {42}")
         max_new_tokens = calculate_max_tokens(duration)
         generation_params = {
             'do_sample': True,
             'guidance_scale': guidance_scale,
             'min_new_tokens': max_new_tokens,
             'cache_implementation': 'paged',
         }
         prompts = [text_prompt]
         outputs = generator(
             prompts,
             batch_size=1,
             generate_kwargs=generation_params
         )
         print(f"[GENERATION] Generation completed successfully")
         output = outputs[0]
         audio_data = output['audio']
         sample_rate = output['sampling_rate']
         print(f"[GENERATION] Audio shape: {audio_data.shape}")
         print(f"[GENERATION] Sample rate: {sample_rate}")
         if len(audio_data.shape) > 1:
             audio_data = audio_data[0] if audio_data.shape[0] < audio_data.shape[1] else audio_data[:, 0]
         audio_data = audio_data.flatten()
         max_val = np.max(np.abs(audio_data))
         if max_val > 0:
             audio_data = audio_data / max_val * 0.95  # Scale to 95% to avoid clipping
         audio_data = audio_data.astype(np.float32)
         print(f"[GENERATION] Final audio shape: {audio_data.shape}")
         print(f"[GENERATION] Audio range: [{np.min(audio_data):.3f}, {np.max(audio_data):.3f}]")
+        with tempfile.NamedTemporaryFile(delete=False, suffix='.wav') as tmp_file:
+            sf.write(tmp_file.name, audio_data, sample_rate)
+            temp_path = tmp_file.name
+        print(f"[GENERATION] Audio saved to: {temp_path}")
+        return temp_path
     except Exception as e:
         print(f"[ERROR] Generation failed: {str(e)}")
 with gr.Blocks(title="MusicGen Large - Music Generation") as demo:
     gr.Markdown("# 🎵 MusicGen Large Music Generator")
     gr.Markdown("Generate music from text descriptions using Facebook's MusicGen Large model with elastic compression.")
     with gr.Row():
         with gr.Column():
             text_input = gr.Textbox(
                 format="wav",
                 interactive=False
             )
             with gr.Accordion("Tips", open=False):
                 gr.Markdown("""
                 - Be specific in your descriptions (e.g., "slow blues guitar with harmonica")
     """)
 if __name__ == "__main__":
+    cleanup_temp_files()
     demo.launch()