Spaces:

TheStageAI
/

Elastic-musicgen-large

Running on L40S

App Files Files Community

quazim commited on Jun 27

Commit

346c69d

1 Parent(s): 836dde3

updated

Browse files

Files changed (1) hide show

app.py +42 -17

app.py CHANGED Viewed

@@ -3,9 +3,10 @@ import torch
 import gc
 import numpy as np
 import random
-from transformers import AutoProcessor, pipeline
 import os
 os.environ['ELASTIC_LOG_LEVEL'] = 'DEBUG'
 from elastic_models.transformers import MusicgenForConditionalGeneration
 def set_seed(seed: int = 42):
@@ -24,6 +25,7 @@ def cleanup_gpu():
         torch.cuda.synchronize()
         gc.collect()
 _generator = None
 _processor = None
@@ -40,8 +42,7 @@ def load_model():
         print("[MODEL] Loading processor...")
         _processor = AutoProcessor.from_pretrained(
-            "facebook/musicgen-large",
-            cache_dir="/mnt/fs/huggingface_cache/"
         )
         print("[MODEL] Loading model...")
@@ -64,7 +65,7 @@ def load_model():
         )
         print("[MODEL] Model initialization completed successfully")
     return _generator, _processor
 def calculate_max_tokens(duration_seconds):
@@ -74,7 +75,6 @@ def calculate_max_tokens(duration_seconds):
     return max_new_tokens
 def generate_music(text_prompt, duration=10, guidance_scale=3.0):
-    """Generate music based on text prompt using pipeline"""
     try:
         generator, processor = load_model()
@@ -84,7 +84,10 @@ def generate_music(text_prompt, duration=10, guidance_scale=3.0):
         print(f"[GENERATION] Guidance scale: {guidance_scale}")
         cleanup_gpu()
         set_seed(42)
         max_new_tokens = calculate_max_tokens(duration)
@@ -112,8 +115,25 @@ def generate_music(text_prompt, duration=10, guidance_scale=3.0):
         print(f"[GENERATION] Audio shape: {audio_data.shape}")
         print(f"[GENERATION] Sample rate: {sample_rate}")
         audio_data = audio_data.astype(np.float32)
         return sample_rate, audio_data
     except Exception as e:
@@ -121,7 +141,8 @@ def generate_music(text_prompt, duration=10, guidance_scale=3.0):
         cleanup_gpu()
         return None, None
-with gr.Blocks(title="MusicGen Large - Music Generation", theme=gr.themes.Soft()) as demo:
     gr.Markdown("# 🎵 MusicGen Large Music Generator")
     gr.Markdown("Generate music from text descriptions using Facebook's MusicGen Large model with elastic compression.")
@@ -156,7 +177,9 @@ with gr.Blocks(title="MusicGen Large - Music Generation", theme=gr.themes.Soft()
         with gr.Column():
             audio_output = gr.Audio(
                 label="Generated Music",
-                type="numpy"
             )
             with gr.Accordion("Tips", open=False):
@@ -170,21 +193,23 @@ with gr.Blocks(title="MusicGen Large - Music Generation", theme=gr.themes.Soft()
     generate_btn.click(
         fn=generate_music,
         inputs=[text_input, duration, guidance_scale],
-        outputs=audio_output
     )
     gr.Examples(
         examples=[
-            ["A groovy funk bassline with a tight drum beat", 10, 3.0],
-            ["Relaxing acoustic guitar melody", 15, 3.0],
-            ["Electronic dance music with heavy bass", 10, 4.0],
-            ["Classical violin concerto", 20, 3.5],
-            ["Reggae with steel drums and bass", 12, 3.0],
-            ["Rock ballad with electric guitar solo", 15, 3.5],
-            ["Jazz piano improvisation with brushed drums", 18, 3.0],
-            ["Ambient synthwave with retro vibes", 25, 2.5],
         ],
-        inputs=[text_input, duration, guidance_scale],
         label="Example Prompts"
     )

 import gc
 import numpy as np
 import random
+import tempfile
 import os
 os.environ['ELASTIC_LOG_LEVEL'] = 'DEBUG'
+from transformers import AutoProcessor, pipeline
 from elastic_models.transformers import MusicgenForConditionalGeneration
 def set_seed(seed: int = 42):
         torch.cuda.synchronize()
         gc.collect()
+# Global variables for model caching with thread lock
 _generator = None
 _processor = None
         print("[MODEL] Loading processor...")
         _processor = AutoProcessor.from_pretrained(
+            "facebook/musicgen-large"
         )
         print("[MODEL] Loading model...")
         )
         print("[MODEL] Model initialization completed successfully")
     return _generator, _processor
 def calculate_max_tokens(duration_seconds):
     return max_new_tokens
 def generate_music(text_prompt, duration=10, guidance_scale=3.0):
     try:
         generator, processor = load_model()
         print(f"[GENERATION] Guidance scale: {guidance_scale}")
         cleanup_gpu()
+        import time
         set_seed(42)
+        print(f"[GENERATION] Using seed: {42}")
         max_new_tokens = calculate_max_tokens(duration)
         print(f"[GENERATION] Audio shape: {audio_data.shape}")
         print(f"[GENERATION] Sample rate: {sample_rate}")
+        # Fix audio format for Gradio display
+        if len(audio_data.shape) > 1:
+            # If stereo or multi-channel, take first channel
+            audio_data = audio_data[0] if audio_data.shape[0] < audio_data.shape[1] else audio_data[:, 0]
+        # Ensure it's 1D
+        audio_data = audio_data.flatten()
+        # Normalize audio to prevent clipping
+        max_val = np.max(np.abs(audio_data))
+        if max_val > 0:
+            audio_data = audio_data / max_val * 0.95  # Scale to 95% to avoid clipping
+        # Convert to float32 for Gradio
         audio_data = audio_data.astype(np.float32)
+        print(f"[GENERATION] Final audio shape: {audio_data.shape}")
+        print(f"[GENERATION] Audio range: [{np.min(audio_data):.3f}, {np.max(audio_data):.3f}]")
         return sample_rate, audio_data
     except Exception as e:
         cleanup_gpu()
         return None, None
+with gr.Blocks(title="MusicGen Large - Music Generation") as demo:
     gr.Markdown("# 🎵 MusicGen Large Music Generator")
     gr.Markdown("Generate music from text descriptions using Facebook's MusicGen Large model with elastic compression.")
         with gr.Column():
             audio_output = gr.Audio(
                 label="Generated Music",
+                type="numpy",
+                format="wav",
+                interactive=False
             )
             with gr.Accordion("Tips", open=False):
     generate_btn.click(
         fn=generate_music,
         inputs=[text_input, duration, guidance_scale],
+        outputs=audio_output,
+        show_progress=True
     )
+    # Example prompts - only text prompts now
     gr.Examples(
         examples=[
+            "A groovy funk bassline with a tight drum beat",
+            "Relaxing acoustic guitar melody",
+            "Electronic dance music with heavy bass",
+            "Classical violin concerto",
+            "Reggae with steel drums and bass",
+            "Rock ballad with electric guitar solo",
+            "Jazz piano improvisation with brushed drums",
+            "Ambient synthwave with retro vibes",
         ],
+        inputs=text_input,
         label="Example Prompts"
     )