Spaces:

TheStageAI
/

Elastic-musicgen-large

Running on L40S

App Files Files Community

quazim commited on Jun 27

Commit

b2d3523

1 Parent(s): bb422a5

updated

Browse files

Files changed (1) hide show

app.py +33 -13

app.py CHANGED Viewed

@@ -132,20 +132,20 @@ def generate_music(text_prompt, duration=10, guidance_scale=3.0):
         output = outputs[0]
         audio_data = output['audio']
         sample_rate = output['sampling_rate']
         print(f"[GENERATION] Audio shape: {audio_data.shape}")
         print(f"[GENERATION] Sample rate: {sample_rate}")
         print(f"[GENERATION] Audio dtype: {audio_data.dtype}")
         print(f"[GENERATION] Audio is numpy: {type(audio_data)}")
         if hasattr(audio_data, 'cpu'):
             audio_data = audio_data.cpu().numpy()
         print(f"[GENERATION] Audio shape after tensor conversion: {audio_data.shape}")
         if len(audio_data.shape) == 3:
             audio_data = audio_data[0]
         if len(audio_data.shape) == 2:
             if audio_data.shape[0] < audio_data.shape[1]:
                 audio_data = audio_data.T
@@ -153,22 +153,36 @@ def generate_music(text_prompt, duration=10, guidance_scale=3.0):
                 audio_data = audio_data[:, 0]
             else:
                 audio_data = audio_data.flatten()
         audio_data = audio_data.flatten()
         print(f"[GENERATION] Audio shape after flattening: {audio_data.shape}")
         max_val = np.max(np.abs(audio_data))
         if max_val > 0:
             audio_data = audio_data / max_val * 0.95  # Scale to 95% to avoid clipping
         audio_data = audio_data.astype(np.float32)
         print(f"[GENERATION] Final audio shape: {audio_data.shape}")
         print(f"[GENERATION] Audio range: [{np.min(audio_data):.3f}, {np.max(audio_data):.3f}]")
         print(f"[GENERATION] Sample rate: {sample_rate}")
-        return (sample_rate, audio_data)
     except Exception as e:
         print(f"[ERROR] Generation failed: {str(e)}")
@@ -211,8 +225,14 @@ with gr.Blocks(title="MusicGen Large - Music Generation") as demo:
         with gr.Column():
             audio_output = gr.Audio(
                 label="Generated Music",
-                type="numpy",
                 interactive=False,
             )
             with gr.Accordion("Tips", open=False):

         output = outputs[0]
         audio_data = output['audio']
         sample_rate = output['sampling_rate']
         print(f"[GENERATION] Audio shape: {audio_data.shape}")
         print(f"[GENERATION] Sample rate: {sample_rate}")
         print(f"[GENERATION] Audio dtype: {audio_data.dtype}")
         print(f"[GENERATION] Audio is numpy: {type(audio_data)}")
         if hasattr(audio_data, 'cpu'):
             audio_data = audio_data.cpu().numpy()
         print(f"[GENERATION] Audio shape after tensor conversion: {audio_data.shape}")
         if len(audio_data.shape) == 3:
             audio_data = audio_data[0]
         if len(audio_data.shape) == 2:
             if audio_data.shape[0] < audio_data.shape[1]:
                 audio_data = audio_data.T
                 audio_data = audio_data[:, 0]
             else:
                 audio_data = audio_data.flatten()
         audio_data = audio_data.flatten()
         print(f"[GENERATION] Audio shape after flattening: {audio_data.shape}")
         max_val = np.max(np.abs(audio_data))
         if max_val > 0:
             audio_data = audio_data / max_val * 0.95  # Scale to 95% to avoid clipping
         audio_data = audio_data.astype(np.float32)
         print(f"[GENERATION] Final audio shape: {audio_data.shape}")
         print(f"[GENERATION] Audio range: [{np.min(audio_data):.3f}, {np.max(audio_data):.3f}]")
         print(f"[GENERATION] Sample rate: {sample_rate}")
+        timestamp = int(time.time() * 1000)
+        temp_filename = f"generated_music_{timestamp}.wav"
+        temp_path = os.path.join(tempfile.gettempdir(), temp_filename)
+        sf.write(temp_path, audio_data, sample_rate)
+        if os.path.exists(temp_path):
+            file_size = os.path.getsize(temp_path)
+            print(f"[GENERATION] Audio saved to: {temp_path}")
+            print(f"[GENERATION] File size: {file_size} bytes")
+        else:
+            print(f"[ERROR] Failed to create audio file: {temp_path}")
+            return None
+        return temp_path
     except Exception as e:
         print(f"[ERROR] Generation failed: {str(e)}")
         with gr.Column():
             audio_output = gr.Audio(
                 label="Generated Music",
+                type="filepath",
+                format="wav",
                 interactive=False,
+                autoplay=True,
+                show_download_button=True,
+                waveform_options=gr.WaveformOptions(
+                    show_recording_waveform=True
+                )
             )
             with gr.Accordion("Tips", open=False):