Spaces:

Tonic
/

whisperspeech

Runtime error

App Files Files Community

Tonic commited on Jan 27, 2024

Commit

12da9ab

verified ·

1 Parent(s): e7e8d00

Update app.py

Browse files

Files changed (1) hide show

app.py +4 -5

app.py CHANGED Viewed

@@ -32,7 +32,6 @@ text_examples = [
     ["<en> The big difference between Europe <fr> et les Etats Unis <pl> jest to, że mamy tak wiele języków <uk> тут, в Європі"]
 ]
-# Function to parse the multilingual input text
 def parse_multilingual_text(input_text):
     pattern = r"<(\w+)>\s(.*?)\s(?=<\w+>|$)"
     segments = re.findall(pattern, input_text)
@@ -46,11 +45,11 @@ def generate_segment_audio(text, lang, speaker_url, pipe):
     resample_audio = resampler(newsr=24000)
     audio_data_resampled = next(resample_audio([{'sample_rate': 24000, 'samples': audio_data.cpu()}]))['samples_24k']
     audio_np = audio_data_resampled.cpu().numpy()
-    print("Shape after resampling:", audio_np.shape)  # Debug statement
     return audio_np
 def concatenate_audio_segments(segments):
-    concatenated_audio = np.concatenate(segments , axis=0) #axis experimentation
     return concatenated_audio
@@ -67,11 +66,11 @@ def whisper_speech_demo(multilingual_text, speaker_audio):
     for lang, text in segments:
         text_str = text if isinstance(text, str) else str(text)
         audio_np = generate_segment_audio(text_str, lang, speaker_url, pipe)
-        print("Audio segment shape:", audio_np.shape)  # Debug statement
         audio_segments.append(audio_np)
     concatenated_audio = concatenate_audio_segments(audio_segments)
-    print("Final concatenated audio shape:", concatenated_audio.shape)  # Debug statement
     concatenated_audio = concatenated_audio / np.max(np.abs(concatenated_audio))
     with tempfile.NamedTemporaryFile(suffix='.wav', delete=False) as tmp_file:

     ["<en> The big difference between Europe <fr> et les Etats Unis <pl> jest to, że mamy tak wiele języków <uk> тут, в Європі"]
 ]
 def parse_multilingual_text(input_text):
     pattern = r"<(\w+)>\s(.*?)\s(?=<\w+>|$)"
     segments = re.findall(pattern, input_text)
     resample_audio = resampler(newsr=24000)
     audio_data_resampled = next(resample_audio([{'sample_rate': 24000, 'samples': audio_data.cpu()}]))['samples_24k']
     audio_np = audio_data_resampled.cpu().numpy()
+    # Debug statement    print("Shape after resampling:", audio_np.shape)
     return audio_np
 def concatenate_audio_segments(segments):
+    concatenated_audio = np.concatenate(segments , axis=1)
     return concatenated_audio
     for lang, text in segments:
         text_str = text if isinstance(text, str) else str(text)
         audio_np = generate_segment_audio(text_str, lang, speaker_url, pipe)
+        # Debug statement    print("Audio segment shape:", audio_np.shape)
         audio_segments.append(audio_np)
     concatenated_audio = concatenate_audio_segments(audio_segments)
+    # Debug statement        print("Final concatenated audio shape:", concatenated_audio.shape)
     concatenated_audio = concatenated_audio / np.max(np.abs(concatenated_audio))
     with tempfile.NamedTemporaryFile(suffix='.wav', delete=False) as tmp_file: