Spaces:

anuj-exe
/

text2speech

Sleeping

App Files Files Community

anuj-exe commited on Sep 27

Commit

c567be8

verified ·

1 Parent(s): a2d5f3e

Update app.py

Browse files

Files changed (1) hide show

app.py +22 -29

app.py CHANGED Viewed

@@ -4,61 +4,54 @@ from transformers import SpeechT5Processor, SpeechT5ForTextToSpeech
 import torch
 import io
 import os
-import logging
 import numpy as np
-from pydub import AudioSegment
 import soundfile as sf
 logging.basicConfig(level=logging.INFO)
 os.environ["HF_HOME"] = "/home/user/.cache/huggingface"
-app = FastAPI()
-# Load model & processor
 processor = SpeechT5Processor.from_pretrained("microsoft/speecht5_tts")
 model = SpeechT5ForTextToSpeech.from_pretrained("microsoft/speecht5_tts")
-# Dummy speaker embedding
-speaker_embeddings = torch.zeros((1, 512))
 @app.get("/")
 def home():
-    return {"message": "Welcome to SpeechT5 TTS API. Use /speak_wav or /speak_mp3"}
-def float32_to_int16(waveform: np.ndarray):
-    """Convert float32 [-1,1] waveform to int16 PCM"""
-    waveform = np.clip(waveform, -1.0, 1.0)
-    waveform_int16 = (waveform * 32767).astype(np.int16)
-    return waveform_int16
-@app.get("/speak_wav")
-def speak_wav(text: str):
     inputs = processor(text=text, return_tensors="pt")
-    speech = model.generate_speech(inputs["input_ids"], speaker_embeddings)
-    buf = io.BytesIO()
-    waveform_int16 = float32_to_int16(speech.numpy())
-    sf.write(buf, waveform_int16, 16000, format="WAV")
-    buf.seek(0)
-    return StreamingResponse(buf, media_type="audio/wav")
-@app.get("/speak_mp3")
-def speak_mp3(text: str):
-    inputs = processor(text=text, return_tensors="pt")
     speech = model.generate_speech(inputs["input_ids"], speaker_embeddings)
-    # Convert float32 -> int16
-    waveform_int16 = float32_to_int16(speech.numpy())
-    # WAV buffer
     wav_buf = io.BytesIO()
     sf.write(wav_buf, waveform_int16, 16000, format="WAV")
     wav_buf.seek(0)
-    # Convert to MP3
     audio = AudioSegment.from_wav(wav_buf)
     mp3_buf = io.BytesIO()
     audio.export(mp3_buf, format="mp3")
     mp3_buf.seek(0)
     return StreamingResponse(mp3_buf, media_type="audio/mpeg")

 import torch
 import io
 import os
 import numpy as np
 import soundfile as sf
+from pydub import AudioSegment
+import logging
 logging.basicConfig(level=logging.INFO)
+# Use a writable cache directory in Spaces
 os.environ["HF_HOME"] = "/home/user/.cache/huggingface"
+app = FastAPI(title="SpeechT5 TTS API")
+# Load processor and model
 processor = SpeechT5Processor.from_pretrained("microsoft/speecht5_tts")
 model = SpeechT5ForTextToSpeech.from_pretrained("microsoft/speecht5_tts")
+# Dummy speaker embedding (flat, mono)
+speaker_embeddings = torch.zeros(1, 512)  # shape (1, 512)
 @app.get("/")
 def home():
+    return {"message": "Welcome to SpeechT5 TTS API. Use /speak?text=Hello"}
+@app.get("/speak")
+def speak(text: str):
+    # 1️⃣ Tokenize input text
     inputs = processor(text=text, return_tensors="pt")
+    # 2️⃣ Generate speech waveform
     speech = model.generate_speech(inputs["input_ids"], speaker_embeddings)
+    # 3️⃣ Ensure mono audio
+    speech = speech.squeeze()  # remove extra dimensions if any
+    # 4️⃣ Convert float32 waveform [-1,1] -> int16 PCM
+    waveform_int16 = np.clip(speech.numpy(), -1.0, 1.0) * 32767
+    waveform_int16 = waveform_int16.astype(np.int16)
+    # 5️⃣ Write to WAV buffer
     wav_buf = io.BytesIO()
     sf.write(wav_buf, waveform_int16, 16000, format="WAV")
     wav_buf.seek(0)
+    # 6️⃣ Convert WAV -> MP3 for browser-friendly playback
     audio = AudioSegment.from_wav(wav_buf)
     mp3_buf = io.BytesIO()
     audio.export(mp3_buf, format="mp3")
     mp3_buf.seek(0)
+    # 7️⃣ Return MP3 audio
     return StreamingResponse(mp3_buf, media_type="audio/mpeg")