Spaces:

anuj-exe
/

text2speech

Sleeping

App Files Files Community

anuj-exe commited on Sep 27

Commit

e37d2df

verified ·

1 Parent(s): 0a85b62

Update app.py

Browse files

Files changed (1) hide show

app.py +11 -43

app.py CHANGED Viewed

@@ -1,55 +1,23 @@
 from fastapi import FastAPI
 from fastapi.responses import StreamingResponse
-from transformers import SpeechT5Processor, SpeechT5ForTextToSpeech
-import torch
 import io
 import soundfile as sf
-from pydub import AudioSegment
-import numpy as np
-import os
-os.environ["HF_HOME"] = "/home/user/.cache/huggingface"
 app = FastAPI()
-processor = SpeechT5Processor.from_pretrained("microsoft/speecht5_tts")
-model = SpeechT5ForTextToSpeech.from_pretrained("microsoft/speecht5_tts")
-# Preload a reference audio for speaker embedding
-# Download a small sample from HuggingFace or use your own
-ref_audio_file = "reference.wav"  # must exist in your repo/files
-# Load reference audio and compute embedding
-import torchaudio
-speech_array, sr = torchaudio.load(ref_audio_file)
-speech_array = speech_array.mean(dim=0, keepdim=True)  # mono
-speaker_embeddings = model.get_speaker_embedding(speech_array, sampling_rate=sr)
 @app.get("/speak")
 def speak(text: str):
-    inputs = processor(text=text, return_tensors="pt")
-    # Generate speech
-    speech = model.generate_speech(inputs["input_ids"], speaker_embeddings)
-    # Flatten to 1D
-    speech = speech.squeeze().detach().cpu().numpy()
-    if speech.ndim > 1:
-        speech = speech.mean(axis=-1)
-    # Convert to int16
-    waveform_int16 = np.clip(speech, -1.0, 1.0) * 32767
-    waveform_int16 = waveform_int16.astype(np.int16)
-    # WAV buffer
-    wav_buf = io.BytesIO()
-    sf.write(wav_buf, waveform_int16, 16000, format="WAV", subtype="PCM_16")
-    wav_buf.seek(0)
-    # Convert to MP3
-    audio = AudioSegment.from_wav(wav_buf)
-    mp3_buf = io.BytesIO()
-    audio.export(mp3_buf, format="mp3")
-    mp3_buf.seek(0)
-    return StreamingResponse(mp3_buf, media_type="audio/mpeg")

 from fastapi import FastAPI
 from fastapi.responses import StreamingResponse
+from transformers import pipeline
 import io
 import soundfile as sf
 app = FastAPI()
+# Load TTS pipeline
+tts = pipeline("text-to-speech", model="suno/bark-small")
 @app.get("/speak")
 def speak(text: str):
+    # Generate speech (numpy float32 array)
+    output = tts(text)
+    audio = output["audio"]
+    # Write WAV to in-memory buffer
+    buf = io.BytesIO()
+    sf.write(buf, audio, 24000, format="WAV")  # Bark uses 24kHz
+    buf.seek(0)
+    return StreamingResponse(buf, media_type="audio/wav")