Spaces:

anuj-exe
/

text2speech

Sleeping

anuj-exe commited on Sep 27

Commit

49bf0ac

verified ·

1 Parent(s): 52d9830

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,10 +1,10 @@
-# app.py
 from fastapi import FastAPI, Query
 from fastapi.responses import StreamingResponse
 from transformers import SpeechT5Processor, SpeechT5ForTextToSpeech, SpeechT5HifiGan
 import torch
 import io
 import soundfile as sf
 app = FastAPI(title="SpeechT5 TTS API")
@@ -13,8 +13,20 @@ processor = SpeechT5Processor.from_pretrained("microsoft/speecht5_tts")
 model = SpeechT5ForTextToSpeech.from_pretrained("microsoft/speecht5_tts")
 vocoder = SpeechT5HifiGan.from_pretrained("microsoft/speecht5_hifigan")
-# Dummy speaker embedding (flat, neutral voice)
-speaker_embeddings = torch.zeros((1, 512))
 @app.get("/speak")

 from fastapi import FastAPI, Query
 from fastapi.responses import StreamingResponse
 from transformers import SpeechT5Processor, SpeechT5ForTextToSpeech, SpeechT5HifiGan
 import torch
 import io
 import soundfile as sf
+import requests
 app = FastAPI(title="SpeechT5 TTS API")
 model = SpeechT5ForTextToSpeech.from_pretrained("microsoft/speecht5_tts")
 vocoder = SpeechT5HifiGan.from_pretrained("microsoft/speecht5_hifigan")
+# Function to load a speaker embedding from a URL
+def load_speaker_embedding(url: str) -> torch.Tensor:
+    response = requests.get(url)
+    response.raise_for_status()
+    # Load the .bin file as a float32 tensor
+    embedding = torch.frombuffer(response.content, dtype=torch.float32)
+    return embedding.unsqueeze(0)  # Add batch dimension
+# Example: load US female 1
+speaker_embeddings = load_speaker_embedding(
+    "https://huggingface.co/datasets/Xenova/cmu-arctic-xvectors-extracted/resolve/main/cmu_us_slt_arctic-wav-arctic_a0001.bin"
+)
 @app.get("/speak")