TTS-Arena-JA

Paused

App Files Files Community

kamahori commited on May 2

Commit

87e0f69

1 Parent(s): 42a1f72

Add eleven labs

Browse files

Files changed (3) hide show

app.py +10 -5
requirements.txt +1 -0
utils.py +46 -0

app.py CHANGED Viewed

@@ -16,7 +16,7 @@ from pydub import AudioSegment
 import requests
 import json
-from utils import get_google_credentials, get_google_tts, get_openai_tts
 os.environ["GOOGLE_APPLICATION_CREDENTIALS"] = get_google_credentials()
@@ -42,7 +42,7 @@ KOTOBA_API_URL = os.getenv('KOTOBA_API_URL', 'https://api.example.com/tts')
 AVAILABLE_MODELS = {
     # 'XTTSv2': 'xtts',
     # # 'WhisperSpeech': 'whisperspeech',
-    # 'ElevenLabs': 'eleven',
     # # 'OpenVoice': 'openvoice',
     # 'OpenVoice V2': 'openvoicev2',
     # 'Play.HT 2.0': 'playht',
@@ -54,10 +54,10 @@ AVAILABLE_MODELS = {
     # 'VoiceCraft 2.0': 'voicecraft',
     # 'Parler TTS': 'parler'
     'MOE-VITS': 'moe-vits',
-    'BARK': 'bark',
     'KOTOBA-TTS': 'kotoba-tts',
     #'BLANE-TTS': 'blane-tts',
-    'AMITARO-VITS': 'amitaro-vits',
     'GOOGLE-TTS': 'google-tts',
     'OPENAI-TTS': 'openai-tts'
 }
@@ -337,7 +337,8 @@ model_names = {
     # 'xtts2': 'Coqui XTTSv2',
     # 'xtts': 'Coqui XTTS',
     # 'openvoice': 'MyShell OpenVoice',
-    # 'elevenlabs': 'ElevenLabs',
     # 'openai': 'OpenAI',
     # 'hierspeech': 'HierSpeech++',
     # 'pheme': 'PolyAI Pheme',
@@ -743,6 +744,10 @@ def synthandreturn(text, retry=0):
                 elif model == "openai-tts":
                     local_filename = '/tmp/' + str(mkuuid(None)) + '.wav'
                     result = get_openai_tts(text, local_filename=local_filename)
                 elif model == "kotoba-tts":
                     result = get_kotoba_tts(text)
                     print(f"API TTS audio file: {result}")

 import requests
 import json
+from utils import get_google_credentials, get_google_tts, get_openai_tts, get_elevenlabs_tts
 os.environ["GOOGLE_APPLICATION_CREDENTIALS"] = get_google_credentials()
 AVAILABLE_MODELS = {
     # 'XTTSv2': 'xtts',
     # # 'WhisperSpeech': 'whisperspeech',
+    'ElevenLabs': 'eleven',
     # # 'OpenVoice': 'openvoice',
     # 'OpenVoice V2': 'openvoicev2',
     # 'Play.HT 2.0': 'playht',
     # 'VoiceCraft 2.0': 'voicecraft',
     # 'Parler TTS': 'parler'
     'MOE-VITS': 'moe-vits',
+    # 'BARK': 'bark',
     'KOTOBA-TTS': 'kotoba-tts',
     #'BLANE-TTS': 'blane-tts',
+    # 'AMITARO-VITS': 'amitaro-vits',
     'GOOGLE-TTS': 'google-tts',
     'OPENAI-TTS': 'openai-tts'
 }
     # 'xtts2': 'Coqui XTTSv2',
     # 'xtts': 'Coqui XTTS',
     # 'openvoice': 'MyShell OpenVoice',
+    'elevenlabs': 'ElevenLabs',
+    'ElevenLabs': 'ElevenLabs',  # Add this to match AVAILABLE_MODELS key
     # 'openai': 'OpenAI',
     # 'hierspeech': 'HierSpeech++',
     # 'pheme': 'PolyAI Pheme',
                 elif model == "openai-tts":
                     local_filename = '/tmp/' + str(mkuuid(None)) + '.wav'
                     result = get_openai_tts(text, local_filename=local_filename)
+                elif model == "eleven":
+                    local_filename = '/tmp/' + str(mkuuid(None)) + '.wav'
+                    result = get_elevenlabs_tts(text, local_filename=local_filename)
+                    print(f"ElevenLabs TTS audio file: {result}")
                 elif model == "kotoba-tts":
                     result = get_kotoba_tts(text)
                     print(f"API TTS audio file: {result}")

requirements.txt CHANGED Viewed

@@ -9,3 +9,4 @@ pydub
 google-cloud-texttospeech
 openai
 numpy

 google-cloud-texttospeech
 openai
 numpy
+requests

utils.py CHANGED Viewed

@@ -2,6 +2,7 @@ import os
 import json
 import tempfile
 from google.cloud import texttospeech
 from pathlib import Path
 from openai import OpenAI
@@ -59,4 +60,49 @@ def get_google_tts(text, local_filename):
         out.write(response.audio_content)
         print(f'Audio content written to file {local_filename}')
     return local_filename

 import json
 import tempfile
 from google.cloud import texttospeech
+import requests
 from pathlib import Path
 from openai import OpenAI
         out.write(response.audio_content)
         print(f'Audio content written to file {local_filename}')
+    return local_filename
+def get_elevenlabs_tts(text, local_filename):
+    """
+    Call the Eleven Labs API to generate speech from text.
+    Args:
+        text (str): The text to convert to speech
+        local_filename (str): Path to save the generated audio file
+    Returns:
+        str: Path to the generated audio file
+    """
+    api_key = os.getenv("ELEVENLABS_API_KEY")
+    # API endpoint for text-to-speech
+    url = "https://api.elevenlabs.io/v1/text-to-speech/21m00Tcm4TlvDq8ikWAM"  # Default voice ID (Rachel)
+    # Headers with API key
+    headers = {
+        "Accept": "audio/mpeg",
+        "Content-Type": "application/json",
+        "xi-api-key": api_key
+    }
+    # Request body
+    data = {
+        "text": text,
+        "model_id": "eleven_multilingual_v2",
+        "voice_settings": {
+            "stability": 0.5,
+            "similarity_boost": 0.5
+        }
+    }
+    # Make the request
+    response = requests.post(url, json=data, headers=headers)
+    # Check if the request was successful
+    response.raise_for_status()
+    # Save the audio content to the specified file
+    with open(local_filename, "wb") as f:
+        f.write(response.content)
     return local_filename