Spaces:

amamrnaf
/

voice_clone

Paused

Amamrnaf commited on Dec 6, 2024

Commit

f023da7

1 Parent(s): c45f1ab

changes

Files changed (2) hide show

coqui_tts.py CHANGED Viewed

@@ -11,13 +11,32 @@ import shutil
 import pyloudnorm as pyln
 import torch
 from TTS.api import TTS
-def run_audio_generation_v1(text,accent='None'):
     gpu = True if torch.cuda.is_available() else False
     tts = TTS("tts_models/multilingual/multi-dataset/xtts_v2", gpu=gpu) # gpu should be true when server (cuda)
     # pre-process story audio file
     # convert to 16 bit mono
     # remove noise
@@ -26,7 +45,7 @@ def run_audio_generation_v1(text,accent='None'):
     sf.write('./tmp/audio/speaker_wav.wav', speaker_wav_data_no_noise, speaker_wav_rate, subtype='PCM_16')
     tts.tts_to_file(
-        text,
         speaker_wav="./tmp/audio/speaker_wav.wav",
         language="en",
         file_path="audio/output.wav"

 import pyloudnorm as pyln
 import torch
 from TTS.api import TTS
+import string
+def remove_punctuation(sentence):
+    translator = str.maketrans('', '', string.punctuation)
+    sentence = sentence.translate(translator)
+    # Remove line breaks
+    sentence = sentence.replace('\n', ' ').replace('\r', '')
+    return sentence
+def run_audio_generation_v1(new_text,accent='None'):
+    new_text =  new_text.replace('\n', ' ').replace('\r', '')
+    new_text_mod = remove_punctuation(new_text)
+    new_text_split = new_text_mod.split()
+    for word in new_text_split:
+        if len(word)>=2 and word.isupper():
+            new_text = new_text.replace(word, " ".join([*word]))
     gpu = True if torch.cuda.is_available() else False
     tts = TTS("tts_models/multilingual/multi-dataset/xtts_v2", gpu=gpu) # gpu should be true when server (cuda)
+    # if not gpu:
     # pre-process story audio file
     # convert to 16 bit mono
     # remove noise
     sf.write('./tmp/audio/speaker_wav.wav', speaker_wav_data_no_noise, speaker_wav_rate, subtype='PCM_16')
     tts.tts_to_file(
+        new_text,
         speaker_wav="./tmp/audio/speaker_wav.wav",
         language="en",
         file_path="audio/output.wav"

metaVoice.py ADDED Viewed

+from fam.llm.fast_inference import TTS
+import string
+import soundfile as sf
+def remove_punctuation(sentence):
+    translator = str.maketrans('', '', string.punctuation)
+    sentence = sentence.translate(translator)
+    # Remove line breaks
+    sentence = sentence.replace('\n', ' ').replace('\r', '')
+    return sentence
+def run_audio_generation_v2(new_text,accent='None'):
+    tts = TTS()
+    new_text =  new_text.replace('\n', ' ').replace('\r', '')
+    new_text_mod = remove_punctuation(new_text)
+    new_text_split = new_text_mod.split()
+    for word in new_text_split:
+        if len(word)>=2 and word.isupper():
+            new_text = new_text.replace(word, " ".join([*word]))
+    wav_file = tts.synthesise(
+    text=new_text,
+    spk_ref_path="./tmp/audio/speaker_wav.wav" # you can use any speaker reference file (WAV, OGG, MP3, FLAC, etc.)
+    )
+    sf.write('audio/output.wav', wav_file, samplerate=22050)