Spaces:

Hilley
/

ChatVC

Running

App Files Files Community

Hilley commited on Jun 2, 2024

Commit

779412e

verified ·

1 Parent(s): 332c793

Update app.py

Browse files

Files changed (1) hide show

app.py +116 -30

app.py CHANGED Viewed

@@ -13,6 +13,11 @@ import se_extractor
 from api import BaseSpeakerTTS, ToneColorConverter
 import soundfile
 print("loading ChatTTS model...")
 chat = ChatTTS.Chat()
 chat.load_models()
@@ -122,47 +127,128 @@ def generate_audio(text, audio_ref, temperature, top_P, top_K, audio_seed_input,
     return "output.wav"
-with gr.Blocks() as demo:
-    gr.Markdown("# Enjoy chatting with your ai friends on website, telegram and so on! (https://linkin.love)")
-    default_text = "Today a man knocked on my door and asked for a small donation toward the local swimming pool. I gave him a glass of water."
-    text_input = gr.Textbox(label="Input Text", lines=4, placeholder="Please Input Text...", value=default_text)
-    default_refine_text = "[oral_2][laugh_0][break_6]"
-    refine_text_checkbox = gr.Checkbox(label="Refine text：'oral' means add filler words, 'laugh' means add laughter, and 'break' means add a pause. (0-10) ", value=True)
-    refine_text_input = gr.Textbox(label="Refine Prompt", lines=1, placeholder="Please Refine Prompt...", value=default_refine_text)
-    with gr.Column():
-        clone_voice = gr.Audio(label="请上传您喜欢的语音文件", type="filepath")
-    with gr.Row():
-        temperature_slider = gr.Slider(minimum=0.00001, maximum=1.0, step=0.00001, value=0.3, label="Audio temperature")
-        top_p_slider = gr.Slider(minimum=0.1, maximum=0.9, step=0.05, value=0.7, label="top_P")
-        top_k_slider = gr.Slider(minimum=1, maximum=20, step=1, value=20, label="top_K")
-    with gr.Row():
-        audio_seed_input = gr.Number(value=42, label="Speaker Seed")
-        generate_audio_seed = gr.Button("\U0001F3B2")
-        text_seed_input = gr.Number(value=42, label="Text Seed")
-        generate_text_seed = gr.Button("\U0001F3B2")
-    generate_button = gr.Button("Generate")
-    #text_output = gr.Textbox(label="Refined Text", interactive=False)
-    audio_output = gr.Audio(label="Output Audio")
-    generate_audio_seed.click(generate_seed,
-                              inputs=[],
-                              outputs=audio_seed_input)
-    generate_text_seed.click(generate_seed,
-                             inputs=[],
-                             outputs=text_seed_input)
-    generate_button.click(generate_audio,
-                          inputs=[text_input, clone_voice, temperature_slider, top_p_slider, top_k_slider, audio_seed_input, text_seed_input, refine_text_checkbox, refine_text_input],
-                          outputs=audio_output)
 parser = argparse.ArgumentParser(description='ChatTTS demo Launch')
 parser.add_argument('--server_name', type=str, default='0.0.0.0', help='Server name')

 from api import BaseSpeakerTTS, ToneColorConverter
 import soundfile
+from tts_voice import tts_order_voice
+import edge_tts
+import tempfile
+import anyio
 print("loading ChatTTS model...")
 chat = ChatTTS.Chat()
 chat.load_models()
     return "output.wav"
+def vc_en(text, audio_ref, style_mode):
+    if style_mode=="default":
+        source_se = torch.load(f'{ckpt_base_en}/en_default_se.pth').to(device)
+        reference_speaker = audio_ref
+        target_se, audio_name = se_extractor.get_se(reference_speaker, tone_color_converter, target_dir='processed', vad=True)
+        save_path = "output.wav"
+        # Run the base speaker tts
+        src_path = "tmp.wav"
+        base_speaker_tts.tts(text, src_path, speaker='default', language='English', speed=1.0)
+        # Run the tone color converter
+        encode_message = "@MyShell"
+        tone_color_converter.convert(
+            audio_src_path=src_path,
+            src_se=source_se,
+            tgt_se=target_se,
+            output_path=save_path,
+            message=encode_message)
+      else:
+        source_se = torch.load(f'{ckpt_base_en}/en_style_se.pth').to(device)
+        reference_speaker = audio_ref
+        target_se, audio_name = se_extractor.get_se(reference_speaker, tone_color_converter, target_dir='processed', vad=True)
+        save_path = "output.wav"
+        # Run the base speaker tts
+        src_path = "tmp.wav"
+        base_speaker_tts.tts(text, src_path, speaker=style_mode, language='English', speed=0.9)
+        # Run the tone color converter
+        encode_message = "@MyShell"
+        tone_color_converter.convert(
+            audio_src_path=src_path,
+            src_se=source_se,
+            tgt_se=target_se,
+            output_path=save_path,
+            message=encode_message)
+    return "output.wav"
+language_dict = tts_order_voice
+base_speaker = "base_audio.mp3"
+source_se, audio_name = se_extractor.get_se(base_speaker, tone_color_converter, vad=True)
+async def text_to_speech_edge(text, audio_ref, language_code):
+    voice = language_dict[language_code]
+    communicate = edge_tts.Communicate(text, voice)
+    with tempfile.NamedTemporaryFile(delete=False, suffix=".mp3") as tmp_file:
+        tmp_path = tmp_file.name
+    await communicate.save(tmp_path)
+    reference_speaker = audio_ref
+    target_se, audio_name = se_extractor.get_se(reference_speaker, tone_color_converter, target_dir='processed', vad=True)
+    save_path = "output.wav"
+    # Run the tone color converter
+    encode_message = "@MyShell"
+    tone_color_converter.convert(
+        audio_src_path=tmp_path,
+        src_se=source_se,
+        tgt_se=target_se,
+        output_path=save_path,
+        message=encode_message)
+    return "output.wav"
+with gr.Blocks() as demo:
+    gr.Markdown("# Enjoy chatting with your ai friends on website, telegram and so on! (https://linkin.love)")
+    default_text = "Today a man knocked on my door and asked for a small donation toward the local swimming pool. I gave him a glass of water."
+    text_input = gr.Textbox(label="Input Text", lines=4, placeholder="Please Input Text...", value=default_text)
+    voice_ref = gr.Audio(label="Reference Audio", info="Click on the ✎ button to upload your own target speaker audio", type="filepath", value="base_audio.mp3")
+    with gr.Tab("💕Super Natural"):
+        default_refine_text = "[oral_2][laugh_0][break_6]"
+        refine_text_checkbox = gr.Checkbox(label="Refine text", info="'oral' means add filler words, 'laugh' means add laughter, and 'break' means add a pause. (0-10) ", value=True)
+        refine_text_input = gr.Textbox(label="Refine Prompt", lines=1, placeholder="Please Refine Prompt...", value=default_refine_text)
+        with gr.Row():
+            temperature_slider = gr.Slider(minimum=0.00001, maximum=1.0, step=0.00001, value=0.3, label="Audio temperature")
+            top_p_slider = gr.Slider(minimum=0.1, maximum=0.9, step=0.05, value=0.7, label="top_P")
+            top_k_slider = gr.Slider(minimum=1, maximum=20, step=1, value=20, label="top_K")
+        with gr.Row():
+            audio_seed_input = gr.Number(value=42, label="Speaker Seed")
+            generate_audio_seed = gr.Button("\U0001F3B2")
+            text_seed_input = gr.Number(value=42, label="Text Seed")
+            generate_text_seed = gr.Button("\U0001F3B2")
+        generate_button = gr.Button("Generate!")
+        #text_output = gr.Textbox(label="Refined Text", interactive=False)
+        audio_output = gr.Audio(label="Output Audio")
+        generate_audio_seed.click(generate_seed,
+                                  inputs=[],
+                                  outputs=audio_seed_input)
+        generate_text_seed.click(generate_seed,
+                                 inputs=[],
+                                 outputs=text_seed_input)
+        generate_button.click(generate_audio,
+                              inputs=[text_input, voice_ref, temperature_slider, top_p_slider, top_k_slider, audio_seed_input, text_seed_input, refine_text_checkbox, refine_text_input],
+                              outputs=audio_output)
+    with gr.Tab("💕Emotion Control"):
+        emo_pick = gr.Dropdown(label="Emotion", info="🙂default😊friendly🤫whispering😄cheerful😱terrified😡angry😢sad", choices=["default", "friendly", "whispering", "cheerful", "terrified", "angry", "sad"], value="default")
+        generate_button_emo = gr.Button("Generate!", variant="primary")
+        audio_emo = gr.Audio(label="Output Audio", type="filepath")
+        generate_button_emo.click(vc_en, [text_input, voice_ref, emo_pick], audio_emo)
+    with gr.Tab("💕multilingual"):
+        language = gr.Dropdown(choices=list(language_dict.keys()), value=list(language_dict.keys())[15], label="请选择文本对应的语言及说话人")
+        generate_button_ml = gr.Button("开始语音情感真实复刻吧！", variant="primary")
+        audio_ml = gr.Audio(label="为您合成的专属语音", type="filepath")
+        generate_button_ml.click(text_to_speech_edge, [text_input, voice_ref, language], audio_ml)
 parser = argparse.ArgumentParser(description='ChatTTS demo Launch')
 parser.add_argument('--server_name', type=str, default='0.0.0.0', help='Server name')