Spaces:

freddyaboulton
/

talk-to-qwen-webrtc

Running on Zero

App Files Files Community

freddyaboulton HF Staff commited on Oct 29, 2024

Commit

ae20481

verified ·

1 Parent(s): 8d9f39e

Update app.py

Browse files

Files changed (1) hide show

app.py +27 -26

app.py CHANGED Viewed

@@ -8,6 +8,7 @@ import tempfile
 from twilio.rest import Client
 import os
 import spaces
 from transformers import Qwen2AudioForConditionalGeneration, AutoProcessor
 import logging
@@ -51,32 +52,32 @@ else:
 def transcribe(audio: tuple[int, np.ndarray], transformers_convo: list[dict], gradio_convo: list[dict]):
     segment = AudioSegment(audio[1].tobytes(), frame_rate=audio[0], sample_width=audio[1].dtype.itemsize, channels=1)
-    with tempfile.NamedTemporaryFile(suffix=".mp3") as temp_audio:
-        segment.export(temp_audio.name, format="mp3")
-        transformers_convo.append({"role": "user", "content": [{"type": "audio", "audio_url": temp_audio.name}]})
-        gradio_convo.append({"role": "assistant", "content": gr.Audio(value=temp_audio.name)})
-        text = processor.apply_chat_template(transformers_convo, add_generation_prompt=True, tokenize=False)
-        audios = []
-        for message in transformers_convo:
-            if isinstance(message["content"], list):
-                for ele in message["content"]:
-                    if ele["type"] == "audio":
-                        audios.append(librosa.load(
-                            BytesIO(open(ele['audio_url'], "rb").read()),
-                            sr=processor.feature_extractor.sampling_rate)[0]
-                        )
-        inputs = processor(text=text, audios=audios, return_tensors="pt", padding=True)
-        inputs = dict(**inputs)
-        inputs["input_ids"] = inputs["input_ids"].to("cuda:0")
-        generate_ids = model.generate(**inputs, max_length=256)
-        generate_ids = generate_ids[:, inputs["input_ids"].size(1):]
-        response = processor.batch_decode(generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]
-        print("response", response)
-        transformers_convo.append({"role": "assistant", "content": response})
-        gradio_convo.append({"role": "assistant", "content": response})
-        yield AdditionalOutputs(transformers_convo, gradio_convo)
 with gr.Blocks() as demo:

 from twilio.rest import Client
 import os
 import spaces
+import uuid
 from transformers import Qwen2AudioForConditionalGeneration, AutoProcessor
 import logging
 def transcribe(audio: tuple[int, np.ndarray], transformers_convo: list[dict], gradio_convo: list[dict]):
     segment = AudioSegment(audio[1].tobytes(), frame_rate=audio[0], sample_width=audio[1].dtype.itemsize, channels=1)
+    name = str(uuid.uuid4()) + ".mp3"
+    segment.export(name, format="mp3")
+    transformers_convo.append({"role": "user", "content": [{"type": "audio", "audio_url": name}]})
+    gradio_convo.append({"role": "assistant", "content": gr.Audio(value=name)})
+    text = processor.apply_chat_template(transformers_convo, add_generation_prompt=True, tokenize=False)
+    audios = []
+    for message in transformers_convo:
+        if isinstance(message["content"], list):
+            for ele in message["content"]:
+                if ele["type"] == "audio":
+                    audios.append(librosa.load(
+                        BytesIO(open(ele['audio_url'], "rb").read()),
+                        sr=processor.feature_extractor.sampling_rate)[0]
+                    )
+    inputs = processor(text=text, audios=audios, return_tensors="pt", padding=True)
+    inputs = dict(**inputs)
+    inputs["input_ids"] = inputs["input_ids"].to("cuda:0")
+    generate_ids = model.generate(**inputs, max_length=256)
+    generate_ids = generate_ids[:, inputs["input_ids"].size(1):]
+    response = processor.batch_decode(generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]
+    print("response", response)
+    transformers_convo.append({"role": "assistant", "content": response})
+    gradio_convo.append({"role": "assistant", "content": response})
+    yield AdditionalOutputs(transformers_convo, gradio_convo)
 with gr.Blocks() as demo: