Spaces:

Deepti-AI
/

TeluguBOT

Sleeping

App Files Files Community

Deepti-AI commited on 11 days ago

Commit

fcbfe7d

verified ·

1 Parent(s): 477cf68

Update main.py

Browse files

latency times have printed

Files changed (1) hide show

main.py +58 -25

main.py CHANGED Viewed

@@ -3,6 +3,8 @@ os.environ["TRANSFORMERS_CACHE"] = "/app/.cache/transformers"
 os.environ["HF_HOME"] = "/app/.cache/huggingface"
 import uvicorn
 from fastapi import FastAPI, File, UploadFile
 from fastapi.responses import StreamingResponse
 from fastapi.middleware.cors import CORSMiddleware
@@ -173,8 +175,10 @@ async def compute_similarity(query: str, query_embedding: np.ndarray, chunk_text
     return combined_score
 async def retrieve_top_k_hybrid(query, k, sem_weight,syn_weight,bm25):
     query_embedding = model.encode(query)
     tasks = [
@@ -192,7 +196,7 @@ async def retrieve_top_k_hybrid(query, k, sem_weight,syn_weight,bm25):
     # print("the retrieved chunks are")
     # print(top_results["telugu_chunk"].to_list()[0])
     return top_results["telugu_chunk"].to_list()
@@ -319,7 +323,13 @@ def tts_chunk_stream(text_chunk: str, lang: str = "en"):
 async def get_rag_response(user_message_english: str, user_message_telugu: str):
     global chat_messages
     Chunks = await retrieve_top_k_hybrid(user_message_english,15, 0.9, 0.1,bm25)
     context = "======================================================================================================\n".join(map(str,Chunks))
     chat_messages.append({"role": "user", "content": f'''
           Context : {context}
@@ -330,53 +340,74 @@ async def get_rag_response(user_message_english: str, user_message_telugu: str):
 # --- GPT + TTS async generator with smaller buffer like second code ---
 async def gpt_tts_stream(prompt: str,telugu_text: str):
-    # start_time = time.time()
-    # print("started gpt_tts_stream",prompt)
     global chat_messages
     chat_messages = await get_rag_response(prompt,telugu_text)
     # print(chat_messages,"chat_messages after getting RAG response")
     # response = openai.ChatCompletion.create(
     #     model="gpt-4o",
     #     messages= chat_messages,
     #     stream=True
     # )
     bot_response = ""
     buffer = ""
     buffer_size = 30
     # ✅ Must use the `with` block for streaming
     with client.chat.completions.stream(
         model="gpt-4o",
         messages=chat_messages,
         ) as stream:
         for event in stream:
             if event.type == "content.delta":
                 delta = event.delta
                 bot_response = bot_response + delta
                 buffer += delta
                 if len(buffer) >= buffer_size and buffer.endswith((".", "!", ",", "?", "\n", ";", ":")):
-                    # print("the buffer is ")
-                    # print(buffer)
                     # audio_chunks = tts_chunk_stream(buffer)
                     for audio_chunk in tts_chunk_stream(buffer):
-                    # print("chunk",buffer)
                         yield audio_chunk
                         buffer = ""
             elif event.type == "content.done":
-                fll_response = event.content
             # 🧾 model finished — flush whatever is left
                 if buffer.strip():
-                    # print("the left over message")
                     print(buffer.strip())
                     for audio_chunk in tts_chunk_stream(buffer):
                     # print("chunk",buffer)
                         yield audio_chunk
-                        buffer = ""
         bot_response = bot_response.strip()
         # print("the final bot response :")
@@ -385,9 +416,6 @@ async def gpt_tts_stream(prompt: str,telugu_text: str):
         # print(fll_response)
         chat_messages.append({"role": "assistant", "content": bot_response})
 # def convert_to_mono16_wav_bytes(audio_bytes: bytes) -> tuple[bytes, int]:
 #     print("i am inside the mono16 conversion")
 #     """Convert any uploaded audio (mp3/webm/wav) to mono 16-bit WAV bytes in memory."""
@@ -465,7 +493,6 @@ async def gpt_tts_stream(prompt: str,telugu_text: str):
 async def chat_stream(file: UploadFile = File(...)):
     start_time = time.time()
     audio_bytes = await file.read()
-    print("audio file read")
     transcription = client.audio.transcriptions.create(
             model="gpt-4o-transcribe",  # or "gpt-4o-mini-transcribe"
@@ -475,8 +502,12 @@ async def chat_stream(file: UploadFile = File(...)):
         )
     telugu_text = transcription.text
     print(f"the text is : {telugu_text}")
-    print(f"tts time : {time.time()-start_time}")
     start_time = time.time()
     translation = client.responses.create(
         model="gpt-4o-mini",
@@ -487,12 +518,14 @@ async def chat_stream(file: UploadFile = File(...)):
         Give only the english translation, These queries are generally relevant to knee replacement surgery. Make sure you correct minor mistakes and return the user query in a proper english.''')
     english_text = translation.output[0].content[0].text
-    print(f"translation time {time.time() - start_time}")
-    print(f"the english text is {english_text}")
-    return StreamingResponse(gpt_tts_stream(english_text,telugu_text), media_type="audio/mpeg")
 @app.post("/reset_chat")
 async def reset_chat():

 os.environ["HF_HOME"] = "/app/.cache/huggingface"
 import uvicorn
 from fastapi import FastAPI, File, UploadFile
 from fastapi.responses import StreamingResponse
 from fastapi.middleware.cors import CORSMiddleware
     return combined_score
 async def retrieve_top_k_hybrid(query, k, sem_weight,syn_weight,bm25):
+    emb_strt = time.time()
     query_embedding = model.encode(query)
+    emb_end = time.time()
+    print("\n\nTime for Query Embedding", emb_end-emb_strt)
     tasks = [
     # print("the retrieved chunks are")
     # print(top_results["telugu_chunk"].to_list()[0])
+    print("\n\nRetrieval Time", time.time() - emb_end)
     return top_results["telugu_chunk"].to_list()
 async def get_rag_response(user_message_english: str, user_message_telugu: str):
     global chat_messages
+    start_time = time.time()
     Chunks = await retrieve_top_k_hybrid(user_message_english,15, 0.9, 0.1,bm25)
+    end_time = time.time()
+    # print(f"Retrieval start time : {start_time}")
+    # print(f"Retrieval end time : {end_time}")
+    # print(f"Retrieval duration is : {end_time - start_time}")
     context = "======================================================================================================\n".join(map(str,Chunks))
     chat_messages.append({"role": "user", "content": f'''
           Context : {context}
 # --- GPT + TTS async generator with smaller buffer like second code ---
 async def gpt_tts_stream(prompt: str,telugu_text: str):
     global chat_messages
     chat_messages = await get_rag_response(prompt,telugu_text)
     # print(chat_messages,"chat_messages after getting RAG response")
     # response = openai.ChatCompletion.create(
     #     model="gpt-4o",
     #     messages= chat_messages,
     #     stream=True
     # )
     bot_response = ""
     buffer = ""
     buffer_size = 30
+    count1 = 0
+    count2 = 0
+    count3 = 0
+    count4 = 0
     # ✅ Must use the `with` block for streaming
+    start_time = time.time()
     with client.chat.completions.stream(
         model="gpt-4o",
         messages=chat_messages,
         ) as stream:
         for event in stream:
+            if count1 == 0:
+                end_time = time.time()
+                # print(f"gpt call start time : {start_time}")
+                # print(f"gpt response start time : {end_time}")
+                print(f"gpt duration for first token : {end_time - start_time}")
+            count1 += 1
             if event.type == "content.delta":
                 delta = event.delta
                 bot_response = bot_response + delta
                 buffer += delta
                 if len(buffer) >= buffer_size and buffer.endswith((".", "!", ",", "?", "\n", ";", ":")):
+                    if count2 == 0:
+                        count2 += 1
+                        end_time = time.time()
+                        # print(f"gpt response first buffer start time : {end_time}")
+                        print(f"gpt duration for first buffer : {end_time - start_time}")
+                    print(buffer)
                     # audio_chunks = tts_chunk_stream(buffer)
+                    start_time = time.time()
                     for audio_chunk in tts_chunk_stream(buffer):
+                        if count3 == 0:
+                            count3+=1
+                            end_time = time.time()
+                            # print(f"tts start time : {start_time}")
+                            # print(f"tts response first buffer start time : {end_time}")
+                            print(f"tts duration for first buffer : {end_time - start_time}")
+                        # print("chunk",buffer)
                         yield audio_chunk
                         buffer = ""
+                    # audio_chunk = tts_chunk_stream(buffer)
+                    # yield audio_chunk
+                    # count+=1
             elif event.type == "content.done":
             # 🧾 model finished — flush whatever is left
                 if buffer.strip():
+                    start_time = time.time()
+                    # print(f"the final response time : {start_time}")
                     print(buffer.strip())
                     for audio_chunk in tts_chunk_stream(buffer):
                     # print("chunk",buffer)
                         yield audio_chunk
+                        # buffer = ""
+                    # audio_chunk = tts_chunk_stream(buffer)
+                    start_time = time.time()
+                    # print(f"the final audio time : {start_time}")
         bot_response = bot_response.strip()
         # print("the final bot response :")
         # print(fll_response)
         chat_messages.append({"role": "assistant", "content": bot_response})
 # def convert_to_mono16_wav_bytes(audio_bytes: bytes) -> tuple[bytes, int]:
 #     print("i am inside the mono16 conversion")
 #     """Convert any uploaded audio (mp3/webm/wav) to mono 16-bit WAV bytes in memory."""
 async def chat_stream(file: UploadFile = File(...)):
     start_time = time.time()
     audio_bytes = await file.read()
     transcription = client.audio.transcriptions.create(
             model="gpt-4o-transcribe",  # or "gpt-4o-mini-transcribe"
         )
     telugu_text = transcription.text
+    end_time = time.time()
+    # print(f"stt start time :{start_time}")
+    # print(f"stt end time : {end_time}")
+    print(f"transcription total time : {end_time-start_time}")
     print(f"the text is : {telugu_text}")
     start_time = time.time()
     translation = client.responses.create(
         model="gpt-4o-mini",
         Give only the english translation, These queries are generally relevant to knee replacement surgery. Make sure you correct minor mistakes and return the user query in a proper english.''')
     english_text = translation.output[0].content[0].text
+    end_time = time.time()
+    # print(f"translation start time :{start_time}")
+    # print(f"translation end time : {end_time}")
+    print(f"translation total time : {end_time-start_time}")
+    print(f"the english text is : {english_text}")
+    return StreamingResponse(gpt_tts_stream(english_text,telugu_text), media_type="audio/mpeg")
 @app.post("/reset_chat")
 async def reset_chat():