Spaces:

jeevitha-app
/

Multilingual-Translator-App

Running

App Files Files Community

jeevitha-app commited on Jun 19

Commit

5902010

verified ·

1 Parent(s): c0ba20b

Update app.py

Browse files

Files changed (1) hide show

app.py +25 -108

app.py CHANGED Viewed

@@ -6,8 +6,10 @@ import torch.nn.functional as F
 import faiss
 import numpy as np
 import matplotlib.pyplot as plt
 import os
-from google.colab import files
 # Load Models
 lang_detect_model = AutoModelForSequenceClassification.from_pretrained("papluca/xlm-roberta-base-language-detection")
 lang_detect_tokenizer = AutoTokenizer.from_pretrained("papluca/xlm-roberta-base-language-detection")
@@ -31,14 +33,23 @@ xlm_to_nllb = {
     "sa": "san_Deva"
 }
-# Get input directly
-input_text = input("✍️ Enter your text here for translation:\n").strip()
-if not input_text:
-    print("🚫 No input text provided. Exiting.")
-    raise SystemExit
-# Language detection
 def detect_language(text):
     inputs = lang_detect_tokenizer(text, return_tensors="pt", truncation=True, padding=True)
     with torch.no_grad():
@@ -47,24 +58,7 @@ def detect_language(text):
         pred = torch.argmax(probs, dim=1).item()
     return id2lang[pred]
-if input_text.strip():
-    detected_lang = detect_language(input_text)
-    print(f"\n🔍 Detected Language Code: {detected_lang}")
-else:
-    print("🚫 Empty input text. Exiting.")
-    raise SystemExit
-# Choose target language
-print("\n🌐 Available Output Languages:")
-for code, lang in nllb_langs.items():
-    print(f"{code} → {lang}")
-target_code = input("\n🔤 Enter target language code (e.g., eng_Latn): ").strip()
-if target_code not in nllb_langs:
-    print("❌ Invalid code. Defaulting to English (eng_Latn).")
-    target_code = "eng_Latn"
-# Translation
 def translate(text, src_code, tgt_code):
     trans_tokenizer.src_lang = src_code
     encoded = trans_tokenizer(text, return_tensors="pt", truncation=True, padding=True)
@@ -73,93 +67,15 @@ def translate(text, src_code, tgt_code):
         generated = trans_model.generate(**encoded, forced_bos_token_id=target_lang_id)
         return trans_tokenizer.decode(generated[0], skip_special_tokens=True)
     except:
-        print("❌ Translation failed.")
         return ""
-src_nllb = xlm_to_nllb.get(detected_lang, "eng_Latn")
-print(f"\n📜 Text to Translate:\n{input_text}\n")
-print(f"🌍 Source Language: {src_nllb} → Target Language: {target_code}")
-translated_text = translate(input_text, src_nllb, target_code)
-# Output translated text
-if translated_text.strip():
-    print("\n✅ Translation Complete!\n")
-    print("🔸 Translated Text:\n")
-    print(translated_text)
-    with open("translated_output.txt", "w", encoding="utf-8") as f:
-        f.write(translated_text)
-    files.download("translated_output.txt")
-else:
-    print("❌ No translated text produced.")
-    raise SystemExit
-#Create Corpus and FAISS Index
-corpus = [
-    "धर्म एव हतो हन्ति धर्मो रक्षति रक्षितः",
-    "Dharma when destroyed, destroys; when protected, protects.",
-    "The moon affects tides and mood, according to Jyotisha",
-    "One should eat according to the season – Rituacharya",
-    "Balance of Tridosha is health – Ayurveda principle",
-    "Ethics in Mahabharata reflect situational dharma",
-    "Meditation improves memory and mental clarity",
-    "Jyotisha links planetary motion with life patterns"
-]
-corpus_embeddings = embed_model.encode(corpus, convert_to_numpy=True)
-dimension = corpus_embeddings.shape[1]
-index = faiss.IndexFlatL2(dimension)
-index.add(corpus_embeddings)
-# Semantic Search Function
 def search_semantic(query, top_k=3):
     query_embedding = embed_model.encode([query])
     distances, indices = index.search(query_embedding, top_k)
     return [(corpus[i], float(distances[0][idx])) for idx, i in enumerate(indices[0])]
-# Perform Semantic Search
-print("\n🔎 Searching for similar Sanskrit knowledge...")
-results = search_semantic(translated_text)
-print("\n🔍 Top Semantic Matches:")
-for i, (text, score) in enumerate(results, 1):
-    print(f"\n{i}. {text}\n   Similarity Score: {score:.4f}")
-# Visualize Semantic Scores
-labels = [f"{i+1}. Match {i+1}" for i in range(len(results))]
-scores = [score for _, score in results]
-plt.figure(figsize=(10, 6))
-bars = plt.barh(labels, scores, color="skyblue")
-plt.xlabel("Similarity Score", fontsize=12)
-plt.title("Top Semantic Matches", fontsize=14)
-plt.gca().invert_yaxis()
-for bar in bars:
-    plt.text(bar.get_width() + 0.5, bar.get_y() + 0.25, f"{bar.get_width():.2f}", fontsize=10)
-plt.tight_layout()
-plt.savefig("semantic_similarity_plot.png")
-plt.show()
-files.download("semantic_similarity_plot.png")
-# BLEU Score Evaluation
-from sacrebleu import corpus_bleu
-reference = input("📘 Enter correct human translation (for BLEU evaluation): ").strip()
-if reference:
-    bleu = corpus_bleu([translated_text], [[reference]])
-    print(f"\n📏 BLEU Score: {bleu.score:.2f}")
-else:
-    print("ℹ️ BLEU evaluation skipped (no reference entered).")
-# ✅ Gradio App Interface
-import gradio as gr
-import matplotlib.pyplot as plt
-from sacrebleu import corpus_bleu
 def full_pipeline(user_input_text, target_lang_code, human_ref=""):
     if not user_input_text.strip():
         return "⚠️ Empty input", "", [], "", ""
@@ -174,6 +90,7 @@ def full_pipeline(user_input_text, target_lang_code, human_ref=""):
     sem_results = search_semantic(translated)
     result_list = [f"{i+1}. {txt} (Score: {score:.2f})" for i, (txt, score) in enumerate(sem_results)]
     labels = [f"{i+1}" for i in range(len(sem_results))]
     scores = [score for _, score in sem_results]
     plt.figure(figsize=(6, 4))
@@ -195,7 +112,7 @@ def full_pipeline(user_input_text, target_lang_code, human_ref=""):
     return detected_lang, translated, result_list, plot_path, bleu_score
-# 🚀 Launch Gradio Interface
 gr.Interface(
     fn=full_pipeline,
     inputs=[
@@ -212,4 +129,4 @@ gr.Interface(
     ],
     title="🌍 Multilingual Translator + Semantic Search",
     description="Detects language → Translates → Finds related Sanskrit concepts → BLEU optional."
-).launch(debug=True)

 import faiss
 import numpy as np
 import matplotlib.pyplot as plt
+import gradio as gr
+from sacrebleu import corpus_bleu
 import os
 # Load Models
 lang_detect_model = AutoModelForSequenceClassification.from_pretrained("papluca/xlm-roberta-base-language-detection")
 lang_detect_tokenizer = AutoTokenizer.from_pretrained("papluca/xlm-roberta-base-language-detection")
     "sa": "san_Deva"
 }
+# Static Corpus
+corpus = [
+    "धर्म एव हतो हन्ति धर्मो रक्षति रक्षितः",
+    "Dharma when destroyed, destroys; when protected, protects.",
+    "The moon affects tides and mood, according to Jyotisha",
+    "One should eat according to the season – Rituacharya",
+    "Balance of Tridosha is health – Ayurveda principle",
+    "Ethics in Mahabharata reflect situational dharma",
+    "Meditation improves memory and mental clarity",
+    "Jyotisha links planetary motion with life patterns"
+]
+corpus_embeddings = embed_model.encode(corpus, convert_to_numpy=True)
+dimension = corpus_embeddings.shape[1]
+index = faiss.IndexFlatL2(dimension)
+index.add(corpus_embeddings)
+# Detect Language
 def detect_language(text):
     inputs = lang_detect_tokenizer(text, return_tensors="pt", truncation=True, padding=True)
     with torch.no_grad():
         pred = torch.argmax(probs, dim=1).item()
     return id2lang[pred]
+# Translate
 def translate(text, src_code, tgt_code):
     trans_tokenizer.src_lang = src_code
     encoded = trans_tokenizer(text, return_tensors="pt", truncation=True, padding=True)
         generated = trans_model.generate(**encoded, forced_bos_token_id=target_lang_id)
         return trans_tokenizer.decode(generated[0], skip_special_tokens=True)
     except:
         return ""
+# Semantic Search
 def search_semantic(query, top_k=3):
     query_embedding = embed_model.encode([query])
     distances, indices = index.search(query_embedding, top_k)
     return [(corpus[i], float(distances[0][idx])) for idx, i in enumerate(indices[0])]
+# Full pipeline for Gradio
 def full_pipeline(user_input_text, target_lang_code, human_ref=""):
     if not user_input_text.strip():
         return "⚠️ Empty input", "", [], "", ""
     sem_results = search_semantic(translated)
     result_list = [f"{i+1}. {txt} (Score: {score:.2f})" for i, (txt, score) in enumerate(sem_results)]
+    # Plot
     labels = [f"{i+1}" for i in range(len(sem_results))]
     scores = [score for _, score in sem_results]
     plt.figure(figsize=(6, 4))
     return detected_lang, translated, result_list, plot_path, bleu_score
+# Gradio App
 gr.Interface(
     fn=full_pipeline,
     inputs=[
     ],
     title="🌍 Multilingual Translator + Semantic Search",
     description="Detects language → Translates → Finds related Sanskrit concepts → BLEU optional."
+).launch()