Spaces:

LangTech-MT
/

document-translator

Sleeping

App Files Files Community

mjuvilla commited on Apr 28

Commit

6e54822

1 Parent(s): 127870b

integrated any-doc into the gradle app, separated the translation side to make it easier to implement other translation models

Browse files

Files changed (3) hide show

gradio_app.py +3 -5
src/mtuoc_aina_translator.py +20 -0
src/translate_any_doc.py +2 -21

gradio_app.py CHANGED Viewed

@@ -1,8 +1,6 @@
 import gradio as gr
-from pathlib import Path
-import requests
-import json
-from translate_docx import translate_document, translate, Aligner
 from nltk.tokenize.treebank import TreebankWordDetokenizer
@@ -16,7 +14,7 @@ detokenizer = TreebankWordDetokenizer()
 def upload_file(filepath):
-    translated_file_name = translate_document(filepath, aligner, detokenizer, ip)
     return [gr.UploadButton(visible=False), gr.DownloadButton(label=f"Download {translated_file_name}", value=translated_file_name, visible=True)]
 def download_file():

 import gradio as gr
+from src.translate_any_doc import translate_document, translate
+from src.aligner import Aligner
 from nltk.tokenize.treebank import TreebankWordDetokenizer
 def upload_file(filepath):
+    translated_file_name = translate_document(filepath, source_lang, target_lang, aligner, detokenizer, ip)
     return [gr.UploadButton(visible=False), gr.DownloadButton(label=f"Download {translated_file_name}", value=translated_file_name, visible=True)]
 def download_file():

src/mtuoc_aina_translator.py ADDED Viewed

	@@ -0,0 +1,20 @@

+import requests
+import json
+from nltk.tokenize import sent_tokenize
+class MTUOCAinaTranslator:
+    def __init__(self, ip: str, port: str):
+        self.ip = ip
+        self.port = port
+    def translate(self, text):
+        stuff = sent_tokenize(text)
+        myobj = {
+            'id': '1',
+            'src': text,
+        }
+        url = 'http://' + self.ip + ':' + self.port + '/translate'
+        x = requests.post(url, json=myobj)
+        json_response = json.loads(x.text)
+        return json_response['tgt']

src/translate_any_doc.py CHANGED Viewed

@@ -1,8 +1,5 @@
 import shutil
 import time
-import json
-import requests
 import os
 from itertools import groupby
 from subprocess import Popen, PIPE
@@ -18,21 +15,6 @@ import tqdm
 nltk.download('punkt')
 nltk.download('punkt_tab')
-ip = "192.168.20.216"
-port = "8000"
-def translate(text, ip, port):
-    myobj = {
-        'id': '1',
-        'src': text,
-    }
-    port = str(int(port))
-    url = 'http://' + ip + ':' + port + '/translate'
-    x = requests.post(url, json=myobj)
-    json_response = json.loads(x.text)
-    return json_response['tgt']
 def doc_to_plain_text(input_file: str, source_lang: str, target_lang: str, tikal_folder: str,
                       original_xliff_file_path: str) -> str:
@@ -268,11 +250,10 @@ def runs_to_plain_text(paragraphs_with_style: dict[str, list[dict[str, str, str]
 def translate_document(input_file: str, source_lang: str, target_lang: str,
                        aligner: Aligner,
                        detokenizer,
-                       ip: str = "192.168.20.216",
                        temp_folder: str = "tmp",
-                       port: str = "8000",
                        tikal_folder: str = "okapi-apps_gtk2-linux-x86_64_1.47.0") -> str:
     input_filename = input_file.split("/")[-1]
     # copy the original file to the temporal folder to avoid common issues with tikal
@@ -290,7 +271,7 @@ def translate_document(input_file: str, source_lang: str, target_lang: str,
     translated_paragraphs = []
     for paragraph in tqdm.tqdm(paragraphs_with_runs, desc="Translating paragraphs..."):
         paragraph_text = detokenizer.detokenize([run["text"] for run in paragraph])
-        translated_paragraphs.append(translate(paragraph_text, ip, port))
     # time to align the translation with the original
     print("Generating alignments...")

 import shutil
 import time
 import os
 from itertools import groupby
 from subprocess import Popen, PIPE
 nltk.download('punkt')
 nltk.download('punkt_tab')
 def doc_to_plain_text(input_file: str, source_lang: str, target_lang: str, tikal_folder: str,
                       original_xliff_file_path: str) -> str:
 def translate_document(input_file: str, source_lang: str, target_lang: str,
+                       translator,
                        aligner: Aligner,
                        detokenizer,
                        temp_folder: str = "tmp",
                        tikal_folder: str = "okapi-apps_gtk2-linux-x86_64_1.47.0") -> str:
     input_filename = input_file.split("/")[-1]
     # copy the original file to the temporal folder to avoid common issues with tikal
     translated_paragraphs = []
     for paragraph in tqdm.tqdm(paragraphs_with_runs, desc="Translating paragraphs..."):
         paragraph_text = detokenizer.detokenize([run["text"] for run in paragraph])
+        translated_paragraphs.append(translator.translate(paragraph_text))
     # time to align the translation with the original
     print("Generating alignments...")