Spaces:

jing-ju
/

AI-Translates

Runtime error

App Files Files Community

jing-ju commited on Sep 13

Commit

f6b7ae2

verified ·

1 Parent(s): 8577247

Update app.py

Browse files

Files changed (1) hide show

app.py +25 -16

app.py CHANGED Viewed

@@ -20,6 +20,13 @@ DEFAULT_MODEL = os.getenv("HYMT_MODEL", "tencent/Hunyuan-MT-7B-fp8")
 # Model cố định cho API
 FIXED_MODEL = "tencent/Hunyuan-MT-7B-fp8"
 # =========================
 # NGÔN NGỮ & PROMPT
 # =========================
@@ -69,8 +76,8 @@ ZH_CODES = {"zh", "zh-Hant", "yue"}
 def build_prompt(src_lang: str, tgt_lang: str, text: str) -> str:
     """
-    Prompt template tham khảo từ model card:
-    - Nếu có tiếng Trung (zh/zh-Hant/yue) ở nguồn hoặc đích -> dùng template tiếng Trung
     - Nếu không -> template tiếng Anh
     """
     txt = (text or "").strip()
@@ -122,13 +129,11 @@ def translate(text: str, src_code: str, tgt_code: str, model_choice: str) -> str
 # =========================
 # RATE LIMIT THEO IP (IN-MEMORY)
 # =========================
-# SỬA TẠI ĐÂY nếu muốn: tối đa bao nhiêu request / mỗi cửa sổ thời gian
 RATE_WINDOW_SEC = int(os.getenv("RATE_WINDOW_SEC", "60"))  # ví dụ: 60 giây
 RATE_MAX_REQ = int(os.getenv("RATE_MAX_REQ", "10"))        # ví dụ: 10 request / IP / 60s
 _ip_buckets: dict[str, deque] = defaultdict(deque)
 def _rate_limited(request: gr.Request) -> Tuple[bool, str]:
     """
     Trả (ok, msg). ok=False nếu vượt ngưỡng.
@@ -202,7 +207,13 @@ def build_ui() -> gr.Blocks:
             tgt_code = LABEL2CODE[tgt_label]
             return translate(text, src_code, tgt_code, model_id)
-        btn.click(_on_translate, [inp, src, tgt, model_choice], [out])
         gr.Markdown(
             """
@@ -237,8 +248,8 @@ def api_translate_fixed(text: str, src_code: str, tgt_code: str, request: gr.Req
 def build_api_interface() -> gr.Interface:
     """
-    Tạo Interface riêng để có endpoint REST.
-    - Endpoint kiểu /run/<function_name> (nếu Gradio/HF hỗ trợ)
     - Hoặc /run/predict với fn_index tương ứng
     """
     return gr.Interface(
@@ -250,7 +261,8 @@ def build_api_interface() -> gr.Interface:
         ],
         outputs=gr.Textbox(label="translation"),
         title="Hunyuan-MT Fixed API",
-        description="POST JSON tới endpoint để nhận bản dịch. Model cố định: tencent/Hunyuan-MT-7B-fp8."
     )
@@ -264,12 +276,9 @@ if __name__ == "__main__":
     # Gộp UI + API vào cùng server
     demo = gr.TabbedInterface([ui_app, api_iface], tab_names=["App", "API"])
-    # Giới hạn đồng thời & hàng chờ (có thể chỉnh bằng biến môi trường)
-    # SỬA TẠI ĐÂY nếu muốn thay đổi:
-    CONCURRENCY = int(os.getenv("GRADIO_CONCURRENCY", "2"))  # ví dụ: 2 job chạy song song
-    QUEUE_MAX = int(os.getenv("GRADIO_QUEUE_MAX", "20"))     # ví dụ: 20 job có thể chờ
-    demo = demo.queue(concurrency_count=CONCURRENCY, max_size=QUEUE_MAX, status_update_rate=2)
-    # Bật REST API
-    demo.launch(enable_api=True)

 # Model cố định cho API
 FIXED_MODEL = "tencent/Hunyuan-MT-7B-fp8"
+# Giới hạn đồng thời theo event (thay cho concurrency_count cũ)
+UI_CONCURRENCY_LIMIT = int(os.getenv("UI_CONCURRENCY_LIMIT", "2"))   # nút Dịch
+API_CONCURRENCY_LIMIT = int(os.getenv("API_CONCURRENCY_LIMIT", "2")) # endpoint API
+# Số worker tổng (tuỳ chọn): ảnh hưởng thread pool của server
+LAUNCH_MAX_THREADS = int(os.getenv("LAUNCH_MAX_THREADS", "40"))
 # =========================
 # NGÔN NGỮ & PROMPT
 # =========================
 def build_prompt(src_lang: str, tgt_lang: str, text: str) -> str:
     """
+    Prompt template:
+    - Nếu có tiếng Trung (zh/zh-Hant/yue) ở nguồn hoặc đích -> template tiếng Trung
     - Nếu không -> template tiếng Anh
     """
     txt = (text or "").strip()
 # =========================
 # RATE LIMIT THEO IP (IN-MEMORY)
 # =========================
 RATE_WINDOW_SEC = int(os.getenv("RATE_WINDOW_SEC", "60"))  # ví dụ: 60 giây
 RATE_MAX_REQ = int(os.getenv("RATE_MAX_REQ", "10"))        # ví dụ: 10 request / IP / 60s
 _ip_buckets: dict[str, deque] = defaultdict(deque)
 def _rate_limited(request: gr.Request) -> Tuple[bool, str]:
     """
     Trả (ok, msg). ok=False nếu vượt ngưỡng.
             tgt_code = LABEL2CODE[tgt_label]
             return translate(text, src_code, tgt_code, model_id)
+        # ✅ Đặt concurrency_limit ngay trên event listener (chuẩn mới)
+        btn.click(
+            _on_translate,
+            [inp, src, tgt, model_choice],
+            [out],
+            concurrency_limit=UI_CONCURRENCY_LIMIT
+        )
         gr.Markdown(
             """
 def build_api_interface() -> gr.Interface:
     """
+    Interface riêng để có endpoint REST.
+    - /run/api_translate_fixed (nếu platform hỗ trợ)
     - Hoặc /run/predict với fn_index tương ứng
     """
     return gr.Interface(
         ],
         outputs=gr.Textbox(label="translation"),
         title="Hunyuan-MT Fixed API",
+        description="POST JSON tới endpoint để nhận bản dịch. Model cố định: tencent/Hunyuan-MT-7B-fp8.",
+        concurrency_limit=API_CONCURRENCY_LIMIT,  # ✅ giới hạn đồng thời cho API
     )
     # Gộp UI + API vào cùng server
     demo = gr.TabbedInterface([ui_app, api_iface], tab_names=["App", "API"])
+    # Hàng chờ: KHÔNG dùng concurrency_count nữa!
+    QUEUE_MAX = int(os.getenv("GRADIO_QUEUE_MAX", "20"))  # số job có thể chờ
+    demo = demo.queue(max_size=QUEUE_MAX, status_update_rate=2)
+    # Bật REST API; (tuỳ chọn) khống chế thread tổng bằng max_threads
+    demo.launch(enable_api=True, max_threads=LAUNCH_MAX_THREADS)