smart-moderator

Sleeping

App Files Files Community

Utiric commited on Aug 19

Commit

54ba978

verified ·

1 Parent(s): 4bdd945

Update app.py

Browse files

Files changed (1) hide show

app.py +27 -43

app.py CHANGED Viewed

@@ -1,3 +1,4 @@
 import time
 import threading
 import torch
@@ -6,15 +7,18 @@ from transformers import AutoTokenizer, AutoModelForCausalLM, TextIteratorStream
 MODEL_NAME = "daniel-dona/gemma-3-270m-it"
-# CPU optimizasyonları
-torch.set_num_threads(torch.get_num_threads())   # Tüm çekirdekleri kullan
-torch.set_float32_matmul_precision("high")       # Matmul hızını artır
-# Model/Tokenizer global yükleme
 tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
 model = AutoModelForCausalLM.from_pretrained(
     MODEL_NAME,
-    torch_dtype=torch.float32,  # CPU'da float32
     device_map=None
 )
 model.eval()
@@ -27,71 +31,50 @@ def build_prompt(message, history, system_message, max_ctx_tokens=1024):
         if a:
             msgs.append({"role": "assistant", "content": a})
     msgs.append({"role": "user", "content": message})
-    # Token bütçesi ile kırpma
     while True:
-        text = tokenizer.apply_chat_template(
-            msgs, tokenize=False, add_generation_prompt=True
-        )
         if len(tokenizer(text, add_special_tokens=False).input_ids) <= max_ctx_tokens:
             return text
-        # En eski user+assistant çiftini at (system'i koru)
         for i in range(1, len(msgs)):
             if msgs[i]["role"] != "system":
                 del msgs[i:i+2]
                 break
 def respond_stream(message, history, system_message, max_tokens, temperature, top_p):
-    # İlk mesajda tüm prompt'u veriyoruz; sonraki turlarda da bu örnek basit tutularak aynı akış korunuyor.
-    # (HF TextIteratorStreamer ile generate() sonrası past_key_values dışarı alınmadığı için
-    #  bu sürüm KV cache’i oturumlar arası taşımıyor; hız için streaming + bağlam kırpma kullanıyoruz.)
     text = build_prompt(message, history, system_message)
     inputs = tokenizer([text], return_tensors="pt").to(model.device)
-    do_sample = temperature > 0
     gen_kwargs = dict(
         max_new_tokens=max_tokens,
         do_sample=do_sample,
         top_p=top_p,
         temperature=temperature if do_sample else None,
-        use_cache=True,  # decode aşamasında KV cache'i etkin
         eos_token_id=tokenizer.eos_token_id,
         pad_token_id=tokenizer.eos_token_id,
     )
-    # skip_prompt=True ile prompt’un ekrana yazılmasını engelleriz (Transformers >= 4.42 gerektirir)
     try:
-        streamer = TextIteratorStreamer(
-            tokenizer, skip_special_tokens=True, skip_prompt=True
-        )
     except TypeError:
-        # Eski sürüm uyumluluğu: skip_prompt yoksa, yine de çalışır ama ilk chunk'ta prompt kırıntısı gelebilir
         streamer = TextIteratorStreamer(tokenizer, skip_special_tokens=True)
-    thread = threading.Thread(
-        target=model.generate,
-        kwargs={**inputs, **{k: v for k, v in gen_kwargs.items() if v is not None}, "streamer": streamer}
-    )
     partial_text = ""
-    start_time = None  # İlk token geldiği anı işaretler
     with torch.inference_mode():
         thread.start()
-        for chunk in streamer:
-            if start_time is None:
-                start_time = time.time()
-            partial_text += chunk
-            yield partial_text  # append streaming: önceki + yeni chunk
-        thread.join()
     end_time = time.time() if start_time is not None else time.time()
-    # Üretilen token sayısını final metinden hesapla
-    gen_token_count = len(tokenizer(partial_text, add_special_tokens=False).input_ids)
     duration = max(1e-6, end_time - start_time) if start_time else 0.0
     tps = (gen_token_count / duration) if duration > 0 else 0.0
-    yield partial_text + f"\n\n⚡ **Hız:** {tps:.2f} token/sn"
 demo = gr.ChatInterface(
     respond_stream,
@@ -104,5 +87,6 @@ demo = gr.ChatInterface(
 )
 if __name__ == "__main__":
-    # Gradio’nun stream buffer hatalarını azaltmak için queue iyi sonuç verir
     demo.queue().launch()

+import os
 import time
 import threading
 import torch
 MODEL_NAME = "daniel-dona/gemma-3-270m-it"
+os.environ.setdefault("OMP_NUM_THREADS", str(os.cpu_count() or 1))
+os.environ.setdefault("MKL_NUM_THREADS", os.environ["OMP_NUM_THREADS"])
+os.environ.setdefault("OMP_PROC_BIND", "TRUE")
+torch.set_num_threads(int(os.environ["OMP_NUM_THREADS"]))
+torch.set_num_interop_threads(1)
+torch.set_float32_matmul_precision("high")
 tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
 model = AutoModelForCausalLM.from_pretrained(
     MODEL_NAME,
+    torch_dtype=torch.float32,
     device_map=None
 )
 model.eval()
         if a:
             msgs.append({"role": "assistant", "content": a})
     msgs.append({"role": "user", "content": message})
     while True:
+        text = tokenizer.apply_chat_template(msgs, tokenize=False, add_generation_prompt=True)
         if len(tokenizer(text, add_special_tokens=False).input_ids) <= max_ctx_tokens:
             return text
         for i in range(1, len(msgs)):
             if msgs[i]["role"] != "system":
                 del msgs[i:i+2]
                 break
 def respond_stream(message, history, system_message, max_tokens, temperature, top_p):
     text = build_prompt(message, history, system_message)
     inputs = tokenizer([text], return_tensors="pt").to(model.device)
+    do_sample = bool(temperature and temperature > 0.0)
     gen_kwargs = dict(
         max_new_tokens=max_tokens,
         do_sample=do_sample,
         top_p=top_p,
         temperature=temperature if do_sample else None,
+        use_cache=True,
         eos_token_id=tokenizer.eos_token_id,
         pad_token_id=tokenizer.eos_token_id,
     )
     try:
+        streamer = TextIteratorStreamer(tokenizer, skip_special_tokens=True, skip_prompt=True)
     except TypeError:
         streamer = TextIteratorStreamer(tokenizer, skip_special_tokens=True)
+    thread = threading.Thread(target=model.generate, kwargs={**inputs, **{k: v for k, v in gen_kwargs.items() if v is not None}, "streamer": streamer})
     partial_text = ""
+    start_time = None
     with torch.inference_mode():
         thread.start()
+        try:
+            for chunk in streamer:
+                if start_time is None:
+                    start_time = time.time()
+                partial_text += chunk
+                yield partial_text
+        finally:
+            thread.join()
     end_time = time.time() if start_time is not None else time.time()
     duration = max(1e-6, end_time - start_time) if start_time else 0.0
+    gen_token_count = len(tokenizer(partial_text, add_special_tokens=False).input_ids)
     tps = (gen_token_count / duration) if duration > 0 else 0.0
+    yield partial_text + f"\n\n⚡ Hız: {tps:.2f} token/sn"
 demo = gr.ChatInterface(
     respond_stream,
 )
 if __name__ == "__main__":
+    with torch.inference_mode():
+        _ = model.generate(**tokenizer(["Hi"], return_tensors="pt").to(model.device), max_new_tokens=1, do_sample=False, use_cache=True)
     demo.queue().launch()