Spaces:

helenai
/

openvino_transformers_streaming

Sleeping

App Files Files Community

helenai commited on May 24, 2023

Commit

a873875

1 Parent(s): 7927870

Update

Browse files

Files changed (1) hide show

app.py +47 -12

app.py CHANGED Viewed

@@ -1,9 +1,13 @@
 from threading import Thread
-import torch
 import gradio as gr
-from transformers import AutoTokenizer, TextIteratorStreamer
 from optimum.intel.openvino import OVModelForSeq2SeqLM
 original_model_id = "declare-lab/flan-alpaca-xl"
 original_model_id = "declare-lab/flan-alpaca-large"
@@ -12,13 +16,16 @@ model_id = f"helenai/{original_model_id.replace('/','-')}-ov"
 model = OVModelForSeq2SeqLM.from_pretrained(model_id)
 tokenizer = AutoTokenizer.from_pretrained(model_id)
 def run_generation(user_text, top_p, temperature, top_k, max_new_tokens):
     # Get the model and tokenizer, and tokenize the user text.
     model_inputs = tokenizer([user_text], return_tensors="pt")
     # Start generation on a separate thread, so that we don't block the UI. The text is pulled from the streamer
     # in the main thread. Adds timeout to the streamer to handle exceptions in the generation thread.
-    streamer = TextIteratorStreamer(tokenizer, timeout=10., skip_prompt=True, skip_special_tokens=True)
     generate_kwargs = dict(
         model_inputs,
         streamer=streamer,
@@ -26,7 +33,7 @@ def run_generation(user_text, top_p, temperature, top_k, max_new_tokens):
         do_sample=True,
         top_p=top_p,
         temperature=float(temperature),
-        top_k=top_k
     )
     t = Thread(target=model.generate, kwargs=generate_kwargs)
     t.start()
@@ -40,7 +47,7 @@ def run_generation(user_text, top_p, temperature, top_k, max_new_tokens):
 def reset_textbox():
-    return gr.update(value='')
 with gr.Blocks() as demo:
@@ -59,26 +66,54 @@ with gr.Blocks() as demo:
         with gr.Column(scale=4):
             user_text = gr.Textbox(
                 placeholder="Write an email about an alpaca that likes flan",
-                label="User input"
             )
             model_output = gr.Textbox(label="Model output", lines=10, interactive=False)
             button_submit = gr.Button(value="Submit")
         with gr.Column(scale=1):
             max_new_tokens = gr.Slider(
-                minimum=1, maximum=1000, value=250, step=1, interactive=True, label="Max New Tokens",
             )
             top_p = gr.Slider(
-                minimum=0.05, maximum=1.0, value=0.95, step=0.05, interactive=True, label="Top-p (nucleus sampling)",
             )
             top_k = gr.Slider(
-                minimum=1, maximum=50, value=50, step=1, interactive=True, label="Top-k",
             )
             temperature = gr.Slider(
-                minimum=0.1, maximum=5.0, value=0.8, step=0.1, interactive=True, label="Temperature",
             )
-    user_text.submit(run_generation, [user_text, top_p, temperature, top_k, max_new_tokens], model_output)
-    button_submit.click(run_generation, [user_text, top_p, temperature, top_k, max_new_tokens], model_output)
     demo.queue(max_size=32).launch(enable_queue=True, server_name="0.0.0.0")

+import pprint
+import subprocess
 from threading import Thread
 import gradio as gr
 from optimum.intel.openvino import OVModelForSeq2SeqLM
+from transformers import AutoTokenizer, TextIteratorStreamer
+result = subprocess.run(["lscpu"], text=True, capture_output=True)
+pprint.pprint(result.stdout)
 original_model_id = "declare-lab/flan-alpaca-xl"
 original_model_id = "declare-lab/flan-alpaca-large"
 model = OVModelForSeq2SeqLM.from_pretrained(model_id)
 tokenizer = AutoTokenizer.from_pretrained(model_id)
 def run_generation(user_text, top_p, temperature, top_k, max_new_tokens):
     # Get the model and tokenizer, and tokenize the user text.
     model_inputs = tokenizer([user_text], return_tensors="pt")
     # Start generation on a separate thread, so that we don't block the UI. The text is pulled from the streamer
     # in the main thread. Adds timeout to the streamer to handle exceptions in the generation thread.
+    streamer = TextIteratorStreamer(
+        tokenizer, timeout=10.0, skip_prompt=True, skip_special_tokens=True
+    )
     generate_kwargs = dict(
         model_inputs,
         streamer=streamer,
         do_sample=True,
         top_p=top_p,
         temperature=float(temperature),
+        top_k=top_k,
     )
     t = Thread(target=model.generate, kwargs=generate_kwargs)
     t.start()
 def reset_textbox():
+    return gr.update(value="")
 with gr.Blocks() as demo:
         with gr.Column(scale=4):
             user_text = gr.Textbox(
                 placeholder="Write an email about an alpaca that likes flan",
+                label="User input",
             )
             model_output = gr.Textbox(label="Model output", lines=10, interactive=False)
             button_submit = gr.Button(value="Submit")
         with gr.Column(scale=1):
             max_new_tokens = gr.Slider(
+                minimum=1,
+                maximum=1000,
+                value=250,
+                step=1,
+                interactive=True,
+                label="Max New Tokens",
             )
             top_p = gr.Slider(
+                minimum=0.05,
+                maximum=1.0,
+                value=0.95,
+                step=0.05,
+                interactive=True,
+                label="Top-p (nucleus sampling)",
             )
             top_k = gr.Slider(
+                minimum=1,
+                maximum=50,
+                value=50,
+                step=1,
+                interactive=True,
+                label="Top-k",
             )
             temperature = gr.Slider(
+                minimum=0.1,
+                maximum=5.0,
+                value=0.8,
+                step=0.1,
+                interactive=True,
+                label="Temperature",
             )
+    user_text.submit(
+        run_generation,
+        [user_text, top_p, temperature, top_k, max_new_tokens],
+        model_output,
+    )
+    button_submit.click(
+        run_generation,
+        [user_text, top_p, temperature, top_k, max_new_tokens],
+        model_output,
+    )
     demo.queue(max_size=32).launch(enable_queue=True, server_name="0.0.0.0")