bigcodebench-evaluator

Sleeping

App Files Files Community

terryyz commited on Oct 23, 2024

Commit

4211404

verified ·

1 Parent(s): f9ea51a

Update app.py

Browse files

Files changed (1) hide show

app.py +34 -35

app.py CHANGED Viewed

@@ -13,7 +13,7 @@ from warnings import warn
 import gc
 import numpy as np
 from bigcodebench.data import get_bigcodebench, get_bigcodebench_hash, load_solutions
 from bigcodebench.data.utils import CACHE_DIR
 from bigcodebench.eval import PASS, compatible_eval_result, estimate_pass_at_k, untrusted_check
@@ -22,7 +22,7 @@ from apscheduler.schedulers.background import BackgroundScheduler
 REPO_ID = "bigcode/bigcodebench-evaluator"
 HF_TOKEN = os.environ.get("HF_TOKEN", None)
 Result = Tuple[str, List[bool]]
@@ -230,30 +230,30 @@ def evaluate(
     return results, pass_at_k
-def run_gradio():
-    interface = gr.Interface(
-        fn=evaluate,
-        inputs=[
-            gr.Dropdown(["complete", "instruct"], label="BigCodeBench Split"),
-            gr.Dropdown(["full", "hard"], label="BigCodeBench Subset"),
-            gr.File(label="Samples Path (.jsonl)"),
-            gr.Textbox(label="Pass k Values (comma-separated)", value="1,5,10"),
-            gr.Slider(-1, multiprocessing.cpu_count(), step=1, label="Parallel Workers", value=-1),
-            gr.Slider(0.1, 10, step=0.1, label="Min Time Limit", value=1),
-            gr.Slider(1, 100 * 1024, step=1024, label="Max AS Limit", value=30 * 1024),
-            gr.Slider(1, 100 * 1024, step=1024, label="Max Data Limit", value=30 * 1024),
-            gr.Slider(1, 100, step=1, label="Max Stack Limit", value=10),
-            gr.Checkbox(label="Check GT Only"),
-            gr.Checkbox(label="No GT"),
-        ],
-        outputs=[
-            gr.JSON(label="Results"),
-            gr.JSON(label="Eval Results"),
-        ],
-        # concurrency_limit=None
-    )
-    interface.queue(default_concurrency_limit=None)
-    interface.launch(show_error=True)
 def preload_gt():
@@ -272,12 +272,11 @@ def restart_space():
         logging.error(f"Failed to restart space: {e}")
-if __name__ == "__main__":
-    preload_gt()
-    run_gradio()
-    scheduler = BackgroundScheduler()
-    scheduler.add_job(restart_space, "interval", hours=1)  # Restart every 1h
-    logging.info("Scheduler initialized to restart space every 1 hour.")
-    scheduler.start()
-    # evaluate("complete", "hard", "meta-llama--Llama-3.2-3B-Instruct--bigcodebench-instruct--vllm-0-1.jsonl")

 import gc
 import numpy as np
+from huggingface_hub import HfApi
 from bigcodebench.data import get_bigcodebench, get_bigcodebench_hash, load_solutions
 from bigcodebench.data.utils import CACHE_DIR
 from bigcodebench.eval import PASS, compatible_eval_result, estimate_pass_at_k, untrusted_check
 REPO_ID = "bigcode/bigcodebench-evaluator"
 HF_TOKEN = os.environ.get("HF_TOKEN", None)
+API = HfApi(token=HF_TOKEN)
 Result = Tuple[str, List[bool]]
     return results, pass_at_k
+# def run_gradio():
+interface = gr.Interface(
+    fn=evaluate,
+    inputs=[
+        gr.Dropdown(["complete", "instruct"], label="BigCodeBench Split"),
+        gr.Dropdown(["full", "hard"], label="BigCodeBench Subset"),
+        gr.File(label="Samples Path (.jsonl)"),
+        gr.Textbox(label="Pass k Values (comma-separated)", value="1,5,10"),
+        gr.Slider(-1, multiprocessing.cpu_count(), step=1, label="Parallel Workers", value=-1),
+        gr.Slider(0.1, 10, step=0.1, label="Min Time Limit", value=1),
+        gr.Slider(1, 100 * 1024, step=1024, label="Max AS Limit", value=30 * 1024),
+        gr.Slider(1, 100 * 1024, step=1024, label="Max Data Limit", value=30 * 1024),
+        gr.Slider(1, 100, step=1, label="Max Stack Limit", value=10),
+        gr.Checkbox(label="Check GT Only"),
+        gr.Checkbox(label="No GT"),
+    ],
+    outputs=[
+        gr.JSON(label="Results"),
+        gr.JSON(label="Eval Results"),
+    ],
+    # concurrency_limit=None
+)
+interface.queue(default_concurrency_limit=None)
+# interface.launch(show_error=True)
 def preload_gt():
         logging.error(f"Failed to restart space: {e}")
+# if __name__ == "__main__":
+preload_gt()
+# run_gradio()
+scheduler = BackgroundScheduler()
+scheduler.add_job(restart_space, "interval", hours=1)  # Restart every 1h
+logging.info("Scheduler initialized to restart space every 1 hour.")
+scheduler.start()