Spaces:

Metric-AI
/

ArmBench-LLM

Sleeping

App Files Files Community

Bagratuni commited on Mar 11

Commit

2f6fff2

1 Parent(s): c495ec8

commit

Browse files

Files changed (1) hide show

app.py +15 -15

app.py CHANGED Viewed

@@ -16,7 +16,7 @@ def refresh_data():
     global_mmlu_df, global_unified_exam_df = model_handler.get_arm_bench_data()
     global_output_armenian = unified_exam_result_table(global_unified_exam_df)
-    # global_output_mmlu = mmlu_result_table(global_mmlu_df)
     return global_output_armenian, unified_exam_chart(global_output_armenian, 'Average')
@@ -26,7 +26,7 @@ def main():
     global_mmlu_df, global_unified_exam_df = model_handler.get_arm_bench_data()
     global_output_armenian = unified_exam_result_table(global_unified_exam_df)
-    # global_output_mmlu = mmlu_result_table(global_mmlu_df)
     with gr.Blocks() as app:
         with gr.Tabs():
@@ -40,17 +40,17 @@ def main():
                 table_output_armenian = gr.DataFrame(value=global_output_armenian)
                 plot_column_dropdown_unified_exam = gr.Dropdown(choices=['Average', 'Armenian language and literature', 'Armenian history', 'Mathematics'], value='Average', label='Select Column to Plot')
                 plot_output_armenian = gr.Plot(lambda column: unified_exam_chart(global_output_armenian, column), inputs=plot_column_dropdown_unified_exam)
-            # with gr.TabItem("MMLU-Pro-Hy"):
-            #     gr.Markdown("# MMLU-Pro Translated to Armenian (MMLU-Pro-Hy)")
-            #     gr.Markdown(
-            #         """
-            #         This benchmark contains results of various Language Models on the MMLU-Pro benchmark, translated into Armenian. MMLU-Pro is a massive multi-task test in MCQA format. The scores represent accuracy.
-            #         """
-            #     )
-            #     table_output_mmlu = gr.DataFrame(value=global_output_mmlu)
-            #     subject_cols = ['Average','Biology', 'Business', 'Chemistry', 'Computer Science', 'Economics', 'Engineering', 'Health', 'History', 'Law', 'Math', 'Philosophy', 'Physics', 'Psychology','Other']
-            #     plot_column_dropdown_mmlu = gr.Dropdown(choices=subject_cols, value='Average', label='Select Column to Plot')
-            #     plot_output_mmlu = gr.Plot(lambda column: mmlu_chart(global_output_mmlu, column), inputs=plot_column_dropdown_mmlu)
             with gr.TabItem("About"):
                 gr.Markdown("# About the Benchmark")
                 gr.Markdown(
@@ -112,9 +112,9 @@ def main():
         refresh_button.click(
             fn=refresh_data,
             outputs=[table_output_armenian,
-                    #  table_output_mmlu,
                      plot_output_armenian,
-                    #  plot_output_mmlu
                     ],
         )
     app.launch(share=True, debug=True)

     global_mmlu_df, global_unified_exam_df = model_handler.get_arm_bench_data()
     global_output_armenian = unified_exam_result_table(global_unified_exam_df)
+    global_output_mmlu = mmlu_result_table(global_mmlu_df)
     return global_output_armenian, unified_exam_chart(global_output_armenian, 'Average')
     global_mmlu_df, global_unified_exam_df = model_handler.get_arm_bench_data()
     global_output_armenian = unified_exam_result_table(global_unified_exam_df)
+    global_output_mmlu = mmlu_result_table(global_mmlu_df)
     with gr.Blocks() as app:
         with gr.Tabs():
                 table_output_armenian = gr.DataFrame(value=global_output_armenian)
                 plot_column_dropdown_unified_exam = gr.Dropdown(choices=['Average', 'Armenian language and literature', 'Armenian history', 'Mathematics'], value='Average', label='Select Column to Plot')
                 plot_output_armenian = gr.Plot(lambda column: unified_exam_chart(global_output_armenian, column), inputs=plot_column_dropdown_unified_exam)
+            with gr.TabItem("MMLU-Pro-Hy"):
+                gr.Markdown("# MMLU-Pro Translated to Armenian (MMLU-Pro-Hy)")
+                gr.Markdown(
+                    """
+                    This benchmark contains results of various Language Models on the MMLU-Pro benchmark, translated into Armenian. MMLU-Pro is a massive multi-task test in MCQA format. The scores represent accuracy.
+                    """
+                )
+                table_output_mmlu = gr.DataFrame(value=global_output_mmlu)
+                subject_cols = ['Average','Biology', 'Business', 'Chemistry', 'Computer Science', 'Economics', 'Engineering', 'Health', 'History', 'Law', 'Math', 'Philosophy', 'Physics', 'Psychology','Other']
+                plot_column_dropdown_mmlu = gr.Dropdown(choices=subject_cols, value='Average', label='Select Column to Plot')
+                plot_output_mmlu = gr.Plot(lambda column: mmlu_chart(global_output_mmlu, column), inputs=plot_column_dropdown_mmlu)
             with gr.TabItem("About"):
                 gr.Markdown("# About the Benchmark")
                 gr.Markdown(
         refresh_button.click(
             fn=refresh_data,
             outputs=[table_output_armenian,
+                     table_output_mmlu,
                      plot_output_armenian,
+                     plot_output_mmlu
                     ],
         )
     app.launch(share=True, debug=True)