Spaces:

LLM360
/

de-arena

Running

App Files Files Community

yzabc007 commited on Oct 21, 2024

Commit

c156aae

1 Parent(s): efb8c59

Update space

Browse files

Files changed (2) hide show

app.py +14 -5
src/populate.py +23 -9

app.py CHANGED Viewed

@@ -151,6 +151,15 @@ with demo:
         '</p>'
     )
     gr.HTML(INTRODUCTION_TEXT)
     with gr.Tabs(elem_classes="tab-buttons") as tabs:
@@ -256,7 +265,7 @@ with demo:
                                 AutoEvalColumn.rank_math_geometry.name,
                                 AutoEvalColumn.rank_math_probability.name,
                                 ],
-                            rank_col=['sort_by_rank', 1, 4],
                         )
                     )
@@ -277,7 +286,7 @@ with demo:
                                 # AutoEvalColumn.rank_math_geometry.name,
                                 # AutoEvalColumn.rank_math_probability.name,
                                 ],
-                            rank_col=['sort_by_score', 1, 4],
                         )
                     )
@@ -389,7 +398,7 @@ with demo:
                                 AutoEvalColumn.rank_reason_logical.name,
                                 AutoEvalColumn.rank_reason_social.name,
                                 ],
-                            rank_col=['sort_by_rank', 1, 3],
                         )
                     )
@@ -406,7 +415,7 @@ with demo:
                                 AutoEvalColumn.score_reason_logical.name,
                                 AutoEvalColumn.score_reason_social.name,
                                 ],
-                            rank_col=['sort_by_score', 1, 3],
                         )
                     )
@@ -488,7 +497,7 @@ with demo:
                                 AutoEvalColumn.rank_chemistry.name,
                                 ],
-                            rank_col=['sort_by_rank', 4, 5],
                         )
                     )

         '</p>'
     )
     gr.HTML(INTRODUCTION_TEXT)
+    '''
+    TEXT = (
+        '<p style="font-size:{INTRODUCTION_TEXT_FONT_SIZE}px;">'
+        ''
+        '</p>'
+    )
+    gr.HTML(TEXT)
+    '''
     with gr.Tabs(elem_classes="tab-buttons") as tabs:
                                 AutoEvalColumn.rank_math_geometry.name,
                                 AutoEvalColumn.rank_math_probability.name,
                                 ],
+                            rank_col=['sort_by_rank', 1, 4, 'Math'],
                         )
                     )
                                 # AutoEvalColumn.rank_math_geometry.name,
                                 # AutoEvalColumn.rank_math_probability.name,
                                 ],
+                            rank_col=['sort_by_score', 1, 4, 'Math'],
                         )
                     )
                                 AutoEvalColumn.rank_reason_logical.name,
                                 AutoEvalColumn.rank_reason_social.name,
                                 ],
+                            rank_col=['sort_by_rank', 1, 3, 'Reasoning'],
                         )
                     )
                                 AutoEvalColumn.score_reason_logical.name,
                                 AutoEvalColumn.score_reason_social.name,
                                 ],
+                            rank_col=['sort_by_score', 1, 3, 'Reasoning'],
                         )
                     )
                                 AutoEvalColumn.rank_chemistry.name,
                                 ],
+                            rank_col=['sort_by_rank', 4, 5, 'Science'],
                         )
                     )

src/populate.py CHANGED Viewed

@@ -42,11 +42,17 @@ def get_model_leaderboard_df(results_path: str, requests_path: str="", cols: lis
         start_idx = rank_col[1]
         end_idx = rank_col[2]
         avg_scores = df.iloc[:, start_idx:end_idx].mean(axis=1)
-        df.insert(1, "Average Score", avg_scores)
-        df["Average Score"] = avg_scores.round(decimals=4)
-        df = df.sort_values(by=["Average Score"], ascending=False)
-        df["Average Score"] = df["Average Score"].map('{:.2f}'.format)
         # df = df.drop(columns=benchmark_cols[offset_idx:])
         # print(benchmark_cols)
@@ -68,11 +74,18 @@ def get_model_leaderboard_df(results_path: str, requests_path: str="", cols: lis
         start_idx = rank_col[1]
         end_idx = rank_col[2]
         avg_rank = df.iloc[:, start_idx:end_idx].mean(axis=1)
-        df.insert(1, "Average Rank", avg_rank)
-        df["Average Rank"] = avg_rank.round(decimals=4)
-        df = df.sort_values(by=["Average Rank"], ascending=True)
-        df["Average Rank"] = df["Average Rank"].map('{:.2f}'.format)
         # we'll skip NaN, instrad of deleting the whole row
         df = df.fillna('--')
@@ -80,7 +93,8 @@ def get_model_leaderboard_df(results_path: str, requests_path: str="", cols: lis
         rank = np.arange(1, len(df)+1)
         df.insert(0, 'Rank', rank)
-        df.style.background_gradient(cmap='coolwarm', subset=benchmark_cols)

         start_idx = rank_col[1]
         end_idx = rank_col[2]
         avg_scores = df.iloc[:, start_idx:end_idx].mean(axis=1)
+        if len(rank_col) == 4:
+            avg_col_name = f"Overall ({rank_col[3]})"
+        else:
+            # avg_col_name = "Average Score"
+            avg_col_name = 'Overall'
+        df.insert(1, avg_col_name, avg_scores)
+        df[avg_col_name] = avg_scores.round(decimals=4)
+        df = df.sort_values(by=[avg_col_name], ascending=False)
+        df[avg_col_name] = df[avg_col_name].map('{:.2f}'.format)
         # df = df.drop(columns=benchmark_cols[offset_idx:])
         # print(benchmark_cols)
         start_idx = rank_col[1]
         end_idx = rank_col[2]
         avg_rank = df.iloc[:, start_idx:end_idx].mean(axis=1)
+        if len(rank_col) == 4:
+            avg_col_name = f"Overall ({rank_col[3]})"
+        else:
+            # avg_col_name = "Average Rank"
+            avg_col_name = 'Overall'
+        df.insert(1, avg_col_name, avg_rank)
+        df[avg_col_name] = avg_rank.round(decimals=4)
+        df = df.sort_values(by=[avg_col_name], ascending=True)
+        df[avg_col_name] = df[avg_col_name].map('{:.2f}'.format)
         # we'll skip NaN, instrad of deleting the whole row
         df = df.fillna('--')
         rank = np.arange(1, len(df)+1)
         df.insert(0, 'Rank', rank)
+        # print(benchmark_cols)
+        # df.style.background_gradient(cmap='coolwarm', subset=benchmark_cols)