evalita_llm_leaderboard

Running

App Files Files Community

rzanoli commited on Aug 22

Commit

56e849d

1 Parent(s): 13fe545

Add award icons for 5-shot and 0-shot models; shorten some table column names for clarity

Browse files

Files changed (2) hide show

app.py +46 -12
src/display/utils.py +1 -1

app.py CHANGED Viewed

@@ -24,14 +24,14 @@ def line_chart(dataframe):
     # Estrai valori x, y e labels per True e False
     x_true = df_true['#Params (B)'].tolist()
-    y_true = df_true['Avg. Combined Performance ⬆️'].tolist()
     labels_true = [
         re.search(r'>([^<>/]+/[^<>]+)<', m).group(1).split('/')[-1]
         for m in df_true['Model'].tolist()
     ]
     x_false = df_false['#Params (B)'].tolist()
-    y_false = df_false['Avg. Combined Performance ⬆️'].tolist()
     labels_false = [
         re.search(r'>([^<>/]+/[^<>]+)<', m).group(1).split('/')[-1]
         for m in df_false['Model'].tolist()
@@ -77,6 +77,7 @@ def line_chart(dataframe):
     return fig
 # Define task metadata (icons, names, descriptions)
 TASK_METADATA_MULTIPLECHOICE = {
     "TE": {"icon": "📊", "name": "Textual Entailment", "tooltip": ""},
@@ -108,18 +109,51 @@ def init_leaderboard(dataframe, default_selection=None, hidden_columns=None):
     if dataframe is None or dataframe.empty:
         raise ValueError("Leaderboard DataFrame is empty or None.")
-    sorted_dataframe = dataframe.sort_values(by="Avg. Combined Performance ⬆️", ascending=False)
     sorted_dataframe = sorted_dataframe.reset_index(drop=True)
     sorted_dataframe["rank"] = sorted_dataframe.index + 1
-    # aggiungi la corona accanto al nome del modello se il rank è 1
-    sorted_dataframe["Model"] = sorted_dataframe.apply(
-        lambda row: f"{row['Model']} 🥇" if row["rank"] == 1 else
-        (f"{row['Model']} 🥈" if row["rank"] == 2 else
-         (f"{row['Model']} 🥉" if row["rank"] == 3 else row["Model"])),
-        axis=1
-    )
     field_list = fields(AutoEvalColumn)
@@ -268,8 +302,8 @@ with demo:
             leaderboard = init_leaderboard(
                 LEADERBOARD_DF,
-                default_selection=['rank', 'FS', 'Model', "Avg. Combined Performance ⬆️", "TE", "SA", "HS", "AT", "WIC", "FAQ", "LS", "SU", "NER", "REL"],
-                hidden_columns=[col for col in LEADERBOARD_DF.columns if col not in ['rank', 'FS', 'Model', "Avg. Combined Performance ⬆️", "TE", "SA", "HS", "AT", "WIC", "FAQ", "LS", "SU", "NER", "REL"]]
             )
         with gr.TabItem("📈 Charts"):

     # Estrai valori x, y e labels per True e False
     x_true = df_true['#Params (B)'].tolist()
+    y_true = df_true['Avg. Comb. Perf. ⬆️'].tolist()
     labels_true = [
         re.search(r'>([^<>/]+/[^<>]+)<', m).group(1).split('/')[-1]
         for m in df_true['Model'].tolist()
     ]
     x_false = df_false['#Params (B)'].tolist()
+    y_false = df_false['Avg. Comb. Perf. ⬆️'].tolist()
     labels_false = [
         re.search(r'>([^<>/]+/[^<>]+)<', m).group(1).split('/')[-1]
         for m in df_false['Model'].tolist()
     return fig
 # Define task metadata (icons, names, descriptions)
 TASK_METADATA_MULTIPLECHOICE = {
     "TE": {"icon": "📊", "name": "Textual Entailment", "tooltip": ""},
     if dataframe is None or dataframe.empty:
         raise ValueError("Leaderboard DataFrame is empty or None.")
+    sorted_dataframe = dataframe.sort_values(by="Avg. Comb. Perf. ⬆️", ascending=False)
     sorted_dataframe = sorted_dataframe.reset_index(drop=True)
     sorted_dataframe["rank"] = sorted_dataframe.index + 1
+    # Flag per sapere se la medaglia è già stata assegnata per categoria e tipo
+    large_medal_fs_assigned = False
+    medium_medal_fs_assigned = False
+    small_medal_fs_assigned = False
+    large_medal_0shot_assigned = False
+    medium_medal_0shot_assigned = False
+    small_medal_0shot_assigned = False
+    # Lista temporanea per salvare i nuovi valori della colonna Model
+    new_model_column = []
+    for _, row in sorted_dataframe.iterrows():
+        if row['IS_FS']:  # 5-Few-Shot
+            if row["#Params (B)"] > 30 and not large_medal_fs_assigned:
+                new_model_column.append(f"{row['Model']} 7️⃣0️⃣🅱️🏆")
+                large_medal_fs_assigned = True
+            elif 10 < row["#Params (B)"] <= 30 and not medium_medal_fs_assigned:
+                new_model_column.append(f"{row['Model']} 3️⃣0️⃣🅱️🏆")
+                medium_medal_fs_assigned = True
+            elif row["#Params (B)"] <= 10 and not small_medal_fs_assigned:
+                new_model_column.append(f"{row['Model']} 1️⃣0️⃣🅱️🏆")
+                small_medal_fs_assigned = True
+            else:
+                new_model_column.append(row["Model"])
+        else:  # 0-Shot
+            if row["#Params (B)"] > 30 and not large_medal_0shot_assigned:
+                new_model_column.append(f"{row['Model']} 7️⃣0️⃣🅱️🎖️")
+                large_medal_0shot_assigned = True
+            elif 10 < row["#Params (B)"] <= 30 and not medium_medal_0shot_assigned:
+                new_model_column.append(f"{row['Model']} 3️⃣0️⃣🅱️🎖️")
+                medium_medal_0shot_assigned = True
+            elif row["#Params (B)"] <= 10 and not small_medal_0shot_assigned:
+                new_model_column.append(f"{row['Model']} 1️⃣0️⃣🅱️🎖️")
+                small_medal_0shot_assigned = True
+            else:
+                new_model_column.append(row["Model"])
+    # Aggiorna la colonna Model
+    sorted_dataframe["Model"] = new_model_column
     field_list = fields(AutoEvalColumn)
             leaderboard = init_leaderboard(
                 LEADERBOARD_DF,
+                default_selection=['rank', 'FS', 'Model', "Avg. Comb. Perf. ⬆️", "TE", "SA", "HS", "AT", "WIC", "FAQ", "LS", "SU", "NER", "REL"],
+                hidden_columns=[col for col in LEADERBOARD_DF.columns if col not in ['rank', 'FS', 'Model', "Avg. Comb. Perf. ⬆️", "TE", "SA", "HS", "AT", "WIC", "FAQ", "LS", "SU", "NER", "REL"]]
             )
         with gr.TabItem("📈 Charts"):

src/display/utils.py CHANGED Viewed

@@ -34,7 +34,7 @@ auto_eval_column_dict.append(["model", ColumnContent, ColumnContent("Model", "ma
 #auto_eval_column_dict.append(["fewshot", ColumnContent, ColumnContent("Few-Shot", "str", True)])
 #Scores
-auto_eval_column_dict.append(["average", ColumnContent, ColumnContent("Avg. Combined Performance ⬆️", "number", True)])
 for task in Tasks:
     auto_eval_column_dict.append([task.name, ColumnContent, ColumnContent(task.value.col_name, "number", True)])

 #auto_eval_column_dict.append(["fewshot", ColumnContent, ColumnContent("Few-Shot", "str", True)])
 #Scores
+auto_eval_column_dict.append(["average", ColumnContent, ColumnContent("Avg. Comb. Perf. ⬆️", "number", True)])
 for task in Tasks:
     auto_eval_column_dict.append([task.name, ColumnContent, ColumnContent(task.value.col_name, "number", True)])