Spaces:

openeurollm
/

LLM-leaderboard

Running

App Files Files Community

geoalgo commited on Oct 13

Commit

ca25c6f

1 Parent(s): c708975

add data

Browse files

Files changed (2) hide show

main.py +78 -19
results_instruction_tuning.csv.zip +3 -0

main.py CHANGED Viewed

@@ -7,14 +7,27 @@ from gradio_leaderboard import Leaderboard, SelectColumns, SearchColumns
 abs_path = Path(__file__).parent
-df = pd.read_csv("opensci-ref-table.csv")
-df.drop("#Tokens", axis=1, inplace=True)
-df.drop("AVG", axis=1, inplace=True)
-benchmarks = df.columns[1:]
-df["Average ⬆️"] = df.loc[:, benchmarks].mean(axis=1)
-# df.set_index("Model", inplace=True)
 with gr.Blocks() as demo:
     gr.Markdown(
@@ -22,19 +35,65 @@ with gr.Blocks() as demo:
     # 🥇 OpenEuroLLM Leaderboard 🇪🇺
     """
     )
-    Leaderboard(
-        value=df.round(2),
-        select_columns=SelectColumns(
-            default_selection=list(df.columns),
-            cant_deselect=["Model"],
-            label="Select Columns to Display:",
-        ),
-        search_columns=SearchColumns(
-            primary_column="Model",
-            label="Filter a model",
-            secondary_columns=[],
-        ),
-    )
 if __name__ == "__main__":
     demo.launch()

 abs_path = Path(__file__).parent
+df_core = pd.read_csv("opensci-ref-table.csv")
+df_core.drop("#Tokens", axis=1, inplace=True)
+df_core.drop("AVG", axis=1, inplace=True)
+benchmarks_core = df_core.columns[1:]
+df_core["Average ⬆️"] = df_core.loc[:, benchmarks_core].mean(axis=1)
+df_instruction_tuning = pd.read_csv("results_instruction_tuning.csv.zip")
+df_instruction_tuning = df_instruction_tuning.pivot_table(
+    index="model_B", columns="benchmark", values="preference"
+)
+df_instruction_tuning.index.rename("Model", inplace=True)
+df_instruction_tuning.reset_index(drop=False, inplace=True)
+df_instruction_tuning.columns = [x.capitalize() for x in df_instruction_tuning.columns]
+# first column is model
+df_instruction_tuning["Average"] = df_instruction_tuning.loc[
+    :, df_instruction_tuning.columns[1:]
+].mean(axis=1)
+# df_instruction_tuning.drop("benchmark", axis=1, inplace=True)
 with gr.Blocks() as demo:
     gr.Markdown(
     # 🥇 OpenEuroLLM Leaderboard 🇪🇺
     """
     )
+    with gr.Tabs():
+        with gr.Tab("English Core 🏴󠁧󠁢󠁥󠁮󠁧󠁿🇺🇸"):
+            Leaderboard(
+                value=df_core.round(2),
+                select_columns=SelectColumns(
+                    default_selection=list(df_core.columns),
+                    cant_deselect=["Model"],
+                    label="Select Columns to Display:",
+                ),
+                search_columns=SearchColumns(
+                    primary_column="Model",
+                    label="Filter a model",
+                    secondary_columns=[],
+                ),
+            )
+        with gr.Tab("Instruction-tuning 🎯󠁧󠁢󠁥🏴󠁧󠁢󠁥󠁮󠁧󠁿"):
+            gr.Markdown(
+                """
+            Winrate against Llama-3.1-8B-Instruct using Llama-3.1-70B-Instruct as the LLM-judge.
+            """
+            )
+            Leaderboard(
+                value=df_instruction_tuning.round(2),
+                select_columns=SelectColumns(
+                    default_selection=[
+                        col for col in df_instruction_tuning.columns if not "-eu" in col
+                    ],
+                    cant_deselect=["Model"],
+                    label="Select Columns to Display:",
+                ),
+                search_columns=SearchColumns(
+                    primary_column="Model",
+                    label="Filter a model",
+                    secondary_columns=[],
+                ),
+            )
+        with gr.Tab("Instruction-tuning multi-lingual 🎯🇪🇺"):
+            gr.Markdown(
+                """
+            Winrate against Llama-3.1-8B-Instruct using Llama-3.1-70B-Instruct as the LLM-judge.
+            """
+            )
+            Leaderboard(
+                value=df_instruction_tuning.round(2),
+                select_columns=SelectColumns(
+                    default_selection=list(df_instruction_tuning.columns),
+                    cant_deselect=["Model"],
+                    label="Select Columns to Display:",
+                ),
+                search_columns=SearchColumns(
+                    primary_column="Model",
+                    label="Filter a model",
+                    secondary_columns=[],
+                ),
+            )
 if __name__ == "__main__":
     demo.launch()

results_instruction_tuning.csv.zip ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f76e51ad41bb386359abb58e10ea274cdd5189dfd468f5bb58850c61fb8c16f0
+size 209306