evalita_llm_leaderboard

Running

App Files Files Community

rzanoli commited on Jul 21

Commit

67324c2

1 Parent(s): 6927b6c

Added computation and display of the standard deviation across individual prompt accuracy values for each task

Browse files

Files changed (5) hide show

app.py +7 -5
preprocess_models_output.py +2 -0
src/about.py +57 -47
src/populate.py +1 -0
src/tasks.py +3 -3

app.py CHANGED Viewed

@@ -143,6 +143,7 @@ download_snapshot(RESULTS_REPO, EVAL_RESULTS_PATH)
 # Load leaderboard data
 LEADERBOARD_DF = get_leaderboard_df(EVAL_RESULTS_PATH, EVAL_REQUESTS_PATH, COLS, BENCHMARK_COLS)
 finished_eval_queue_df, running_eval_queue_df, pending_eval_queue_df = get_evaluation_queue_df(EVAL_REQUESTS_PATH, EVAL_COLS)
 # Prepare the main interface
 demo = gr.Blocks(css=custom_css)
@@ -194,9 +195,9 @@ with demo:
                 gr.Markdown(task_description, elem_classes="markdown-text")
                 leaderboard = update_task_leaderboard(
-                    LEADERBOARD_DF.rename(columns={f"{task} Prompt Average": "Prompt Average", f"{task} Best Prompt": "Best Prompt", f"{task} Best Prompt Id": "Best Prompt Id", task: "Combined Performance"}),
-                    default_selection=['FS', 'Model', 'Combined Performance', 'Prompt Average', 'Best Prompt', 'Best Prompt Id'],
-                    hidden_columns=[col for col in LEADERBOARD_DF.columns if col not in ['FS', 'Model', 'Combined Performance', 'Prompt Average', 'Best Prompt', 'Best Prompt Id']]
                 )
         # About tab
@@ -211,13 +212,14 @@ with demo:
                 leaderboard = update_task_leaderboard(
                     LEADERBOARD_DF.rename(columns={f"{task} Prompt Average": "Prompt Average",
                                                    f"{task} Best Prompt": "Best Prompt",
                                                    f"{task} Best Prompt Id": "Best Prompt Id",
                                                    task: "Combined Performance"}),
-                    default_selection=['FS', 'Model', 'Combined Performance', 'Prompt Average', 'Best Prompt',
                                        'Best Prompt Id'],
                     hidden_columns=[col for col in LEADERBOARD_DF.columns if
-                                    col not in ['FS', 'Model', 'Combined Performance', 'Prompt Average',
                                                 'Best Prompt', 'Best Prompt Id']]
                 )

 # Load leaderboard data
 LEADERBOARD_DF = get_leaderboard_df(EVAL_RESULTS_PATH, EVAL_REQUESTS_PATH, COLS, BENCHMARK_COLS)
 finished_eval_queue_df, running_eval_queue_df, pending_eval_queue_df = get_evaluation_queue_df(EVAL_REQUESTS_PATH, EVAL_COLS)
+print(LEADERBOARD_DF.columns.tolist())
 # Prepare the main interface
 demo = gr.Blocks(css=custom_css)
                 gr.Markdown(task_description, elem_classes="markdown-text")
                 leaderboard = update_task_leaderboard(
+                    LEADERBOARD_DF.rename(columns={f"{task} Prompt Average": "Prompt Average", f"{task} Prompt Std": "Prompt Std", f"{task} Best Prompt": "Best Prompt", f"{task} Best Prompt Id": "Best Prompt Id", task: "Combined Performance"}),
+                    default_selection=['FS', 'Model', 'Combined Performance', 'Prompt Average', 'Prompt Std', 'Best Prompt', 'Best Prompt Id'],
+                    hidden_columns=[col for col in LEADERBOARD_DF.columns if col not in ['FS', 'Model', 'Combined Performance', 'Prompt Average', 'Prompt Std', 'Best Prompt', 'Best Prompt Id']]
                 )
         # About tab
                 leaderboard = update_task_leaderboard(
                     LEADERBOARD_DF.rename(columns={f"{task} Prompt Average": "Prompt Average",
+                                                   f"{task} Prompt Std": "Prompt Std",
                                                    f"{task} Best Prompt": "Best Prompt",
                                                    f"{task} Best Prompt Id": "Best Prompt Id",
                                                    task: "Combined Performance"}),
+                    default_selection=['FS', 'Model', 'Combined Performance', 'Prompt Average', 'Prompt Std', 'Best Prompt',
                                        'Best Prompt Id'],
                     hidden_columns=[col for col in LEADERBOARD_DF.columns if
+                                    col not in ['FS', 'Model', 'Combined Performance', 'Prompt Average', 'Prompt Std',
                                                 'Best Prompt', 'Best Prompt Id']]
                 )

preprocess_models_output.py CHANGED Viewed

@@ -73,6 +73,7 @@ Evaluation Report (.json format):
 import json
 import os
 import re
 def safe_float(value):
     """Safely converts a value to float, returning None if the conversion fails."""
@@ -90,6 +91,7 @@ def calculate_task_metrics(task_info):
         return None
     task_info['average_accuracy'] = sum(accuracies) / len(accuracies)
     best_prompt_data = max(task_info['prompts'], key=lambda x: x['value'])
     task_info['best_prompt'] = best_prompt_data['value']
     task_info['prompt_id'] = best_prompt_data['prompt']

 import json
 import os
 import re
+import statistics
 def safe_float(value):
     """Safely converts a value to float, returning None if the conversion fails."""
         return None
     task_info['average_accuracy'] = sum(accuracies) / len(accuracies)
+    task_info['std_accuracy'] = statistics.stdev(accuracies) if len(accuracies) > 1 else 0.0
     best_prompt_data = max(task_info['prompts'], key=lambda x: x['value'])
     task_info['best_prompt'] = best_prompt_data['value']
     task_info['prompt_id'] = best_prompt_data['prompt']

src/about.py CHANGED Viewed

@@ -15,53 +15,63 @@ class Tasks(Enum):
     task1 = Task("text-entailment_1", "acc", "CPS", "TE")
     task2 = Task("text-entailment_2", "acc", "average_accuracy", "TE Prompt Average")
-    task3 = Task("text-entailment_3", "acc", "best_prompt", "TE Best Prompt")
-    task4 = Task("text-entailment_4", "acc", "prompt_id", "TE Best Prompt Id")
-    task5 = Task("sentiment-analysis_1", "acc", "CPS", "SA")
-    task6 = Task("sentiment-analysis_2", "acc", "average_accuracy", "SA Prompt Average")
-    task7 = Task("sentiment-analysis_3", "acc", "best_prompt", "SA Best Prompt")
-    task8 = Task("sentiment-analysis_4", "acc", "prompt_id", "SA Best Prompt Id")
-    task9 = Task("hate-speech-detection_1", "acc", "CPS", "HS")
-    task10 = Task("hate-speech-detection_2", "acc", "average_accuracy", "HS Prompt Average")
-    task11 = Task("hate-speech-detection_3", "acc", "best_prompt", "HS Best Prompt")
-    task12 = Task("hate-speech-detection_4", "acc", "prompt_id", "HS Best Prompt Id")
-    task13 = Task("admission-test_1", "acc", "CPS", "AT")
-    task14 = Task("admission-test_2", "acc", "average_accuracy", "AT Prompt Average")
-    task15 = Task("admission-test_3", "acc", "best_prompt", "AT Best Prompt")
-    task16 = Task("admission-test_4", "acc", "prompt_id", "AT Best Prompt Id")
-    task17 = Task("word-in-context_1", "acc", "CPS", "WIC")
-    task18 = Task("word-in-context_2", "acc", "average_accuracy", "WIC Prompt Average")
-    task19 = Task("word-in-context_3", "acc", "best_prompt", "WIC Best Prompt")
-    task20 = Task("word-in-context_4", "acc", "prompt_id", "WIC Best Prompt Id")
-    task21 = Task("faq_1", "acc", "CPS", "FAQ")
-    task22 = Task("faq_2", "acc", "average_accuracy", "FAQ Prompt Average")
-    task23 = Task("faq_3", "acc", "best_prompt", "FAQ Best Prompt")
-    task24 = Task("faq_4", "acc", "prompt_id", "FAQ Best Prompt Id")
-    task25 = Task("lexical-substitution_1", "acc", "CPS", "LS")
-    task26 = Task("lexical-substitution_2", "acc", "average_accuracy", "LS Prompt Average")
-    task27 = Task("lexical-substitution_3", "acc", "best_prompt", "LS Best Prompt")
-    task28 = Task("lexical-substitution_4", "acc", "prompt_id", "LS Best Prompt Id")
-    task29 = Task("summarization-fanpage_1", "acc", "CPS", "SU")
-    task30 = Task("summarization-fanpage_2", "acc", "average_accuracy", "SU Prompt Average")
-    task31 = Task("summarization-fanpage_3", "acc", "best_prompt", "SU Best Prompt")
-    task32 = Task("summarization-fanpage_4", "acc", "prompt_id", "SU Best Prompt Id")
-    task33 = Task("evalita NER_1", "acc", "CPS", "NER")
-    task34 = Task("evalita NER_2", "acc", "average_accuracy", "NER Prompt Average")
-    task35 = Task("evalita NER_3", "acc", "best_prompt", "NER Best Prompt")
-    task36 = Task("evalita NER_4", "acc", "prompt_id", "NER Best Prompt Id")
-    task37 = Task("relation-extraction_1", "acc", "CPS", "REL")
-    task38 = Task("relation-extraction_2", "acc", "average_accuracy", "REL Prompt Average")
-    task39 = Task("relation-extraction_3", "acc", "best_prompt", "REL Best Prompt")
-    task40 = Task("relation-extraction_4", "acc", "prompt_id", "REL Best Prompt Id")
     '''
     task0 = Task("TextualEntailment", "acc", "Textual Entailment")

     task1 = Task("text-entailment_1", "acc", "CPS", "TE")
     task2 = Task("text-entailment_2", "acc", "average_accuracy", "TE Prompt Average")
+    task3 = Task("text-entailment_3", "acc", "std_accuracy", "TE Prompt Std")
+    task4 = Task("text-entailment_4", "acc", "best_prompt", "TE Best Prompt")
+    task5 = Task("text-entailment_5", "acc", "prompt_id", "TE Best Prompt Id")
+    task6 = Task("sentiment-analysis_1", "acc", "CPS", "SA")
+    task7 = Task("sentiment-analysis_2", "acc", "average_accuracy", "SA Prompt Average")
+    task8 = Task("sentiment-analysis_3", "acc", "std_accuracy", "SA STD Accuracy")
+    task9 = Task("sentiment-analysis_4", "acc", "best_prompt", "SA Best Prompt")
+    task10 = Task("sentiment-analysis_5", "acc", "prompt_id", "SA Best Prompt Id")
+    task11 = Task("hate-speech-detection_1", "acc", "CPS", "HS")
+    task12 = Task("hate-speech-detection_2", "acc", "average_accuracy", "HS Prompt Average")
+    task13 = Task("hate-speech-detection_3", "acc", "std_accuracy", "HS Prompt Std")
+    task14 = Task("hate-speech-detection_4", "acc", "best_prompt", "HS Best Prompt")
+    task15 = Task("hate-speech-detection_5", "acc", "prompt_id", "HS Best Prompt Id")
+    task16 = Task("admission-test_1", "acc", "CPS", "AT")
+    task17 = Task("admission-test_2", "acc", "average_accuracy", "AT Prompt Average")
+    task18 = Task("admission-test_3", "acc", "std_accuracy", "AT Prompt Std")
+    task19 = Task("admission-test_4", "acc", "best_prompt", "AT Best Prompt")
+    task20 = Task("admission-test_5", "acc", "prompt_id", "AT Best Prompt Id")
+    task21 = Task("word-in-context_1", "acc", "CPS", "WIC")
+    task22 = Task("word-in-context_2", "acc", "average_accuracy", "WIC Prompt Average")
+    task23 = Task("word-in-context_3", "acc", "std_accuracy", "WIC Prompt Std")
+    task24 = Task("word-in-context_4", "acc", "best_prompt", "WIC Best Prompt")
+    task25 = Task("word-in-context_5", "acc", "prompt_id", "WIC Best Prompt Id")
+    task26 = Task("faq_1", "acc", "CPS", "FAQ")
+    task27 = Task("faq_2", "acc", "average_accuracy", "FAQ Prompt Average")
+    task28 = Task("faq_3", "acc", "std_accuracy", "FAQ Prompt Std")
+    task29 = Task("faq_4", "acc", "best_prompt", "FAQ Best Prompt")
+    task30 = Task("faq_5", "acc", "prompt_id", "FAQ Best Prompt Id")
+    task31 = Task("lexical-substitution_1", "acc", "CPS", "LS")
+    task32 = Task("lexical-substitution_2", "acc", "average_accuracy", "LS Prompt Average")
+    task33 = Task("lexical-substitution_3", "acc", "std_accuracy", "LS Prompt Std")
+    task34 = Task("lexical-substitution_4", "acc", "best_prompt", "LS Best Prompt")
+    task35 = Task("lexical-substitution_5", "acc", "prompt_id", "LS Best Prompt Id")
+    task36 = Task("summarization-fanpage_1", "acc", "CPS", "SU")
+    task37 = Task("summarization-fanpage_2", "acc", "average_accuracy", "SU Prompt Average")
+    task38 = Task("summarization-fanpage_3", "acc", "std_accuracy", "SU Prompt Std")
+    task39 = Task("summarization-fanpage_4", "acc", "best_prompt", "SU Best Prompt")
+    task40 = Task("summarization-fanpage_5", "acc", "prompt_id", "SU Best Prompt Id")
+    task41 = Task("evalita NER_1", "acc", "CPS", "NER")
+    task42 = Task("evalita NER_2", "acc", "average_accuracy", "NER Prompt Average")
+    task43 = Task("evalita NER_3", "acc", "std_accuracy", "NER Prompt Std")
+    task44 = Task("evalita NER_4", "acc", "best_prompt", "NER Best Prompt")
+    task45 = Task("evalita NER_5", "acc", "prompt_id", "NER Best Prompt Id")
+    task46 = Task("relation-extraction_1", "acc", "CPS", "REL")
+    task47 = Task("relation-extraction_2", "acc", "average_accuracy", "REL Prompt Average")
+    task48 = Task("relation-extraction_5", "acc", "std_accuracy", "REL Prompt Std")
+    task49 = Task("relation-extraction_3", "acc", "best_prompt", "REL Best Prompt")
+    task50 = Task("relation-extraction_4", "acc", "prompt_id", "REL Best Prompt Id")
     '''
     task0 = Task("TextualEntailment", "acc", "Textual Entailment")

src/populate.py CHANGED Viewed

@@ -16,6 +16,7 @@ def get_leaderboard_df(results_path: str, requests_path: str, cols: list, benchm
     df = pd.DataFrame.from_records(all_data_json)
     df = df.sort_values(by=[AutoEvalColumn.average.name], ascending=False)
     df = df[cols].round(decimals=2)
     # filter out if any of the benchmarks have not been produced
     df = df[has_no_nan_values(df, benchmark_cols)]

     df = pd.DataFrame.from_records(all_data_json)
     df = df.sort_values(by=[AutoEvalColumn.average.name], ascending=False)
     df = df[cols].round(decimals=2)
+    #df.to_csv("output.csv", index=False)
     # filter out if any of the benchmarks have not been produced
     df = df[has_no_nan_values(df, benchmark_cols)]

src/tasks.py CHANGED Viewed

@@ -63,8 +63,8 @@ HS_DESCRIPTION = """### Hate Speech (HS) --- *Multiple-choice task*
 |-----|--------------------------------------------------------------------------------|-------------------------------------------------|
 | 1   | C'è incitamento all'odio nel seguente tweet: '{{full_text}}'?                     | ["Falso", "Vero"] |
 | 2   | Devi svolgere un compito di identificazione di incitamento all'odio. C'è incitamento all'odio nel seguente tweet: '{{full_text}}'? | ["Falso", "Vero"] |
-| 3   | C'è incitamento all'odio nel seguente tweet: '{{full_text}}'?\\nA: \\nB: Falso\\nRisposta: | ["B", "A"]                                      |
-| 4   | Devi svolgere un compito di identificazione di incitamento all'odio. C'è incitamento all'odio nel seguente tweet: '{{full_text}}'?\\nA: \\nB: \\nRisposta: | ["B", "A"]                                      |
 | 5   | Il tweet: '{{full_text}}'                                                      | ["non contiene incitamento all'odio", "contiene incitamento all'odio"] |
 | 6   | Devi svolgere un compito di identificazione di incitamento all'odio. Il tweet: '{{full_text}}' | ["non contiene incitamento all'odio", "contiene incitamento all'odio"] |
@@ -81,7 +81,7 @@ AT_DESCRIPTION = """### Admission Tests (AT) --- *Multiple-choice task*
 | 2   | Devi risolvere un compito di risposte a domande. Dato il seguente quesito di medicina: '{{Question}}' qual è la risposta corretta? | ["A", "B", "C", "D", "E"]   |
 | 3   | Dato il seguente quesito di medicina: '{{Question}}' qual è la risposta corretta?\\nA: {{A}}\\nB: {{B}}\\nC: {{C}}\\nD: {{D}}\\nE: {{E}}\\nRisposta: | ["A", "B", "C", "D", "E"]   |
 | 4   | Devi risolvere un compito a scelta multipla. Dato il seguente caso clinico: '{{background}}', qual è la risposta corretta alla domanda: '{{domanda}}'?\\nA: {{A}}\\nB: {{B}}\\nC: {{C}}\\nD: {{D}}\\nE: {{E}}\\nRisposta:Devi risolvere un compito a scelta multipla. Dato il seguente quesito di medicina: '{{Question}}' qual è la risposta corretta?\\nA: {{A}}\\nB: {{B}}\\nC: {{C}}\\nD: {{D}}\\nE: {{E}}\\nRisposta: | ["A", "B", "C", "D", "E"]   |
-| 5   | Dato il seguente caso clinico: '{{background}}'. La risposta corretta alla domanda: '{{domanda}}' èDato il seguente quesito di medicina '{{Question}}' la risposta corretta è: | ["A", "B", "C", "D", "E"]   |
 | 6   | Devi risolvere un compito di risposte a domande. Dato il seguente quesito di medicina '{{Question}}' la risposta corretta è: | ["A", "B", "C", "D", "E"]   |
 <small>**Combined Performance** = (1 - (**Best Prompt** - **Prompt Average**) / 100) * **Best Prompt**. **Prompt Average** = accuracy averaged over the 6 prompts. **Best Prompt** = accuracy of the best prompt. **Prompt ID** = ID of the best prompt (see legend above). </small>

 |-----|--------------------------------------------------------------------------------|-------------------------------------------------|
 | 1   | C'è incitamento all'odio nel seguente tweet: '{{full_text}}'?                     | ["Falso", "Vero"] |
 | 2   | Devi svolgere un compito di identificazione di incitamento all'odio. C'è incitamento all'odio nel seguente tweet: '{{full_text}}'? | ["Falso", "Vero"] |
+| 3   | C'è incitamento all'odio nel seguente tweet: '{{full_text}}'?\\nA: Vero\\nB: Falso\\nRisposta: | ["B", "A"]                                      |
+| 4   | Devi svolgere un compito di identificazione di incitamento all'odio. C'è incitamento all'odio nel seguente tweet: '{{full_text}}'?\\nA: Vero\\nB: Falso\\nRisposta: | ["B", "A"]                                      |
 | 5   | Il tweet: '{{full_text}}'                                                      | ["non contiene incitamento all'odio", "contiene incitamento all'odio"] |
 | 6   | Devi svolgere un compito di identificazione di incitamento all'odio. Il tweet: '{{full_text}}' | ["non contiene incitamento all'odio", "contiene incitamento all'odio"] |
 | 2   | Devi risolvere un compito di risposte a domande. Dato il seguente quesito di medicina: '{{Question}}' qual è la risposta corretta? | ["A", "B", "C", "D", "E"]   |
 | 3   | Dato il seguente quesito di medicina: '{{Question}}' qual è la risposta corretta?\\nA: {{A}}\\nB: {{B}}\\nC: {{C}}\\nD: {{D}}\\nE: {{E}}\\nRisposta: | ["A", "B", "C", "D", "E"]   |
 | 4   | Devi risolvere un compito a scelta multipla. Dato il seguente caso clinico: '{{background}}', qual è la risposta corretta alla domanda: '{{domanda}}'?\\nA: {{A}}\\nB: {{B}}\\nC: {{C}}\\nD: {{D}}\\nE: {{E}}\\nRisposta:Devi risolvere un compito a scelta multipla. Dato il seguente quesito di medicina: '{{Question}}' qual è la risposta corretta?\\nA: {{A}}\\nB: {{B}}\\nC: {{C}}\\nD: {{D}}\\nE: {{E}}\\nRisposta: | ["A", "B", "C", "D", "E"]   |
+| 5   | Dato il seguente quesito di medicina '{{Question}}' la risposta corretta è: | ["A", "B", "C", "D", "E"]   |
 | 6   | Devi risolvere un compito di risposte a domande. Dato il seguente quesito di medicina '{{Question}}' la risposta corretta è: | ["A", "B", "C", "D", "E"]   |
 <small>**Combined Performance** = (1 - (**Best Prompt** - **Prompt Average**) / 100) * **Best Prompt**. **Prompt Average** = accuracy averaged over the 6 prompts. **Best Prompt** = accuracy of the best prompt. **Prompt ID** = ID of the best prompt (see legend above). </small>