open_pl_llm_leaderboard

Runtime error

App Files Files Community

djstrong commited on Mar 25, 2024

Commit

1bea7de

1 Parent(s): 665a818

normalize scores to majority class baseline

Browse files

Files changed (1) hide show

src/leaderboard/read_evals.py +17 -7

src/leaderboard/read_evals.py CHANGED Viewed

@@ -160,13 +160,23 @@ class EvalResult:
         baselines = {task.value.benchmark: task.value.baseline*100 for task in Tasks}
-        average = sum([v for task, v in self.results.items() if v is not None and task in all_tasks]) / len(all_tasks)
-        average_g = sum([v for task, v in self.results.items() if v is not None and task in g_tasks]) / len(g_tasks)
-        average_mc = sum([v for task, v in self.results.items() if v is not None and task in mc_tasks]) / len(mc_tasks)
-        # average = sum([(v-baselines.get(task,0))/(100-baselines.get(task,0))*100 for task, v in self.results.items() if v is not None and task in all_tasks]) / len(all_tasks)
-        # average_g = sum([(v-baselines.get(task,0))/(100-baselines.get(task,0))*100 for task, v in self.results.items() if v is not None and task in g_tasks]) / len(g_tasks)
-        # average_mc = sum([(v-baselines.get(task,0))/(100-baselines.get(task,0))*100 for task, v in self.results.items() if v is not None and task in mc_tasks]) / len(mc_tasks)
         data_dict = {}
         # data_dict = {

         baselines = {task.value.benchmark: task.value.baseline*100 for task in Tasks}
+        # average = sum([v for task, v in self.results.items() if v is not None and task in all_tasks]) / len(all_tasks)
+        # average_g = sum([v for task, v in self.results.items() if v is not None and task in g_tasks]) / len(g_tasks)
+        # average_mc = sum([v for task, v in self.results.items() if v is not None and task in mc_tasks]) / len(mc_tasks)
+        # print('XXXXXXXXXXXX')
+        # print(self.eval_name)
+        # print(all_tasks)
+        # print(baselines)
+        # print(self.results)
+        # print('XXXXXXXXXXXX')
+        # average = sum([((v if v is not None else 0)-baselines.get(task,0))/(100-baselines.get(task,0))*100 for task, v in self.results.items() if  task in all_tasks]) / len(all_tasks)
+        # average_g = sum([((v if v is not None else 0)-baselines.get(task,0))/(100-baselines.get(task,0))*100 for task, v in self.results.items() if  task in g_tasks]) / len(g_tasks)
+        # average_mc = sum([((v if v is not None else 0)-baselines.get(task,0))/(100-baselines.get(task,0))*100 for task, v in self.results.items() if  task in mc_tasks]) / len(mc_tasks)
+        average = sum([(self.results.get(task,0) - baselines.get(task, 0)) / (100 - baselines.get(task, 0)) * 100 for task in all_tasks]) / len(all_tasks)
+        average_g = sum([(self.results.get(task,0) - baselines.get(task, 0)) / (100 - baselines.get(task, 0)) * 100 for task in g_tasks]) / len(g_tasks)
+        average_mc = sum([(self.results.get(task,0) - baselines.get(task, 0)) / (100 - baselines.get(task, 0)) * 100 for task in mc_tasks]) / len(mc_tasks)
         data_dict = {}
         # data_dict = {