Spaces:

mib-bench
/

leaderboard

Running

App Files Files Community

jasonshaoshun commited on Jan 23

Commit

1eaca05

1 Parent(s): 924fb19

debug

Browse files

Files changed (2) hide show

src/about.py +19 -4
src/display/utils.py +22 -2

src/about.py CHANGED Viewed

@@ -102,14 +102,29 @@ class TaskMIB_Causalgraph:
     counterfactuals: list[str]
     metrics: list[str]
 class TasksMib_Causalgraph(Enum):
     task0 = TaskMIB_Causalgraph(
         "MCQA",
-        ["Qwen2ForCausalLM", "Gemma2ForCausalLM", "LlamaForCausalLM"],
         {
-            "Qwen2ForCausalLM": [str(i) for i in range(24)],    # 0-23
-            "Gemma2ForCausalLM": [str(i) for i in range(26)],   # 0-25
-            "LlamaForCausalLM": [str(i) for i in range(32)]     # 0-31
         },
         "mcqa",
         ["output_token", "output_location"],

     counterfactuals: list[str]
     metrics: list[str]
+# class TasksMib_Causalgraph(Enum):
+#     task0 = TaskMIB_Causalgraph(
+#         "MCQA",
+#         ["Qwen2ForCausalLM", "Gemma2ForCausalLM", "LlamaForCausalLM"],
+#         {
+#             "Qwen2ForCausalLM": [str(i) for i in range(24)],    # 0-23
+#             "Gemma2ForCausalLM": [str(i) for i in range(26)],   # 0-25
+#             "LlamaForCausalLM": [str(i) for i in range(32)]     # 0-31
+#         },
+#         "mcqa",
+#         ["output_token", "output_location"],
+#         ["randomLetter_counterfactual", "answerPosition_counterfactual",
+#          "answerPosition_randomLetter_counterfactual"],
+#         ["score"]
+#     )
 class TasksMib_Causalgraph(Enum):
     task0 = TaskMIB_Causalgraph(
         "MCQA",
+        ["qwen2forcausallm", "gemma2forcausallm", "llamaforcausallm"],  # Use lowercase names to match actual columns
         {
+            "qwen2forcausallm": [str(i) for i in range(24)],    # 0-23
+            "gemma2forcausallm": [str(i) for i in range(26)],   # 0-25
+            "llamaforcausallm": [str(i) for i in range(32)]     # 0-31
         },
         "mcqa",
         ["output_token", "output_location"],

src/display/utils.py CHANGED Viewed

@@ -189,6 +189,25 @@ BENCHMARK_COLS_MIB_CAUSALGRAPH = []
 auto_eval_column_dict_mib_causalgraph = []
 # Method name column
@@ -197,10 +216,11 @@ auto_eval_column_dict_mib_causalgraph.append(["eval_name", ColumnContent, Column
 # For each model-task-intervention-counterfactual combination
 for task in TasksMib_Causalgraph:
-    for model in task.value.models:
-        for layer in task.value.layers[model]:  # Use model-specific layers
             for intervention in task.value.interventions:
                 for counterfactual in task.value.counterfactuals:
                     col_name = f"{model}_layer{layer}_{intervention}_{counterfactual}"
                     auto_eval_column_dict_mib_causalgraph.append([
                         col_name,

+# auto_eval_column_dict_mib_causalgraph = []
+# # Method name column
+# auto_eval_column_dict_mib_causalgraph.append(["method", ColumnContent, ColumnContent("Method", "markdown", True, never_hidden=True)])
+# auto_eval_column_dict_mib_causalgraph.append(["eval_name", ColumnContent, ColumnContent("eval_name", "str", True)])
+# # For each model-task-intervention-counterfactual combination
+# for task in TasksMib_Causalgraph:
+#     for model in task.value.models:
+#         for layer in task.value.layers[model]:  # Use model-specific layers
+#             for intervention in task.value.interventions:
+#                 for counterfactual in task.value.counterfactuals:
+#                     col_name = f"{model}_layer{layer}_{intervention}_{counterfactual}"
+#                     auto_eval_column_dict_mib_causalgraph.append([
+#                         col_name,
+#                         ColumnContent,
+#                         ColumnContent(col_name, "number", True)
+#                     ])
 auto_eval_column_dict_mib_causalgraph = []
 # Method name column
 # For each model-task-intervention-counterfactual combination
 for task in TasksMib_Causalgraph:
+    for model in task.value.models:  # model will already be lowercase
+        for layer in task.value.layers[model]:
             for intervention in task.value.interventions:
                 for counterfactual in task.value.counterfactuals:
+                    # Use exactly the same format as in DataFrame
                     col_name = f"{model}_layer{layer}_{intervention}_{counterfactual}"
                     auto_eval_column_dict_mib_causalgraph.append([
                         col_name,