Spaces:

mib-bench
/

leaderboard

Running

jasonshaoshun commited on Jan 22

Commit

36438b0

1 Parent(s): 29701ab

debug

Files changed (3) hide show

src/about.py CHANGED Viewed

@@ -54,20 +54,31 @@ class TaskMIB_Causalgraph:
     counterfactuals: list[str]  # symbol_counterfactual, etc.
     metrics: list[str]  # score
 class TasksMib_Causalgraph(Enum):
     task0 = TaskMIB_Causalgraph(
         "MCQA",
-        ["LlamaForCausalLM", "Qwen2ForCausalLM", "Gemma2ForCausalLM"],  # Updated model list
         [str(i) for i in range(32)],  # 0-31 layers
         "mcqa",
         ["output_token", "output_location"],
-        ["symbol_counterfactual", "randomLetter_counterfactual",
-         "answerPosition_counterfactual", "answerPosition_symbol_counterfactual"],
         ["score"]
     )
 NUM_FEWSHOT = 0 # Change with your few shot
 # ---------------------------------------------------

     counterfactuals: list[str]  # symbol_counterfactual, etc.
     metrics: list[str]  # score
+# class TasksMib_Causalgraph(Enum):
+#     task0 = TaskMIB_Causalgraph(
+#         "MCQA",
+#         ["LlamaForCausalLM", "Qwen2ForCausalLM", "Gemma2ForCausalLM"],  # Updated model list
+#         [str(i) for i in range(32)],  # 0-31 layers
+#         "mcqa",
+#         ["output_token", "output_location"],
+#         ["symbol_counterfactual", "randomLetter_counterfactual",
+#          "answerPosition_counterfactual", "answerPosition_symbol_counterfactual"],
+#         ["score"]
+#     )
 class TasksMib_Causalgraph(Enum):
     task0 = TaskMIB_Causalgraph(
         "MCQA",
+        ["qwen2forcausallm", "gemma2forcausallm", "llamaforcausallm"],  # Match exact model names
         [str(i) for i in range(32)],  # 0-31 layers
         "mcqa",
         ["output_token", "output_location"],
+        ["randomLetter_counterfactual", "answerPosition_counterfactual",
+         "answerPosition_randomLetter_counterfactual"],  # Match exact counterfactual names
         ["score"]
     )
 NUM_FEWSHOT = 0 # Change with your few shot
 # ---------------------------------------------------

src/display/utils.py CHANGED Viewed

@@ -171,12 +171,12 @@ auto_eval_column_dict_mib_causalgraph.append(["method", ColumnContent, ColumnCon
 # For each model-task-intervention-counterfactual combination
 for task in TasksMib_Causalgraph:
-    for model in task.value.models:  # Use exact model names from JSON
-        model_name = model  # Don't convert to lowercase
         for layer in task.value.layers:
             for intervention in task.value.interventions:
                 for counterfactual in task.value.counterfactuals:
-                    col_name = f"{model_name}_layer{layer}_{intervention}_{counterfactual}"
                     auto_eval_column_dict_mib_causalgraph.append([
                         col_name,
                         ColumnContent,
@@ -184,7 +184,6 @@ for task in TasksMib_Causalgraph:
                     ])
 # Create the dataclass

 # For each model-task-intervention-counterfactual combination
 for task in TasksMib_Causalgraph:
+    for model in task.value.models:
         for layer in task.value.layers:
             for intervention in task.value.interventions:
                 for counterfactual in task.value.counterfactuals:
+                    # Match exact column format from DataFrame
+                    col_name = f"{model}_layer{layer}_{intervention}_{counterfactual}"
                     auto_eval_column_dict_mib_causalgraph.append([
                         col_name,
                         ColumnContent,
                     ])
 # Create the dataclass

src/populate.py CHANGED Viewed

@@ -180,16 +180,17 @@ def create_intervention_averaged_df(df: pd.DataFrame) -> pd.DataFrame:
     if 'eval_name' in df_copy.columns:
         df_copy = df_copy.drop('eval_name', axis=1)
-    # Group columns by model and task
     result_cols = {}
     for task in TasksMib_Causalgraph:
         for model in task.value.models:  # Will iterate over all three models
-            model = model.lower()
             for intervention in task.value.interventions:
-                col_name = f"{model}_{task.value.benchmark.lower()}_{intervention}"
-                matching_cols = [c for c in df_copy.columns if c.startswith(col_name)]
-                if matching_cols:
-                    result_cols[col_name] = matching_cols
     averaged_df = pd.DataFrame()
     if method_col is not None:

     if 'eval_name' in df_copy.columns:
         df_copy = df_copy.drop('eval_name', axis=1)
+    # Group columns by model and intervention
     result_cols = {}
     for task in TasksMib_Causalgraph:
         for model in task.value.models:  # Will iterate over all three models
             for intervention in task.value.interventions:
+                for counterfactual in task.value.counterfactuals:
+                    col_pattern = f"{model}_layer.*_{intervention}_{counterfactual}"
+                    matching_cols = [c for c in df_copy.columns if pd.Series(c).str.match(col_pattern).any()]
+                    if matching_cols:
+                        col_name = f"{model}_{intervention}_{counterfactual}"
+                        result_cols[col_name] = matching_cols
     averaged_df = pd.DataFrame()
     if method_col is not None: