CodeReviewBench

Sleeping

App Files Files Community

Alex commited on Jul 2

Commit

ffff7f4

1 Parent(s): c762a51

error

Browse files

Files changed (1) hide show

app.py +36 -6

app.py CHANGED Viewed

@@ -70,20 +70,50 @@ def _flatten_entry(entry: Dict) -> Dict:
         "Pass@1": entry["llm_pass_1"],
         "Pass@5": entry["llm_pass_5"],
         "Pass@10": entry["llm_pass_10"],
     }
-    for metric_name, score in entry["metrics"].items():
-        flat[metric_name.replace("_", " ").title()] = score
     return flat
-def _table_data() -> List[Dict]:
     data = _load_leaderboard()
     if not data:
         # Return empty list if no data
         return []
     # Sort descending by pass@1 as requested
     data.sort(key=lambda x: x["llm_pass_1"], reverse=True)
-    return [_flatten_entry(e) for e in data]
 # --------------- Gradio callbacks ---------------
@@ -127,7 +157,7 @@ def submit_model(
             },
         )
     except Exception as e:
-        return gr.update(value=_table_data()), gr.update(value=f"❌ Submission failed: {e}")
     data = _load_leaderboard()
     # Replace existing model entry if any
@@ -135,7 +165,7 @@ def submit_model(
     data.append(entry.dict())
     _save_leaderboard(data)
-    return gr.update(value=_table_data()), gr.update(value="✅ Submission recorded!")
 # --------------- Interface ---------------

         "Pass@1": entry["llm_pass_1"],
         "Pass@5": entry["llm_pass_5"],
         "Pass@10": entry["llm_pass_10"],
+        "Readability": entry["metrics"]["readability"],
+        "Relevance": entry["metrics"]["relevance"],
+        "Explanation Clarity": entry["metrics"]["explanation_clarity"],
+        "Problem Identification": entry["metrics"]["problem_identification"],
+        "Actionability": entry["metrics"]["actionability"],
+        "Completeness": entry["metrics"]["completeness"],
+        "Specificity": entry["metrics"]["specificity"],
+        "Contextual Adequacy": entry["metrics"]["contextual_adequacy"],
+        "Consistency": entry["metrics"]["consistency"],
+        "Brevity": entry["metrics"]["brevity"],
     }
     return flat
+def _table_data() -> List[List]:
     data = _load_leaderboard()
     if not data:
         # Return empty list if no data
         return []
     # Sort descending by pass@1 as requested
     data.sort(key=lambda x: x["llm_pass_1"], reverse=True)
+    # Convert to list of lists for Gradio table
+    table_rows = []
+    for entry in data:
+        row = [
+            entry["model_name"],
+            entry["bleu"],
+            entry["llm_pass_1"],
+            entry["llm_pass_5"],
+            entry["llm_pass_10"],
+            entry["metrics"]["readability"],
+            entry["metrics"]["relevance"],
+            entry["metrics"]["explanation_clarity"],
+            entry["metrics"]["problem_identification"],
+            entry["metrics"]["actionability"],
+            entry["metrics"]["completeness"],
+            entry["metrics"]["specificity"],
+            entry["metrics"]["contextual_adequacy"],
+            entry["metrics"]["consistency"],
+            entry["metrics"]["brevity"],
+        ]
+        table_rows.append(row)
+    return table_rows
 # --------------- Gradio callbacks ---------------
             },
         )
     except Exception as e:
+        return _table_data(), f"❌ Submission failed: {e}"
     data = _load_leaderboard()
     # Replace existing model entry if any
     data.append(entry.dict())
     _save_leaderboard(data)
+    return _table_data(), "✅ Submission recorded!"
 # --------------- Interface ---------------