Spaces:

FSMBench
/

Leaderboard

Sleeping

App Files Files Community

taesiri commited on May 2, 2024

Commit

3427ab9

1 Parent(s): d02e6ef

update

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

.gitattributes +50 -0
app.py +106 -124
results/CodeLlama-70b-Instruct-hf.jpg → heatmaps/CodeLlama-70b-Instruct-hf_CoT.jpg +2 -2
results/GPT-4-0125-preview.png → heatmaps/CodeLlama-70b-Instruct-hf_Textonly.jpg +2 -2
results/CodeLlama-70b-Instruct-hf.png → heatmaps/Llama-2-70b-chat-hf_CoT.jpg +2 -2
results/GPT-4-0125-preview.jpg → heatmaps/Llama-2-70b-chat-hf_Textonly.jpg +2 -2
heatmaps/Llama-3-70b-chat-hf_CoT.jpg +3 -0
heatmaps/Llama-3-70b-chat-hf_Textonly.jpg +3 -0
heatmaps/Mistral-7B-Instruct-v0.2_CoT.jpg +3 -0
heatmaps/Mistral-7B-Instruct-v0.2_Textonly.jpg +3 -0
heatmaps/Mixtral-8x7B-Instruct-v0.1_CoT.jpg +3 -0
heatmaps/Mixtral-8x7B-Instruct-v0.1_Textonly.jpg +3 -0
heatmaps/Qwen1.5-72B-Chat_CoT.jpg +3 -0
heatmaps/Qwen1.5-72B-Chat_Textonly.jpg +3 -0
heatmaps/Yi-34B-Chat_CoT.jpg +3 -0
heatmaps/Yi-34B-Chat_Textonly.jpg +3 -0
heatmaps/claude-3-haiku-20240307_1shot.jpg +3 -0
heatmaps/claude-3-haiku-20240307_CoT.jpg +3 -0
heatmaps/claude-3-haiku-20240307_Textonly.jpg +3 -0
heatmaps/claude-3-haiku-20240307_vision-CoT.jpg +3 -0
heatmaps/claude-3-haiku-20240307_vision.jpg +3 -0
heatmaps/claude-3-opus-20240229_CoT.jpg +3 -0
heatmaps/claude-3-opus-20240229_Textonly.jpg +3 -0
heatmaps/claude-3-opus-20240229_vision-CoT.jpg +3 -0
heatmaps/claude-3-opus-20240229_vision.jpg +3 -0
heatmaps/claude-3-sonnet-20240229_CoT.jpg +3 -0
heatmaps/claude-3-sonnet-20240229_Textonly.jpg +3 -0
heatmaps/claude-3-sonnet-20240229_vision-CoT.jpg +3 -0
heatmaps/claude-3-sonnet-20240229_vision.jpg +3 -0
heatmaps/dbrx-instruct_CoT.jpg +3 -0
heatmaps/dbrx-instruct_Textonly.jpg +3 -0
heatmaps/deepseek-llm-67b-chat_CoT.jpg +3 -0
heatmaps/deepseek-llm-67b-chat_Textonly.jpg +3 -0
heatmaps/gemini-pro_CoT.jpg +3 -0
heatmaps/gemini-pro_vision-CoT.jpg +3 -0
heatmaps/gemini-pro_vision.jpg +3 -0
heatmaps/gemma-7b-it_CoT.jpg +3 -0
heatmaps/gemma-7b-it_Textonly.jpg +3 -0
heatmaps/gpt-3.5-0613_CoT.jpg +3 -0
heatmaps/gpt-3.5-0613_Textonly.jpg +3 -0
heatmaps/gpt-3.5-turbo-0125_1shot.jpg +3 -0
heatmaps/gpt-3.5-turbo-0125_CoT.jpg +3 -0
heatmaps/gpt-3.5-turbo-0125_Textonly.jpg +3 -0
heatmaps/gpt-4-0125-preview_CoT.jpg +3 -0
heatmaps/gpt-4-0125-preview_Textonly.jpg +3 -0
heatmaps/gpt-4-1106_CoT.jpg +3 -0
heatmaps/gpt-4-1106_Textonly.jpg +3 -0
heatmaps/gpt-4-turbo-2024-04-09_CoT.jpg +3 -0
results/gpt-4-turbo-2024-04-09.jpg → heatmaps/gpt-4-turbo-2024-04-09_Textonly.jpg +0 -0
heatmaps/gpt-4-vision-preview_vision-CoT.jpg +3 -0

.gitattributes CHANGED Viewed

@@ -284,3 +284,53 @@ results/gpt-4-1106.pkl filter=lfs diff=lfs merge=lfs -text
 results/Llama-3-70b-chat-hf.pkl filter=lfs diff=lfs merge=lfs -text
 results/dbrx-instruct.pkl filter=lfs diff=lfs merge=lfs -text
 results/gpt-3.5-0613.pkl filter=lfs diff=lfs merge=lfs -text

 results/Llama-3-70b-chat-hf.pkl filter=lfs diff=lfs merge=lfs -text
 results/dbrx-instruct.pkl filter=lfs diff=lfs merge=lfs -text
 results/gpt-3.5-0613.pkl filter=lfs diff=lfs merge=lfs -text
+final_df.pkl filter=lfs diff=lfs merge=lfs -text
+heatmaps/claude-3-haiku-20240307_vision.jpg filter=lfs diff=lfs merge=lfs -text
+heatmaps/Mixtral-8x7B-Instruct-v0.1_Textonly.jpg filter=lfs diff=lfs merge=lfs -text
+heatmaps/claude-3-haiku-20240307_vision-CoT.jpg filter=lfs diff=lfs merge=lfs -text
+heatmaps/gpt-4-1106_Textonly.jpg filter=lfs diff=lfs merge=lfs -text
+heatmaps/gpt-4-vision-preview_vision-CoT.jpg filter=lfs diff=lfs merge=lfs -text
+heatmaps/dbrx-instruct_Textonly.jpg filter=lfs diff=lfs merge=lfs -text
+heatmaps/Llama-2-70b-chat-hf_CoT.jpg filter=lfs diff=lfs merge=lfs -text
+heatmaps/Llama-3-70b-chat-hf_CoT.jpg filter=lfs diff=lfs merge=lfs -text
+heatmaps/Llama-3-70b-chat-hf_Textonly.jpg filter=lfs diff=lfs merge=lfs -text
+heatmaps/Mistral-7B-Instruct-v0.2_Textonly.jpg filter=lfs diff=lfs merge=lfs -text
+heatmaps/claude-3-sonnet-20240229_vision.jpg filter=lfs diff=lfs merge=lfs -text
+heatmaps/CodeLlama-70b-Instruct-hf_CoT.jpg filter=lfs diff=lfs merge=lfs -text
+heatmaps/claude-3-haiku-20240307_Textonly.jpg filter=lfs diff=lfs merge=lfs -text
+heatmaps/gemma-7b-it_CoT.jpg filter=lfs diff=lfs merge=lfs -text
+heatmaps/gpt-4-0125-preview_CoT.jpg filter=lfs diff=lfs merge=lfs -text
+heatmaps/claude-3-haiku-20240307_CoT.jpg filter=lfs diff=lfs merge=lfs -text
+heatmaps/Mistral-7B-Instruct-v0.2_CoT.jpg filter=lfs diff=lfs merge=lfs -text
+heatmaps/Qwen1.5-72B-Chat_CoT.jpg filter=lfs diff=lfs merge=lfs -text
+heatmaps/gpt-3.5-turbo-0125_1shot.jpg filter=lfs diff=lfs merge=lfs -text
+heatmaps/claude-3-sonnet-20240229_Textonly.jpg filter=lfs diff=lfs merge=lfs -text
+heatmaps/Mixtral-8x7B-Instruct-v0.1_CoT.jpg filter=lfs diff=lfs merge=lfs -text
+heatmaps/gemma-7b-it_Textonly.jpg filter=lfs diff=lfs merge=lfs -text
+heatmaps/gpt-4-0125-preview_Textonly.jpg filter=lfs diff=lfs merge=lfs -text
+heatmaps/gpt-4-turbo-2024-04-09_Textonly.jpg filter=lfs diff=lfs merge=lfs -text
+heatmaps/claude-3-haiku-20240307_1shot.jpg filter=lfs diff=lfs merge=lfs -text
+heatmaps/claude-3-opus-20240229_Textonly.jpg filter=lfs diff=lfs merge=lfs -text
+heatmaps/deepseek-llm-67b-chat_CoT.jpg filter=lfs diff=lfs merge=lfs -text
+heatmaps/claude-3-opus-20240229_vision-CoT.jpg filter=lfs diff=lfs merge=lfs -text
+heatmaps/gemini-pro_vision-CoT.jpg filter=lfs diff=lfs merge=lfs -text
+heatmaps/gpt-3.5-0613_Textonly.jpg filter=lfs diff=lfs merge=lfs -text
+heatmaps/gpt-4-vision-preview_vision.jpg filter=lfs diff=lfs merge=lfs -text
+heatmaps/gemini-pro_CoT.jpg filter=lfs diff=lfs merge=lfs -text
+heatmaps/CodeLlama-70b-Instruct-hf_Textonly.jpg filter=lfs diff=lfs merge=lfs -text
+heatmaps/Qwen1.5-72B-Chat_Textonly.jpg filter=lfs diff=lfs merge=lfs -text
+heatmaps/Yi-34B-Chat_Textonly.jpg filter=lfs diff=lfs merge=lfs -text
+heatmaps/claude-3-sonnet-20240229_vision-CoT.jpg filter=lfs diff=lfs merge=lfs -text
+heatmaps/dbrx-instruct_CoT.jpg filter=lfs diff=lfs merge=lfs -text
+heatmaps/gemini-pro_vision.jpg filter=lfs diff=lfs merge=lfs -text
+heatmaps/gpt-3.5-0613_CoT.jpg filter=lfs diff=lfs merge=lfs -text
+heatmaps/gpt-4-1106_CoT.jpg filter=lfs diff=lfs merge=lfs -text
+heatmaps/gpt-4-turbo-2024-04-09_CoT.jpg filter=lfs diff=lfs merge=lfs -text
+heatmaps/Llama-2-70b-chat-hf_Textonly.jpg filter=lfs diff=lfs merge=lfs -text
+heatmaps/claude-3-opus-20240229_CoT.jpg filter=lfs diff=lfs merge=lfs -text
+heatmaps/gpt-3.5-turbo-0125_Textonly.jpg filter=lfs diff=lfs merge=lfs -text
+heatmaps/gpt-3.5-turbo-0125_CoT.jpg filter=lfs diff=lfs merge=lfs -text
+heatmaps/Yi-34B-Chat_CoT.jpg filter=lfs diff=lfs merge=lfs -text
+heatmaps/claude-3-opus-20240229_vision.jpg filter=lfs diff=lfs merge=lfs -text
+heatmaps/claude-3-sonnet-20240229_CoT.jpg filter=lfs diff=lfs merge=lfs -text
+heatmaps/deepseek-llm-67b-chat_Textonly.jpg filter=lfs diff=lfs merge=lfs -text

app.py CHANGED Viewed

@@ -7,27 +7,50 @@ import pandas as pd
 import seaborn as sns
 from matplotlib.colors import BoundaryNorm, ListedColormap
-all_results = pd.read_pickle("all_results.pkl")
-def get_accuracy_dataframe(df):
     # Calculate overall model accuracy
-    df['parsed_judge_response'] = df['parsed_judge_response'].astype(float)
-    model_accuracy = df.groupby('model_name')['parsed_judge_response'].mean().reset_index()
     # Calculate model accuracy per difficulty level
-    df['difficulty_level'] = df['difficulty_level'].astype(int)
-    model_accuracy_per_level = df.groupby(['model_name', 'difficulty_level'])['parsed_judge_response'].mean().reset_index()
-    model_accuracy_per_level_df = model_accuracy_per_level.pivot(index='model_name', columns='difficulty_level', values='parsed_judge_response')
     # Merge overall accuracy and level-based accuracy into a single DataFrame
-    model_accuracy_df = model_accuracy.merge(model_accuracy_per_level_df, on='model_name')
-    model_accuracy_df.rename(columns={1: 'level_1', 2: 'level_2', 3: 'level_3', 4: 'level_4', 5: 'level_5'}, inplace=True)
-    model_accuracy_df.rename(columns={'parsed_judge_response': 'Accuracy'}, inplace=True)
     # Multiply by 100 and format to one decimal point
-    model_accuracy_df = model_accuracy_df.applymap(lambda x: round(x * 100, 1) if isinstance(x, float) else x)
     # Add headers with icons
     model_accuracy_df.columns = [
         "🤖 Model Name",
@@ -40,13 +63,15 @@ def get_accuracy_dataframe(df):
     model_accuracy_df.sort_values(by="⭐ Overall", ascending=False, inplace=True)
-    # Add a new column at the beginning for the rank
-    model_accuracy_df.insert(0, '#', range(1, len(model_accuracy_df) + 1))
     return model_accuracy_df
-accuracy_df = get_accuracy_dataframe(all_results)
 # Define the column names with icons
@@ -68,126 +93,83 @@ column_names = [
     "Level 4 Accuracy",
 ]
-def load_heatmap(evt: gr.SelectData):
-    heatmap_image = gr.Image(f"results/{evt.value}.jpg")
     return heatmap_image
-# # Function to process data
-# def process_data(data):
-#     data_for_df = []
-#     for file, df in data.items():
-#         overall_accuracy = round(calculate_accuracy(df), 2)
-#         breakdown_accuracy = [round(acc, 2) for acc in accuracy_breakdown(df)]
-#         model_name = file.split("/")[-1].replace(".pkl", "")
-#         data_for_df.append([model_name, overall_accuracy] + breakdown_accuracy)
-#     return data_for_df
-# # Function to finalize DataFrame
-# def finalize_df(df):
-#     df = df.round(1)  # Round to one decimal place
-#     df = df.applymap(lambda x: f"{x:.1f}" if isinstance(x, (int, float)) else x)
-#     df.columns = headers_with_icons
-#     df.sort_values(by="⭐ Overall", ascending=False, inplace=True)
-#     # add a new column with the order (index)
-#     df["#"] = range(1, len(df) + 1)
-#     # bring rank to the first column
-#     cols = df.columns.tolist()
-#     cols = cols[-1:] + cols[:-1]
-#     df = df[cols]
-#     return df
-def load_heatmap(evt: gr.SelectData):
-    heatmap_image = gr.Image(f"results/{evt.value}.jpg")
     return heatmap_image
 with gr.Blocks() as demo:
     gr.Markdown("# FSM Benchmark Leaderboard")
     with gr.Tab("Text-only Benchmark"):
-        leader_board = gr.Dataframe(accuracy_df, headers=headers_with_icons)
         gr.Markdown("## Heatmap")
-        heatmap_image_qwen = gr.Image(label="", show_label=False)
-        leader_board.select(fn=load_heatmap, outputs=[heatmap_image_qwen])
-    # with gr.Tab("Vision Benchmark", visible=False):
-    #     gr.Markdown("# Vision Benchmark Leaderboard")
-    #     leader_board_vision = gr.Dataframe(
-    #         vision_accuracy_df, headers=headers_with_icons
-    #     )
-    #     gr.Markdown("## Heatmap")
-    #     heatmap_image_vision = gr.Image(label="", show_label=False)
-    #     leader_board_vision.select(
-    #         fn=load_vision_heatmap, outputs=[heatmap_image_vision]
-    #     )
-    # with gr.Tab("Text-only Benchmark (CoT)", visible=False):
-    #     gr.Markdown("# Text-only Leaderboard (CoT)")
-    #     cot_leader_board_text = gr.Dataframe(
-    #         cot_text_accuracy_df, headers=headers_with_icons
-    #     )
-    #     gr.Markdown("## Heatmap")
-    #     cot_heatmap_image_text = gr.Image(label="", show_label=False)
-    #     cot_leader_board_text.select(
-    #         fn=load_cot_heatmap, outputs=[cot_heatmap_image_text]
-    #     )
-    # with gr.Tab("Constraint Text-only Results (CoT)", visible=False):
-    #     gr.Markdown("## Constraint Text-only Leaderboard by first substrin (CoT)")
-    #     included_models_cot = gr.CheckboxGroup(
-    #         label="Models to include",
-    #         choices=all_cot_text_only_models,
-    #         value=all_cot_text_only_models,
-    #         interactive=True,
-    #     )
-    #     with gr.Row():
-    #         number_of_queries_cot = gr.Textbox(label="Number of included queries")
-    #         number_of_fsms_cot = gr.Textbox(label="Number of included  FSMs")
-    #     constrained_leader_board_text_cot = gr.Dataframe()
-    #     constrained_leader_board_plot_cot = gr.Plot()
-    # with gr.Tab("Majority Vote (Subset 1)", visible=False):
-    #     gr.Markdown("## Majority Vote (Subset 1)")
-    #     intersection_leader_board = gr.Dataframe(
-    #         intersection_df_acc, headers=headers_with_icons
-    #     )
-    #     heatmap_image = gr.Plot(label="Model Heatmap")
-    # with gr.Tab("Text-only Benchmark (deprecated)", visible=False):
-    #     gr.Markdown("# Text-only Leaderboard")
-    #     leader_board = gr.Dataframe(accuracy_df, headers=headers_with_icons)
-    #     gr.Markdown("## Heatmap")
-    #     heatmap_image = gr.Image(label="", show_label=False)
-    #     leader_board.select(fn=load_heatmap, outputs=[heatmap_image])
-    # # ============ Callbacks ============
-    # included_models_cot.select(
-    #     fn=calculate_order_by_first_substring_cot,
-    #     inputs=[included_models_cot],
-    #     outputs=[
-    #         constrained_leader_board_text_cot,
-    #         number_of_queries_cot,
-    #         number_of_fsms_cot,
-    #     ],
-    #     queue=True,
-    # )
-    # constrained_leader_board_text.select(
-    #     fn=show_constraint_heatmap, outputs=[constrained_leader_board_plot]
-    # )
-    # constrained_leader_board_text_cot.select(
-    #     fn=show_constraint_heatmap_cot, outputs=[constrained_leader_board_plot_cot]
-    # )
-    # intersection_leader_board.select(
-    #     fn=show_intersection_heatmap, outputs=[heatmap_image]
-    # )
     demo.launch()

 import seaborn as sns
 from matplotlib.colors import BoundaryNorm, ListedColormap
+all_results = pd.read_pickle("final_df.pkl")
+def get_accuracy_dataframe(df_mother, category):
     # Calculate overall model accuracy
+    # filter for category only
+    df = df_mother[df_mother["category"] == category].copy()
+    df["is_answer_correct"] = df["is_answer_correct"].astype(float)
+    model_accuracy = df.groupby("model")["is_answer_correct"].mean().reset_index()
     # Calculate model accuracy per difficulty level
+    df["difficulty_level"] = df["difficulty_level"].astype(int)
+    model_accuracy_per_level = (
+        df.groupby(["model", "difficulty_level"])["is_answer_correct"]
+        .mean()
+        .reset_index()
+    )
+    model_accuracy_per_level_df = model_accuracy_per_level.pivot(
+        index="model", columns="difficulty_level", values="is_answer_correct"
+    )
     # Merge overall accuracy and level-based accuracy into a single DataFrame
+    model_accuracy_df = model_accuracy.merge(model_accuracy_per_level_df, on="model")
+    model_accuracy_df.rename(
+        columns={"is_answer_correct": "Overall Accuracy"}, inplace=True
+    )
+    # Ensure all expected difficulty levels are present
+    expected_levels = [1, 2, 3, 4]  # Adjust based on your data
+    for level in expected_levels:
+        if level not in model_accuracy_df.columns:
+            model_accuracy_df[
+                level
+            ] = None  # Fill missing levels with None or an appropriate value
+    # Rename columns to include levels
+    level_columns = {level: f"Level {level} Accuracy" for level in expected_levels}
+    model_accuracy_df.rename(columns=level_columns, inplace=True)
     # Multiply by 100 and format to one decimal point
+    model_accuracy_df = model_accuracy_df.applymap(
+        lambda x: round(x * 100, 1) if isinstance(x, float) else x
+    )
     # Add headers with icons
     model_accuracy_df.columns = [
         "🤖 Model Name",
     model_accuracy_df.sort_values(by="⭐ Overall", ascending=False, inplace=True)
     return model_accuracy_df
+# categories = array(['1shot', 'CoT', 'Textonly', 'vision', 'vision-CoT'], dtype=object)
+accuracy_df_textonly = get_accuracy_dataframe(all_results, "Textonly")
+accuracy_df_cot = get_accuracy_dataframe(all_results, "CoT")
+accuracy_df_vision = get_accuracy_dataframe(all_results, "vision")
+accuracy_df_vision_cot = get_accuracy_dataframe(all_results, "vision-CoT")
+accuracy_df_1shot = get_accuracy_dataframe(all_results, "1shot")
 # Define the column names with icons
     "Level 4 Accuracy",
 ]
+def load_heatmap_textonly(evt: gr.SelectData):
+    print(f"./heatmaps/{evt.value}_Textonly.jpg")
+    heatmap_image = gr.Image(f"./heatmaps/{evt.value}_Textonly.jpg")
     return heatmap_image
+def load_heatmap_cot(evt: gr.SelectData):
+    heatmap_image = gr.Image(f"./heatmaps/{evt.value}_CoT.jpg")
+    return heatmap_image
+def load_heatmap_vision(evt: gr.SelectData):
+    heatmap_image = gr.Image(f"./heatmaps/{evt.value}_vision.jpg")
+    return heatmap_image
+def load_heatmap_vision_cot(evt: gr.SelectData):
+    heatmap_image = gr.Image(f"./heatmaps/{evt.value}_vision-CoT.jpg")
+    return heatmap_image
+def load_heatmap_1shot(evt: gr.SelectData):
+    heatmap_image = gr.Image(f"./heatmaps/{evt.value}_1shot.jpg")
     return heatmap_image
+# Then, use these functions in the corresponding select method calls:
 with gr.Blocks() as demo:
     gr.Markdown("# FSM Benchmark Leaderboard")
+    # Text-only Benchmark
     with gr.Tab("Text-only Benchmark"):
+        leader_board_textonly = gr.Dataframe(
+            accuracy_df_textonly, headers=headers_with_icons
+        )
+        gr.Markdown("## Heatmap")
+        heatmap_image_textonly = gr.Image(label="", show_label=False)
+        leader_board_textonly.select(
+            fn=load_heatmap_textonly, outputs=[heatmap_image_textonly]
+        )
+    # CoT Benchmark
+    with gr.Tab("CoT Benchmark"):
+        leader_board_cot = gr.Dataframe(accuracy_df_cot, headers=headers_with_icons)
+        gr.Markdown("## Heatmap")
+        heatmap_image_cot = gr.Image(label="", show_label=False)
+        leader_board_cot.select(fn=load_heatmap_cot, outputs=[heatmap_image_cot])
+    # Vision Benchmark
+    with gr.Tab("Vision Benchmark"):
+        leader_board_vision = gr.Dataframe(
+            accuracy_df_vision, headers=headers_with_icons
+        )
+        gr.Markdown("## Heatmap")
+        heatmap_image_vision = gr.Image(label="", show_label=False)
+        leader_board_vision.select(
+            fn=load_heatmap_vision, outputs=[heatmap_image_vision]
+        )
+    # Vision-CoT Benchmark
+    with gr.Tab("Vision-CoT Benchmark"):
+        leader_board_vision_cot = gr.Dataframe(
+            accuracy_df_vision_cot, headers=headers_with_icons
+        )
+        gr.Markdown("## Heatmap")
+        heatmap_image_vision_cot = gr.Image(label="", show_label=False)
+        leader_board_vision_cot.select(
+            fn=load_heatmap_vision_cot, outputs=[heatmap_image_vision_cot]
+        )
+    # 1shot Benchmark
+    with gr.Tab("1shot Benchmark"):
+        leader_board_1shot = gr.Dataframe(accuracy_df_1shot, headers=headers_with_icons)
         gr.Markdown("## Heatmap")
+        heatmap_image_1shot = gr.Image(label="", show_label=False)
+        leader_board_1shot.select(fn=load_heatmap_1shot, outputs=[heatmap_image_1shot])
     demo.launch()

results/CodeLlama-70b-Instruct-hf.jpg → heatmaps/CodeLlama-70b-Instruct-hf_CoT.jpg RENAMED Viewed

File without changes

results/GPT-4-0125-preview.png → heatmaps/CodeLlama-70b-Instruct-hf_Textonly.jpg RENAMED Viewed

File without changes

results/CodeLlama-70b-Instruct-hf.png → heatmaps/Llama-2-70b-chat-hf_CoT.jpg RENAMED Viewed

File without changes

results/GPT-4-0125-preview.jpg → heatmaps/Llama-2-70b-chat-hf_Textonly.jpg RENAMED Viewed

File without changes

heatmaps/Llama-3-70b-chat-hf_CoT.jpg ADDED Viewed

Git LFS Details

SHA256: 45e4e0dbdb6ecf372246158de9708088ce189d420c3cb7e8e101565802209833
Pointer size: 132 Bytes
Size of remote file: 1.28 MB

heatmaps/Llama-3-70b-chat-hf_Textonly.jpg ADDED Viewed

Git LFS Details

SHA256: 255d9bb5c182e5947463e7cec5bea78d8aef3b038bb74fa400aaa2c2d7cbe02a
Pointer size: 132 Bytes
Size of remote file: 1.29 MB

heatmaps/Mistral-7B-Instruct-v0.2_CoT.jpg ADDED Viewed

Git LFS Details

SHA256: a8cedc95db3dfedb187d1c690cb5d78a08547f083e276cf3c4946a9dab8d2fb9
Pointer size: 132 Bytes
Size of remote file: 1.32 MB

heatmaps/Mistral-7B-Instruct-v0.2_Textonly.jpg ADDED Viewed

Git LFS Details

SHA256: 8cfc569d1baca9826b010eeb90af43b0077ea533d7fc8c1ae494671b255cdf1f
Pointer size: 132 Bytes
Size of remote file: 1.32 MB

heatmaps/Mixtral-8x7B-Instruct-v0.1_CoT.jpg ADDED Viewed

Git LFS Details

SHA256: 7fd1c72aafdf96102115d66d1ef4e8941cd3e75007d4769f253913d92fd3ee11
Pointer size: 132 Bytes
Size of remote file: 1.32 MB

heatmaps/Mixtral-8x7B-Instruct-v0.1_Textonly.jpg ADDED Viewed

Git LFS Details

SHA256: 7433170eae759affb90bd714dcc655831503d483c82f9878bd3d5607a4448476
Pointer size: 132 Bytes
Size of remote file: 1.32 MB

heatmaps/Qwen1.5-72B-Chat_CoT.jpg ADDED Viewed

Git LFS Details

SHA256: 6b607383ae11aa64e0058dbfbc294c1366054ac3bd2910d7803de604ee75dcf5
Pointer size: 132 Bytes
Size of remote file: 1.31 MB

heatmaps/Qwen1.5-72B-Chat_Textonly.jpg ADDED Viewed

Git LFS Details

SHA256: ec21974c9b3987b565a2e152af9c2b33b1b15d054389a3ab8ca4635d67830c8c
Pointer size: 132 Bytes
Size of remote file: 1.31 MB

heatmaps/Yi-34B-Chat_CoT.jpg ADDED Viewed

Git LFS Details

SHA256: e486fb5d66e68c02cfefe02527ce9c9768742c3aefa98f218a4f45fa5f390bd2
Pointer size: 132 Bytes
Size of remote file: 1.33 MB

heatmaps/Yi-34B-Chat_Textonly.jpg ADDED Viewed

Git LFS Details

SHA256: 277071c8daf563feff3de2f0ce819bc56a3d2d2ba87d7862ff7684f1abd02bdb
Pointer size: 132 Bytes
Size of remote file: 1.32 MB

heatmaps/claude-3-haiku-20240307_1shot.jpg ADDED Viewed

Git LFS Details

SHA256: ba1d76eeccd60fab64bdba46234b5445bc8e827765c78f86cf1f7139cf5ac392
Pointer size: 132 Bytes
Size of remote file: 1.3 MB

heatmaps/claude-3-haiku-20240307_CoT.jpg ADDED Viewed

Git LFS Details

SHA256: c30a5e503b394d209b6b626efec0f8240061b2aa2f84043d2172179127cb1021
Pointer size: 132 Bytes
Size of remote file: 1.3 MB

heatmaps/claude-3-haiku-20240307_Textonly.jpg ADDED Viewed

Git LFS Details

SHA256: 11ceaabc9a0e37b39f419dbdc06d9db85154084ed752c857e4d6b66daa829741
Pointer size: 132 Bytes
Size of remote file: 1.3 MB

heatmaps/claude-3-haiku-20240307_vision-CoT.jpg ADDED Viewed

Git LFS Details

SHA256: c03395379bdfaf4f2a199a0b3b13b297d78a2e1a70dd0c466c155b2d1d76d5d0
Pointer size: 132 Bytes
Size of remote file: 1.32 MB

heatmaps/claude-3-haiku-20240307_vision.jpg ADDED Viewed

Git LFS Details

SHA256: 3f1237260665f554651e781141211f0a713167f68e61a6683ad652cc1f00020c
Pointer size: 132 Bytes
Size of remote file: 1.32 MB

heatmaps/claude-3-opus-20240229_CoT.jpg ADDED Viewed

Git LFS Details

SHA256: 382fa0ff6881fcc78056d4025343f521d5e047c370e6b4d20cbbb6ef140a1e46
Pointer size: 132 Bytes
Size of remote file: 1.21 MB

heatmaps/claude-3-opus-20240229_Textonly.jpg ADDED Viewed

Git LFS Details

SHA256: 576298ca335a6da82c6c7c4144639a4a92c2b902674430fab1eb38d91d93e5bb
Pointer size: 132 Bytes
Size of remote file: 1.21 MB

heatmaps/claude-3-opus-20240229_vision-CoT.jpg ADDED Viewed

Git LFS Details

SHA256: 1a6ac07ac9337a62d6b0152e6b3582405f5ded6197ec31e0370952f2df38c3be
Pointer size: 132 Bytes
Size of remote file: 1.33 MB

heatmaps/claude-3-opus-20240229_vision.jpg ADDED Viewed

Git LFS Details

SHA256: 5056abaef945199d6ef4e3833ae20ca763c80aff44ca59d991567637dee4d237
Pointer size: 132 Bytes
Size of remote file: 1.33 MB

heatmaps/claude-3-sonnet-20240229_CoT.jpg ADDED Viewed

Git LFS Details

SHA256: 97f3fcc436adf32351392db6fe0b36969554ecfef9f5a6be87d6cb73b59d3840
Pointer size: 132 Bytes
Size of remote file: 1.33 MB

heatmaps/claude-3-sonnet-20240229_Textonly.jpg ADDED Viewed

Git LFS Details

SHA256: 6e3d02435e530cf058e48fd6262d23131656aec109f09c64349fac30338a4988
Pointer size: 132 Bytes
Size of remote file: 1.29 MB

heatmaps/claude-3-sonnet-20240229_vision-CoT.jpg ADDED Viewed

Git LFS Details

SHA256: f63f154b6c312cd298c32cf805a00118922dd8fd7da1169a8b64d415740a1ebc
Pointer size: 132 Bytes
Size of remote file: 1.33 MB

heatmaps/claude-3-sonnet-20240229_vision.jpg ADDED Viewed

Git LFS Details

SHA256: ea55e964a1547d4462364c8f41ecbaf870af6cb151589bc45af03bbcc171afad
Pointer size: 132 Bytes
Size of remote file: 1.28 MB

heatmaps/dbrx-instruct_CoT.jpg ADDED Viewed

Git LFS Details

SHA256: 8720a093a238c8312629c46c0b54e62aa1a95059dce9ec5b269508450acd21a6
Pointer size: 132 Bytes
Size of remote file: 1.32 MB

heatmaps/dbrx-instruct_Textonly.jpg ADDED Viewed

Git LFS Details

SHA256: 208c1caeaa0c862c0cadb4a6f017906f1e1925383b09d6b9929732a71618984e
Pointer size: 132 Bytes
Size of remote file: 1.32 MB

heatmaps/deepseek-llm-67b-chat_CoT.jpg ADDED Viewed

Git LFS Details

SHA256: 0299b8c3d112641c428a5c77d368b92a8560908221b214a63b91a8f2ce97a070
Pointer size: 132 Bytes
Size of remote file: 1.32 MB

heatmaps/deepseek-llm-67b-chat_Textonly.jpg ADDED Viewed

Git LFS Details

SHA256: a59e661ad07580f7bd280be46e26caeec50fa082920bd4e0e7ad5be1653fb116
Pointer size: 132 Bytes
Size of remote file: 1.33 MB

heatmaps/gemini-pro_CoT.jpg ADDED Viewed

Git LFS Details

SHA256: e73ac717609221026e584cbf2ba76538d6091459eccb63763142faa8cd233a82
Pointer size: 132 Bytes
Size of remote file: 1.32 MB

heatmaps/gemini-pro_vision-CoT.jpg ADDED Viewed

Git LFS Details

SHA256: 116b2a07fb740560e59471347f4c6da6fbb251ef0a6cda7f4c3cd9cf8ef2beac
Pointer size: 132 Bytes
Size of remote file: 1.33 MB

heatmaps/gemini-pro_vision.jpg ADDED Viewed

Git LFS Details

SHA256: 36cc139756d58b144d03cffdd23df7a07a71f1a3b77d8544b35d24afbece3a10
Pointer size: 132 Bytes
Size of remote file: 1.33 MB

heatmaps/gemma-7b-it_CoT.jpg ADDED Viewed

Git LFS Details

SHA256: a7abc637ee1f0206737eeecef445c785c8de7d7a8830e1a4dd3934453c497dc1
Pointer size: 132 Bytes
Size of remote file: 1.34 MB

heatmaps/gemma-7b-it_Textonly.jpg ADDED Viewed

Git LFS Details

SHA256: e436e4d353b0de47a639aaf10fe1aa61ea59e9020b83924a6f38f023177c1631
Pointer size: 132 Bytes
Size of remote file: 1.32 MB

heatmaps/gpt-3.5-0613_CoT.jpg ADDED Viewed

Git LFS Details

SHA256: e36f991250d11adf955df905756e4abb8313fb2f46a06bb6e4fb1c1f117dd332
Pointer size: 132 Bytes
Size of remote file: 1.32 MB

heatmaps/gpt-3.5-0613_Textonly.jpg ADDED Viewed

Git LFS Details

SHA256: 57cc450248c9ce976f6eb76d148c75ff1087499a585c2dd12fd8c3c27e1f1ce2
Pointer size: 132 Bytes
Size of remote file: 1.32 MB

heatmaps/gpt-3.5-turbo-0125_1shot.jpg ADDED Viewed

Git LFS Details

SHA256: 45770b4c8e836e17cccb2ad73ed7894802f070fbfb760c166881a9ada6eccaa5
Pointer size: 132 Bytes
Size of remote file: 1.32 MB

heatmaps/gpt-3.5-turbo-0125_CoT.jpg ADDED Viewed

Git LFS Details

SHA256: 8ebed5226148f5222839dd16aec869786bf608e66320a77eadaaa2633808189c
Pointer size: 132 Bytes
Size of remote file: 1.32 MB

heatmaps/gpt-3.5-turbo-0125_Textonly.jpg ADDED Viewed

Git LFS Details

SHA256: 13f8baca85b9833cad9236fc7b94e0f645f5d9979d200eb49b086b2219ac7b7e
Pointer size: 132 Bytes
Size of remote file: 1.32 MB

heatmaps/gpt-4-0125-preview_CoT.jpg ADDED Viewed

Git LFS Details

SHA256: fa4af344d9bdf4aac858531ac565bc09235774629e0f4a6485f13b01bbb98835
Pointer size: 132 Bytes
Size of remote file: 1.23 MB

heatmaps/gpt-4-0125-preview_Textonly.jpg ADDED Viewed

Git LFS Details

SHA256: d339d6e1527fa18f390ca34ab0ba833a9a187109396c638f2e4ec1c16be11f3a
Pointer size: 132 Bytes
Size of remote file: 1.24 MB

heatmaps/gpt-4-1106_CoT.jpg ADDED Viewed

Git LFS Details

SHA256: ce05c6404989f6ec8653bfd7fe9839c536cdce24ef75f6cd1fdb4800eba766c3
Pointer size: 132 Bytes
Size of remote file: 1.23 MB

heatmaps/gpt-4-1106_Textonly.jpg ADDED Viewed

Git LFS Details

SHA256: ddf8c95dc35b8277b7a2b5e9a08e366f0152af08ee78c398f12bc083a29adb94
Pointer size: 132 Bytes
Size of remote file: 1.24 MB

heatmaps/gpt-4-turbo-2024-04-09_CoT.jpg ADDED Viewed

Git LFS Details

SHA256: 7b3e95c1c0459f483504cf4c34034ddb3a68bac4cbab158627af90034686b6d3
Pointer size: 132 Bytes
Size of remote file: 1.22 MB

results/gpt-4-turbo-2024-04-09.jpg → heatmaps/gpt-4-turbo-2024-04-09_Textonly.jpg RENAMED Viewed

File without changes

heatmaps/gpt-4-vision-preview_vision-CoT.jpg ADDED Viewed

Git LFS Details

SHA256: 910c2d4820c49249d143e390f500aa149f68ba00a56c3fcb0c61b2485e93d3ab
Pointer size: 132 Bytes
Size of remote file: 1.32 MB