Spaces:

FSMBench
/

Leaderboard

Sleeping

App Files Files Community

taesiri commited on Apr 14, 2024

Commit

e0656c6

1 Parent(s): ce7f029

update

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

.gitattributes +40 -0
app.py +83 -20
results-cot/Mixtral-8x7B-Instruct-v0.1.csv +3 -0
results-cot/{gpt-4v-CoT-Azure.csv → Mixtral-8x7B-Instruct-v0.1.jpg} +2 -2
results-cot/Mixtral-8x7B-Instruct-v0.1.pkl +3 -0
results-cot/{gpt-4v-CoT-Azure.jpg → Mixtral-8x7B-Instruct-v0.1.png} +2 -2
results-cot/Qwen1.5-72B-Chat.csv +3 -0
results-cot/{gpt-4v-CoT-Azure.pkl → Qwen1.5-72B-Chat.jpg} +2 -2
results-cot/Qwen1.5-72B-Chat.pkl +3 -0
results-cot/{gpt-4v-CoT-Azure.png → Qwen1.5-72B-Chat.png} +2 -2
results-cot/gemma-7b-it.csv +3 -0
results-cot/gemma-7b-it.jpg +3 -0
results-cot/gemma-7b-it.pkl +3 -0
results-cot/gemma-7b-it.png +3 -0
results-cot/{gpt-3.5-CoT.csv → gpt-3.5-turbo-0125.csv} +0 -0
results-cot/{gpt-3.5-CoT.jpg → gpt-3.5-turbo-0125.jpg} +0 -0
results-cot/{gpt-3.5-CoT.pkl → gpt-3.5-turbo-0125.pkl} +0 -0
results-cot/{gpt-3.5-CoT.png → gpt-3.5-turbo-0125.png} +0 -0
results-vision-CoT/gemini-pro-vision-CoT.csv +0 -3
results-vision-CoT/gemini-pro-vision-CoT.jpg +0 -3
results-vision-CoT/gemini-pro-vision-CoT.pkl +0 -3
results-vision-CoT/gemini-pro-vision-CoT.png +0 -3
results-vision/gemini-pro-vision-CoT.csv +0 -3
results-vision/gemini-pro-vision-CoT.jpg +0 -3
results-vision/gemini-pro-vision-CoT.pkl +0 -3
results-vision/gemini-pro-vision-CoT.png +0 -3
results-vision/gpt-4v-CoT.csv +0 -3
results-vision/gpt-4v-CoT.jpg +0 -3
results-vision/gpt-4v-CoT.pkl +0 -3
results-vision/gpt-4v-CoT.png +0 -3
results/CodeLlama-70b-Instruct-hf.csv +3 -0
results/{CodeLlama-70B.jpg → CodeLlama-70b-Instruct-hf.jpg} +0 -0
results/{CodeLlama-70B.pkl → CodeLlama-70b-Instruct-hf.pkl} +0 -0
results/{CodeLlama-70B.png → CodeLlama-70b-Instruct-hf.png} +0 -0
results/Llama-2-70b-chat-hf.csv +3 -0
results/Mistral-7B-Instruct-v0.2.csv +3 -0
results/Mixtral-8x7B-Instruct-v0.1.csv +3 -0
results/{Mixtral-8x7B-Instruct-0.1.jpg → Mixtral-8x7B-Instruct-v0.1.jpg} +0 -0
results/{Mixtral-8x7B-Instruct-0.1.pkl → Mixtral-8x7B-Instruct-v0.1.pkl} +0 -0
results/{Mixtral-8x7B-Instruct-0.1.png → Mixtral-8x7B-Instruct-v0.1.png} +0 -0
results/Qwen1.5-72B-Chat.csv +3 -0
results/StripedHyena-Nous-7B.csv +3 -0
results/Yi-34B-Chat.csv +3 -0
results/claude-3-haiku-20240307.csv +3 -0
results/{Claude-3-Haiku.jpg → claude-3-haiku-20240307.jpg} +0 -0
results/{Claude-3-Haiku.pkl → claude-3-haiku-20240307.pkl} +0 -0
results/{Claude-3-Haiku.png → claude-3-haiku-20240307.png} +0 -0
results/claude-3-opus-20240229.csv +3 -0
results/{Claude-3-Opus.jpg → claude-3-opus-20240229.jpg} +0 -0
results/{Claude-3-Opus.pkl → claude-3-opus-20240229.pkl} +0 -0

.gitattributes CHANGED Viewed

@@ -115,3 +115,43 @@ results-cot/gpt-4v-CoT-Azure.pkl filter=lfs diff=lfs merge=lfs -text
 results-cot/gpt-4v-CoT-Azure.csv filter=lfs diff=lfs merge=lfs -text
 results-vision-CoT/gemini-pro-vision-CoT.csv filter=lfs diff=lfs merge=lfs -text
 results-cot/gpt-3.5-CoT.csv filter=lfs diff=lfs merge=lfs -text

 results-cot/gpt-4v-CoT-Azure.csv filter=lfs diff=lfs merge=lfs -text
 results-vision-CoT/gemini-pro-vision-CoT.csv filter=lfs diff=lfs merge=lfs -text
 results-cot/gpt-3.5-CoT.csv filter=lfs diff=lfs merge=lfs -text
+results/claude-3-haiku-20240307.csv filter=lfs diff=lfs merge=lfs -text
+results/claude-3-opus-20240229.csv filter=lfs diff=lfs merge=lfs -text
+results-cot/gemma-7b-it.csv filter=lfs diff=lfs merge=lfs -text
+results-cot/gpt-3.5-turbo-0125.csv filter=lfs diff=lfs merge=lfs -text
+results/gpt-3.5-turbo-0125.csv filter=lfs diff=lfs merge=lfs -text
+results-cot/Mixtral-8x7B-Instruct-v0.1.csv filter=lfs diff=lfs merge=lfs -text
+results/gemma-7b-it.csv filter=lfs diff=lfs merge=lfs -text
+results-cot/Qwen1.5-72B-Chat.csv filter=lfs diff=lfs merge=lfs -text
+results/CodeLlama-70b-Instruct-hf.csv filter=lfs diff=lfs merge=lfs -text
+results/Mixtral-8x7B-Instruct-v0.1.csv filter=lfs diff=lfs merge=lfs -text
+results-cot/gemma-7b-it.pkl filter=lfs diff=lfs merge=lfs -text
+results/claude-3-haiku-20240307.pkl filter=lfs diff=lfs merge=lfs -text
+results/gemma-7b-it.pkl filter=lfs diff=lfs merge=lfs -text
+results-cot/gpt-3.5-turbo-0125.pkl filter=lfs diff=lfs merge=lfs -text
+results-cot/Mixtral-8x7B-Instruct-v0.1.pkl filter=lfs diff=lfs merge=lfs -text
+results/Mixtral-8x7B-Instruct-v0.1.pkl filter=lfs diff=lfs merge=lfs -text
+results/claude-3-opus-20240229.pkl filter=lfs diff=lfs merge=lfs -text
+results-cot/Qwen1.5-72B-Chat.pkl filter=lfs diff=lfs merge=lfs -text
+results/CodeLlama-70b-Instruct-hf.pkl filter=lfs diff=lfs merge=lfs -text
+results/gpt-3.5-turbo-0125.pkl filter=lfs diff=lfs merge=lfs -text
+results/claude-3-haiku-20240307.jpg filter=lfs diff=lfs merge=lfs -text
+results/claude-3-opus-20240229.jpg filter=lfs diff=lfs merge=lfs -text
+results/gpt-3.5-turbo-0125.jpg filter=lfs diff=lfs merge=lfs -text
+results-cot/gpt-3.5-turbo-0125.jpg filter=lfs diff=lfs merge=lfs -text
+results/Mixtral-8x7B-Instruct-v0.1.jpg filter=lfs diff=lfs merge=lfs -text
+results-cot/Qwen1.5-72B-Chat.jpg filter=lfs diff=lfs merge=lfs -text
+results/gemma-7b-it.jpg filter=lfs diff=lfs merge=lfs -text
+results-cot/Mixtral-8x7B-Instruct-v0.1.jpg filter=lfs diff=lfs merge=lfs -text
+results-cot/gemma-7b-it.jpg filter=lfs diff=lfs merge=lfs -text
+results/CodeLlama-70b-Instruct-hf.jpg filter=lfs diff=lfs merge=lfs -text
+results-cot/gemma-7b-it.png filter=lfs diff=lfs merge=lfs -text
+results-cot/gpt-3.5-turbo-0125.png filter=lfs diff=lfs merge=lfs -text
+results/gpt-3.5-turbo-0125.png filter=lfs diff=lfs merge=lfs -text
+results/CodeLlama-70b-Instruct-hf.png filter=lfs diff=lfs merge=lfs -text
+results/Mixtral-8x7B-Instruct-v0.1.png filter=lfs diff=lfs merge=lfs -text
+results/claude-3-opus-20240229.png filter=lfs diff=lfs merge=lfs -text
+results-cot/Mixtral-8x7B-Instruct-v0.1.png filter=lfs diff=lfs merge=lfs -text
+results-cot/Qwen1.5-72B-Chat.png filter=lfs diff=lfs merge=lfs -text
+results/claude-3-haiku-20240307.png filter=lfs diff=lfs merge=lfs -text
+results/gemma-7b-it.png filter=lfs diff=lfs merge=lfs -text

app.py CHANGED Viewed

@@ -10,7 +10,7 @@ vision_results = glob("results-vision/*.pkl")
 # Load CoT text benchmark results
 cot_text_results = glob("results-cot/*.pkl")
 # Load CoT vision benchmark results
-cot_vision_results = glob("results-vision-CoT/*.pkl")
 # Function to load data, add model type and name
 def load_data(files, model_type):
@@ -27,18 +27,22 @@ def load_data(files, model_type):
 data = load_data(csv_results, "Text Only")
 vision_data = load_data(vision_results, "Vision")
 cot_text_data = load_data(cot_text_results, "CoT Text Only")
-cot_vision_data = load_data(cot_vision_results, "CoT Vision")
 # Combine all data into a single DataFrame
 all_data = pd.concat(
-    [data, vision_data, cot_text_data, cot_vision_data], ignore_index=True
 )
 all_model_names = all_data["Model Name"].unique()
 all_text_only_model_names = list(
     all_data[all_data["Model Type"] == "Text Only"]["Model Name"].unique()
 )
-print(all_text_only_model_names)
 ## Continue with the cold code --
 # TODO: Update me to read from all_data for later
@@ -50,7 +54,7 @@ vision_data = {file: pd.read_pickle(file) for file in vision_results}
 # Load the CoT text files into a dict
 cot_text_data = {file: pd.read_pickle(file) for file in cot_text_results}
 # Load the CoT vision files into a dict
-cot_vision_data = {file: pd.read_pickle(file) for file in cot_vision_results}
 def calculate_accuracy(df):
@@ -96,13 +100,13 @@ def process_data(data):
 text_data_for_df = process_data(data)
 vision_data_for_df = process_data(vision_data)
 cot_text_data_for_df = process_data(cot_text_data)
-cot_vision_data_for_df = process_data(cot_vision_data)
 # Create DataFrames
 accuracy_df = pd.DataFrame(text_data_for_df, columns=column_names)
 vision_accuracy_df = pd.DataFrame(vision_data_for_df, columns=column_names)
 cot_text_accuracy_df = pd.DataFrame(cot_text_data_for_df, columns=column_names)
-cot_vision_accuracy_df = pd.DataFrame(cot_vision_data_for_df, columns=column_names)
 # Function to finalize DataFrame
 def finalize_df(df):
@@ -117,7 +121,7 @@ def finalize_df(df):
 accuracy_df = finalize_df(accuracy_df)
 vision_accuracy_df = finalize_df(vision_accuracy_df)
 cot_text_accuracy_df = finalize_df(cot_text_accuracy_df)
-cot_vision_accuracy_df = finalize_df(cot_vision_accuracy_df)
 def load_heatmap(evt: gr.SelectData):
@@ -176,6 +180,43 @@ def calculate_order_by_first_substring(selected_models):
     return text_only_filtered, number_of_queries, number_of_fsms
 with gr.Blocks() as demo:
     gr.Markdown("# FSM Benchmark Leaderboard")
     with gr.Tab("Text-only Benchmark"):
@@ -196,8 +237,8 @@ with gr.Blocks() as demo:
             fn=load_vision_heatmap, outputs=[heatmap_image_vision]
         )
-    with gr.Tab("CoT Text-only Benchmark"):
-        gr.Markdown("# CoT Text-only Leaderboard")
         cot_leader_board_text = gr.Dataframe(
             cot_text_accuracy_df, headers=headers_with_icons
         )
@@ -207,16 +248,16 @@ with gr.Blocks() as demo:
             fn=load_cot_heatmap, outputs=[cot_heatmap_image_text]
         )
-    with gr.Tab("CoT Vision Benchmark"):
-        gr.Markdown("# CoT Vision Benchmark Leaderboard")
-        cot_leader_board_vision = gr.Dataframe(
-            cot_vision_accuracy_df, headers=headers_with_icons
-        )
-        gr.Markdown("## Heatmap")
-        cot_heatmap_image_vision = gr.Image(label="", show_label=False)
-        cot_leader_board_vision.select(
-            fn=load_cot_vision_heatmap, outputs=[cot_heatmap_image_vision]
-        )
     with gr.Tab("Constraint Text-only Results"):
         gr.Markdown("## Constraint Text-only Leaderboard by first substring")
@@ -240,4 +281,26 @@ with gr.Blocks() as demo:
         queue=True,
     )
     demo.launch()

 # Load CoT text benchmark results
 cot_text_results = glob("results-cot/*.pkl")
 # Load CoT vision benchmark results
+# cot_vision_results = glob("results-vision-CoT/*.pkl")
 # Function to load data, add model type and name
 def load_data(files, model_type):
 data = load_data(csv_results, "Text Only")
 vision_data = load_data(vision_results, "Vision")
 cot_text_data = load_data(cot_text_results, "CoT Text Only")
+# cot_vision_data = load_data(cot_vision_results, "CoT Vision")
 # Combine all data into a single DataFrame
 all_data = pd.concat(
+    [data, vision_data, cot_text_data], ignore_index=True
 )
 all_model_names = all_data["Model Name"].unique()
 all_text_only_model_names = list(
     all_data[all_data["Model Type"] == "Text Only"]["Model Name"].unique()
 )
+all_cot_text_only_models = list(
+    all_data[all_data["Model Type"] == "CoT Text Only"]["Model Name"].unique()
+)
 ## Continue with the cold code --
 # TODO: Update me to read from all_data for later
 # Load the CoT text files into a dict
 cot_text_data = {file: pd.read_pickle(file) for file in cot_text_results}
 # Load the CoT vision files into a dict
+# cot_vision_data = {file: pd.read_pickle(file) for file in cot_vision_results}
 def calculate_accuracy(df):
 text_data_for_df = process_data(data)
 vision_data_for_df = process_data(vision_data)
 cot_text_data_for_df = process_data(cot_text_data)
+# cot_vision_data_for_df = process_data(cot_vision_data)
 # Create DataFrames
 accuracy_df = pd.DataFrame(text_data_for_df, columns=column_names)
 vision_accuracy_df = pd.DataFrame(vision_data_for_df, columns=column_names)
 cot_text_accuracy_df = pd.DataFrame(cot_text_data_for_df, columns=column_names)
+# cot_vision_accuracy_df = pd.DataFrame(cot_vision_data_for_df, columns=column_names)
 # Function to finalize DataFrame
 def finalize_df(df):
 accuracy_df = finalize_df(accuracy_df)
 vision_accuracy_df = finalize_df(vision_accuracy_df)
 cot_text_accuracy_df = finalize_df(cot_text_accuracy_df)
+# cot_vision_accuracy_df = finalize_df(cot_vision_accuracy_df)
 def load_heatmap(evt: gr.SelectData):
     return text_only_filtered, number_of_queries, number_of_fsms
+def calculate_order_by_first_substring_cot(selected_models):
+    first_columns = all_data[all_data["substring_index"] == 1]
+    query_ids_df = first_columns[first_columns["Model Type"] == "CoT Text Only"]
+    query_ids_df = query_ids_df[query_ids_df["Model Name"].isin(selected_models)]
+    query_ids_df = query_ids_df.groupby("query_id").filter(
+        lambda x: x["parsed_judge_response"].eq(1).all()
+    )
+    fsm_ids = query_ids_df.fsm_id.unique()
+    text_only = all_data[all_data["Model Type"] == "CoT Text Only"]
+    text_only_filtered = text_only[text_only["fsm_id"].isin(fsm_ids)]
+    query_ids = text_only_filtered.query_id.unique()
+    text_only_filtered = (
+        text_only_filtered.groupby(["Model Name"])["parsed_judge_response"]
+        .mean()
+        .reset_index()
+    )
+    text_only_filtered["Accuracy"] = text_only_filtered["parsed_judge_response"] * 100
+    text_only_filtered.drop("parsed_judge_response", axis=1, inplace=True)
+    text_only_filtered["Accuracy"] = text_only_filtered["Accuracy"].apply(
+        lambda x: round(x, 2)
+    )
+    text_only_filtered.sort_values("Accuracy", ascending=False, inplace=True)
+    number_of_queries = len(query_ids)
+    number_of_fsms = len(fsm_ids)
+    return text_only_filtered, number_of_queries, number_of_fsms
 with gr.Blocks() as demo:
     gr.Markdown("# FSM Benchmark Leaderboard")
     with gr.Tab("Text-only Benchmark"):
             fn=load_vision_heatmap, outputs=[heatmap_image_vision]
         )
+    with gr.Tab("Text-only Benchmark (CoT)"):
+        gr.Markdown("# Text-only Leaderboard (CoT)")
         cot_leader_board_text = gr.Dataframe(
             cot_text_accuracy_df, headers=headers_with_icons
         )
             fn=load_cot_heatmap, outputs=[cot_heatmap_image_text]
         )
+    # with gr.Tab("Vision Benchmark (CoT)"):
+    #     gr.Markdown("# Vision Benchmark Leaderboard (CoT)")
+    #     cot_leader_board_vision = gr.Dataframe(
+    #         cot_vision_accuracy_df, headers=headers_with_icons
+    #     )
+    #     gr.Markdown("## Heatmap")
+    #     cot_heatmap_image_vision = gr.Image(label="", show_label=False)
+    #     cot_leader_board_vision.select(
+    #         fn=load_cot_vision_heatmap, outputs=[cot_heatmap_image_vision]
+    #     )
     with gr.Tab("Constraint Text-only Results"):
         gr.Markdown("## Constraint Text-only Leaderboard by first substring")
         queue=True,
     )
+    with gr.Tab("Constraint Text-only Results (CoT)"):
+        gr.Markdown("## Constraint Text-only Leaderboard by first substrin (CoT)")
+        included_models_cot = gr.CheckboxGroup(
+            label="Models to include",
+            choices=all_cot_text_only_models,
+            value=all_cot_text_only_models,
+            interactive=True,
+        )
+        with gr.Row():
+            number_of_queries_cot = gr.Textbox(label="Number of included queries")
+            number_of_fsms_cot = gr.Textbox(label="Number of included  FSMs")
+        constrained_leader_board_text_cot = gr.Dataframe()
+    included_models_cot.select(
+        fn=calculate_order_by_first_substring_cot,
+        inputs=[included_models_cot],
+        outputs=[constrained_leader_board_text_cot, number_of_queries_cot, number_of_fsms_cot],
+        queue=True,
+    )
     demo.launch()

results-cot/Mixtral-8x7B-Instruct-v0.1.csv ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:093e919d90609c3be8d6818cf56ca018214da3a42b78aeaf85f92581b72c5ad4
+size 19494123

results-cot/{gpt-4v-CoT-Azure.csv → Mixtral-8x7B-Instruct-v0.1.jpg} RENAMED Viewed

File without changes

results-cot/Mixtral-8x7B-Instruct-v0.1.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:686692584c6ba027c454d699bbf585b95e5c99bfc426810ea74b327a975b9cf3
+size 19489822

results-cot/{gpt-4v-CoT-Azure.jpg → Mixtral-8x7B-Instruct-v0.1.png} RENAMED Viewed

File without changes

results-cot/Qwen1.5-72B-Chat.csv ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:32681449776facf1084405001e69ed7926b79c69f9717fb159e3eb064b333636
+size 15795431

results-cot/{gpt-4v-CoT-Azure.pkl → Qwen1.5-72B-Chat.jpg} RENAMED Viewed

File without changes

results-cot/Qwen1.5-72B-Chat.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1c20383298d4b6482ca7c30bf91822e24099dc67b71a3be10271005e25208c40
+size 15778970

results-cot/{gpt-4v-CoT-Azure.png → Qwen1.5-72B-Chat.png} RENAMED Viewed

File without changes

results-cot/gemma-7b-it.csv ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f8535fa3f2ef5a94b1b552859930e0476ca0f3c77ec4c277893a9ab9ef45d6c3
+size 16793758

results-cot/gemma-7b-it.jpg ADDED Viewed

Git LFS Details

SHA256: 28be12e5ad08179e972700c578cc8089b946407e17effa2e25fb2d5129894918
Pointer size: 132 Bytes
Size of remote file: 1.34 MB

results-cot/gemma-7b-it.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3c581027f8b78df5934117276cec3e53613f5ac953d045f71af4121b3ec2e1a4
+size 16822239

results-cot/gemma-7b-it.png ADDED Viewed

Git LFS Details

SHA256: 5d10e044726def8fdebc8bd89b6cda148c315fd8d808dd7f168d4c5dbf92c2f2
Pointer size: 132 Bytes
Size of remote file: 1.01 MB

results-cot/{gpt-3.5-CoT.csv → gpt-3.5-turbo-0125.csv} RENAMED Viewed

File without changes

results-cot/{gpt-3.5-CoT.jpg → gpt-3.5-turbo-0125.jpg} RENAMED Viewed

File without changes

results-cot/{gpt-3.5-CoT.pkl → gpt-3.5-turbo-0125.pkl} RENAMED Viewed

File without changes

results-cot/{gpt-3.5-CoT.png → gpt-3.5-turbo-0125.png} RENAMED Viewed

File without changes

results-vision-CoT/gemini-pro-vision-CoT.csv DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:1ebebe1d6caee19a4f714bf13eaba72e7a0b5d15281c407cd4dc53a2820ad312
-size 6184119

results-vision-CoT/gemini-pro-vision-CoT.jpg DELETED Viewed

Git LFS Details

SHA256: fed7a1736c7550edca80305d90c975e36da47331bc67f824c23b6bb5525289b4
Pointer size: 132 Bytes
Size of remote file: 1.33 MB

results-vision-CoT/gemini-pro-vision-CoT.pkl DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:049d575dbad9da04496fea752e19f915bcec445b13f3010f9c67544012c936ff
-size 6144275

results-vision-CoT/gemini-pro-vision-CoT.png DELETED Viewed

Git LFS Details

SHA256: 49ab8af8d2e3d2fb671b375a830808eb92a84e0faef35d2844f8eed62bd6acf5
Pointer size: 132 Bytes
Size of remote file: 1.01 MB

results-vision/gemini-pro-vision-CoT.csv DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:1ebebe1d6caee19a4f714bf13eaba72e7a0b5d15281c407cd4dc53a2820ad312
-size 6184119

results-vision/gemini-pro-vision-CoT.jpg DELETED Viewed

Git LFS Details

SHA256: fed7a1736c7550edca80305d90c975e36da47331bc67f824c23b6bb5525289b4
Pointer size: 132 Bytes
Size of remote file: 1.33 MB

results-vision/gemini-pro-vision-CoT.pkl DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:049d575dbad9da04496fea752e19f915bcec445b13f3010f9c67544012c936ff
-size 6144275

results-vision/gemini-pro-vision-CoT.png DELETED Viewed

Git LFS Details

SHA256: 49ab8af8d2e3d2fb671b375a830808eb92a84e0faef35d2844f8eed62bd6acf5
Pointer size: 132 Bytes
Size of remote file: 1.01 MB

results-vision/gpt-4v-CoT.csv DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:04b4de1a7a4280354c89609d15282109ee60f8f58129960dc0edbb046b12a5c6
-size 6374181

results-vision/gpt-4v-CoT.jpg DELETED Viewed

Git LFS Details

SHA256: 6d63da74c747dc220638351069b927925aaa34e580e2c00e70dd29e0d2cefebb
Pointer size: 132 Bytes
Size of remote file: 1.33 MB

results-vision/gpt-4v-CoT.pkl DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:52ae5e417e011db84976acd51a024eae7ccea1e686b7f3f0e8158cd77be4f847
-size 6320889

results-vision/gpt-4v-CoT.png DELETED Viewed

Git LFS Details

SHA256: b8a96d76a726ab67813368f0a630576aee5cda6b5264c2edc65af93932fe4a32
Pointer size: 132 Bytes
Size of remote file: 1.01 MB

results/CodeLlama-70b-Instruct-hf.csv ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3726905a1656174f3c29edfced6f2eec63222f6be8965c0d970264901d8cfc75
+size 16476347

results/{CodeLlama-70B.jpg → CodeLlama-70b-Instruct-hf.jpg} RENAMED Viewed

File without changes

results/{CodeLlama-70B.pkl → CodeLlama-70b-Instruct-hf.pkl} RENAMED Viewed

File without changes

results/{CodeLlama-70B.png → CodeLlama-70b-Instruct-hf.png} RENAMED Viewed

File without changes

results/Llama-2-70b-chat-hf.csv ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:42a31de917b05ed5405474a348d072426474a8fb2ce7ff462dbb121e25f4b6ad
+size 20760268

results/Mistral-7B-Instruct-v0.2.csv ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:29ad4985661fc41e659a631fc74ba433cd08a571048f11436ccf87ff74f0db09
+size 27242025

results/Mixtral-8x7B-Instruct-v0.1.csv ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a93e2b963a5ac8129b5284f3fd7987964ef96fa0e64194de704a3549c611de1f
+size 17978176

results/{Mixtral-8x7B-Instruct-0.1.jpg → Mixtral-8x7B-Instruct-v0.1.jpg} RENAMED Viewed

File without changes

results/{Mixtral-8x7B-Instruct-0.1.pkl → Mixtral-8x7B-Instruct-v0.1.pkl} RENAMED Viewed

File without changes

results/{Mixtral-8x7B-Instruct-0.1.png → Mixtral-8x7B-Instruct-v0.1.png} RENAMED Viewed

File without changes

results/Qwen1.5-72B-Chat.csv ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0ba395c0b55330f689827527831e57e50ae9d824b6635b2bb569713afcf26d4b
+size 14219193

results/StripedHyena-Nous-7B.csv ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f662367ea0d33a368aaa7a72cfeed41d2f3dc05be6289a6fe485a028c7cb98d5
+size 29219512

results/Yi-34B-Chat.csv ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f7f09fb5f46ca144490bcb42ec89dd27f169680493501c211bf2bcfcd908da1c
+size 20485423

results/claude-3-haiku-20240307.csv ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:45623535997485afdee5b0312f2b5fdcc26cf531fbb56b6c3af6e126dfbe7b0f
+size 19570166

results/{Claude-3-Haiku.jpg → claude-3-haiku-20240307.jpg} RENAMED Viewed

File without changes

results/{Claude-3-Haiku.pkl → claude-3-haiku-20240307.pkl} RENAMED Viewed

File without changes

results/{Claude-3-Haiku.png → claude-3-haiku-20240307.png} RENAMED Viewed

File without changes

results/claude-3-opus-20240229.csv ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0d902999bcee4798b81644b2ff0ea78280dd46bc310909154c1ef089adf82789
+size 20131397

results/{Claude-3-Opus.jpg → claude-3-opus-20240229.jpg} RENAMED Viewed

File without changes

results/{Claude-3-Opus.pkl → claude-3-opus-20240229.pkl} RENAMED Viewed

File without changes