Advanced_Embeddings_Comparator

Build error

App Files Files Community

Chris4K commited on Oct 17, 2024

Commit

1754322

verified ·

1 Parent(s): e9d5e9c

Update app.py

Browse files

Files changed (1) hide show

app.py +23 -19

app.py CHANGED Viewed

@@ -155,18 +155,8 @@ def calculate_statistics(results, search_time):
         "search_time": search_time
     }
-def format_results(results, stats):
-    df = pd.DataFrame([
-        {
-            "Content": doc.page_content,
-            "Source": doc.metadata.get("source", "Unknown"),
-            "Relevance Score": doc.metadata.get("score", "N/A")
-        } for doc in results
-    ])
-    formatted_stats = pd.DataFrame([stats])
-    return gr.DataFrame(df), gr.DataFrame(formatted_stats)
 def compare_embeddings(file, query, model_types, model_names, split_strategy, chunk_size, overlap_size, custom_separators, vector_store_type, search_type, top_k):
     all_results = []
@@ -195,11 +185,24 @@ def compare_embeddings(file, query, model_types, model_names, split_strategy, ch
         stats = calculate_statistics(results, search_time)
         stats["model"] = f"{model_type} - {model_name}"
-        all_results.append(results)
-        all_stats.append(stats)
-    # Flatten the return values to match Gradio's expectation for each output
-    return [item for sublist in all_results for item in sublist] + [item for sublist in all_stats for item in sublist]
 # Gradio interface
 iface = gr.Interface(
@@ -217,9 +220,10 @@ iface = gr.Interface(
         gr.Radio(choices=["similarity", "mmr"], label="Search Type", value="similarity"),
         gr.Slider(1, 10, step=1, value=5, label="Top K")
     ],
-    #outputs=[gr.DataFrame(label="Results"), gr.DataFrame(label="Statistics")] * len(MODELS),
-    outputs = [gr.Text(label=f"Results {i+1}") for i in range(len(MODELS)-1)] + \
-          [gr.Text(label=f"Statistics {i+1}") for i in range(len(MODELS)-1)],
     title="Embedding Comparison Tool",
     description="Compare different embedding models and retrieval strategies"
 )

         "search_time": search_time
     }
+import gradio as gr
+import pandas as pd
 def compare_embeddings(file, query, model_types, model_names, split_strategy, chunk_size, overlap_size, custom_separators, vector_store_type, search_type, top_k):
     all_results = []
         stats = calculate_statistics(results, search_time)
         stats["model"] = f"{model_type} - {model_name}"
+        formatted_results, formatted_stats = format_results(results, stats)
+        all_results.append(formatted_results)
+        all_stats.append(formatted_stats)
+    return all_results + all_stats
+def format_results(results, stats):
+    df = pd.DataFrame([
+        {
+            "Content": doc.page_content,
+            "Source": doc.metadata.get("source", "Unknown"),
+            "Relevance Score": doc.metadata.get("score", "N/A")
+        } for doc in results
+    ])
+    formatted_stats = pd.DataFrame([stats])
+    return df, formatted_stats
 # Gradio interface
 iface = gr.Interface(
         gr.Radio(choices=["similarity", "mmr"], label="Search Type", value="similarity"),
         gr.Slider(1, 10, step=1, value=5, label="Top K")
     ],
+    outputs=[
+        gr.Dataframe(label="Results"),
+        gr.Dataframe(label="Statistics")
+    ],
     title="Embedding Comparison Tool",
     description="Compare different embedding models and retrieval strategies"
 )