Spaces:

minishlab
/

semantic-deduplication

Running

App Files Files Community

Pringled commited on Oct 12, 2024

Commit

7ed3881

1 Parent(s): 892ceeb

Updated app with code for deduplication

Browse files

Files changed (1) hide show

app.py +34 -25

app.py CHANGED Viewed

@@ -77,10 +77,10 @@ def perform_deduplication(
     dataset1_name,
     dataset1_split,
     dataset1_text_column,
-    dataset2_name,
-    dataset2_split,
-    dataset2_text_column,
-    threshold,
     progress=gr.Progress(track_tqdm=True)
 ):
     # Convert threshold to float
@@ -112,7 +112,6 @@ def perform_deduplication(
         # Show deduplicated examples
         result_text += "**Examples of duplicates found:**\n\n"
         num_examples = min(5, num_duplicates)
-        examples_shown = 0
         for duplicate_idx, original_idx in list(duplicate_to_original_mapping.items())[:num_examples]:
             original_text = texts[original_idx]
             duplicate_text = texts[duplicate_idx]
@@ -121,7 +120,6 @@ def perform_deduplication(
             result_text += f"**Duplicate text:**\n{duplicate_text}\n\n"
             result_text += f"**Differences:**\n{differences}\n"
             result_text += "-" * 50 + "\n\n"
-            examples_shown += 1
         return result_text
@@ -153,7 +151,6 @@ def perform_deduplication(
         # Show deduplicated examples
         result_text += "**Examples of duplicates found in Dataset 2:**\n\n"
         num_examples = min(5, num_duplicates)
-        examples_shown = 0
         for duplicate_idx in duplicate_indices_in_ds2[:num_examples]:
             original_idx = duplicate_to_original_mapping[duplicate_idx]
             original_text = texts1[original_idx]
@@ -163,42 +160,54 @@ def perform_deduplication(
             result_text += f"**Duplicate text (Dataset 2):**\n{duplicate_text}\n\n"
             result_text += f"**Differences:**\n{differences}\n"
             result_text += "-" * 50 + "\n\n"
-            examples_shown += 1
         return result_text
 with gr.Blocks() as demo:
     gr.Markdown("# Semantic Deduplication")
-    deduplication_type = gr.Radio(choices=["Single dataset", "Cross-dataset"], label="Deduplication Type", value="Single dataset")
-    with gr.Tab("Dataset 1"):
-        with gr.Row():
-            dataset1_name = gr.Textbox(value="ag_news", label="Dataset Name")
-            dataset1_split = gr.Textbox(value="train", label="Split")
-            dataset1_text_column = gr.Textbox(value="text", label="Text Column Name")
-    dataset2_tab = gr.Tab("Dataset 2", visible=False)
-    with dataset2_tab:
         with gr.Row():
-            dataset2_name = gr.Textbox(value="ag_news", label="Dataset Name")
-            dataset2_split = gr.Textbox(value="test", label="Split")
             dataset2_text_column = gr.Textbox(value="text", label="Text Column Name")
-    threshold = gr.Slider(minimum=0.0, maximum=1.0, value=0.8, label="Similarity Threshold")
     compute_button = gr.Button("Compute")
     output = gr.Markdown()
-    # Function to update the visibility of dataset2_tab
-    def update_visibility(deduplication_type):
-        if deduplication_type == "Cross-dataset":
-            return {dataset2_tab: gr.update(visible=True)}
         else:
-            return {dataset2_tab: gr.update(visible=False)}
-    deduplication_type.change(update_visibility, inputs=deduplication_type, outputs=[dataset2_tab])
     compute_button.click(
         fn=perform_deduplication,

     dataset1_name,
     dataset1_split,
     dataset1_text_column,
+    dataset2_name="",
+    dataset2_split="",
+    dataset2_text_column="",
+    threshold=0.8,
     progress=gr.Progress(track_tqdm=True)
 ):
     # Convert threshold to float
         # Show deduplicated examples
         result_text += "**Examples of duplicates found:**\n\n"
         num_examples = min(5, num_duplicates)
         for duplicate_idx, original_idx in list(duplicate_to_original_mapping.items())[:num_examples]:
             original_text = texts[original_idx]
             duplicate_text = texts[duplicate_idx]
             result_text += f"**Duplicate text:**\n{duplicate_text}\n\n"
             result_text += f"**Differences:**\n{differences}\n"
             result_text += "-" * 50 + "\n\n"
         return result_text
         # Show deduplicated examples
         result_text += "**Examples of duplicates found in Dataset 2:**\n\n"
         num_examples = min(5, num_duplicates)
         for duplicate_idx in duplicate_indices_in_ds2[:num_examples]:
             original_idx = duplicate_to_original_mapping[duplicate_idx]
             original_text = texts1[original_idx]
             result_text += f"**Duplicate text (Dataset 2):**\n{duplicate_text}\n\n"
             result_text += f"**Differences:**\n{differences}\n"
             result_text += "-" * 50 + "\n\n"
         return result_text
 with gr.Blocks() as demo:
     gr.Markdown("# Semantic Deduplication")
+    deduplication_type = gr.Radio(
+        choices=["Single dataset", "Cross-dataset"],
+        label="Deduplication Type",
+        value="Single dataset"
+    )
+    with gr.Row():
+        dataset1_name = gr.Textbox(value="ag_news", label="Dataset 1 Name")
+        dataset1_split = gr.Textbox(value="train", label="Dataset 1 Split")
+        dataset1_text_column = gr.Textbox(value="text", label="Text Column Name")
+    dataset2_inputs = gr.Column(visible=False)
+    with dataset2_inputs:
+        gr.Markdown("### Dataset 2")
         with gr.Row():
+            dataset2_name = gr.Textbox(value="ag_news", label="Dataset 2 Name")
+            dataset2_split = gr.Textbox(value="test", label="Dataset 2 Split")
             dataset2_text_column = gr.Textbox(value="text", label="Text Column Name")
+    threshold = gr.Slider(
+        minimum=0.0,
+        maximum=1.0,
+        value=0.8,
+        label="Similarity Threshold"
+    )
     compute_button = gr.Button("Compute")
     output = gr.Markdown()
+    # Function to update the visibility of dataset2_inputs
+    def update_visibility(deduplication_type_value):
+        if deduplication_type_value == "Cross-dataset":
+            return gr.update(visible=True)
         else:
+            return gr.update(visible=False)
+    deduplication_type.change(
+        update_visibility,
+        inputs=deduplication_type,
+        outputs=dataset2_inputs
+    )
     compute_button.click(
         fn=perform_deduplication,