Spaces:

minishlab
/

semantic-deduplication

Running

burtenshaw commited on Jun 3

Commit

d12ff68

1 Parent(s): adb4caa

simplify readme

Files changed (1) hide show

README.md CHANGED Viewed

@@ -61,35 +61,6 @@ After deduplication completes:
 The dataset will be saved as `your-username/dataset-name` and be publicly available.
-## Technical Details
-- **Embedding Model**: Uses `minishlab/potion-base-8M` (Model2Vec) for fast, efficient text embeddings
-- **Deduplication Algorithm**: SemHash for scalable semantic similarity detection
-- **Backend**: Runs on CPU (may be slow for large datasets on free tier)
-## Local Usage
-For faster processing of large datasets, run locally:
-```bash
-git clone <repository-url>
-cd semantic-deduplication
-pip install -r requirements.txt
-python app.py
-```
-## Examples
-### Cross-dataset Deduplication
-Remove test set contamination:
-- **Dataset 1**: `your-org/training-data` (split: `train`)
-- **Dataset 2**: `your-org/test-data` (split: `test`)
-- **Result**: Clean test set with training examples removed
-### Single Dataset Cleaning
-Remove duplicates from a dataset:
-- **Dataset 1**: `common_voice` (split: `train`)
-- **Result**: Training set with duplicate audio transcriptions removed
 ## Notes


61
62	The dataset will be saved as `your-username/dataset-name` and be publicly available.
63





























64
65	## Notes
66