Spleeter_and_ASR

Running

App Files Files Community

trysem

baaastien commited on Feb 24, 2023

Commit

26f8bd6

0 Parent(s):

Duplicate from baaastien/Spleeter_and_ASR

Browse files

Co-authored-by: Bastien <baaastien@users.noreply.huggingface.co>

Files changed (8) hide show

.gitattributes +31 -0
README.md +14 -0
app.py +50 -0
examples/MyBubbaMi-NothingMuch.mp3 +0 -0
examples/audio_example.mp3 +0 -0
license.txt +4 -0
packages.txt +2 -0
requirements.txt +6 -0

.gitattributes ADDED Viewed

	@@ -0,0 +1,31 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,14 @@

+---
+title: Spleeter And ASR
+emoji: 🚀
+colorFrom: gray
+colorTo: pink
+sdk: gradio
+sdk_version: 3.2
+app_file: app.py
+pinned: false
+license: mit
+duplicated_from: baaastien/Spleeter_and_ASR
+---
+Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

app.py ADDED Viewed

	@@ -0,0 +1,50 @@

+import gradio as gr
+import os
+import random2
+from spleeter.separator import Separator
+from transformers import pipeline, AutoModelForCTC, Wav2Vec2Processor, Wav2Vec2ProcessorWithLM
+# Initiate a file separator with 2 stems (instruments and vocals) and 16khz bitrate, required for ASR
+separator = Separator('spleeter:2stems-16kHz')
+# Initiate Speech to text model with Wave2Vec english
+# https://huggingface.co/jonatasgrosman/wav2vec2-large-xlsr-53-english
+pipe = pipeline("automatic-speech-recognition", "jonatasgrosman/wav2vec2-large-xlsr-53-english")
+# Gradio function to split audio stems, transcribe vocals and return their filepaths
+def extract_stems(audio):
+    # initiate a unique folder name for splitted files
+    foldername = str(random2.randrange(100000000))
+    # Separate audio input. Synchronous is true to wait for the end of split before going further
+    separator.separate_to_file(audio, "output/", filename_format= foldername + "/{instrument}.wav", synchronous=True)
+    # build filepaths for vocals and accompaniment files
+    vocals = f"./output/"+ foldername +"/vocals.wav"
+    accompaniment = f"./output/"+ foldername +"/accompaniment.wav"
+    # Get a transcript of the vocals, by using the huggingface pipeline
+    transcript = pipe(vocals, chunk_length_s=10, decoder=None)
+    return vocals, accompaniment, transcript
+# Launch a Gradio interface
+# Input is an audio file,
+# Output is two audio files and a transcript
+title = "Demo: Deezer Spleeter + english Automatic Speech Recognition"
+description = "<p>This demo is a basic interface for <a href='https://research.deezer.com/projects/spleeter.html' target='_blank'>Deezer Spleeter</a>.</p><p>It uses the Spleeter library for separate audio file in two stems : accompaniments and vocals.</p><p>Once splitted, it performs ASR (Automatic Speech Recognition) based on a Wav2vec2 english model.</p>"
+examples = [["examples/" + mp3] for mp3 in os.listdir("examples/")]
+demo = gr.Interface(
+    fn=extract_stems,
+    inputs=gr.Audio(source="upload", type="filepath"),
+    outputs=[gr.Audio(label="Vocals stem", source="upload", type="filepath"), gr.Audio(label="Accompaniment stem", source="upload", type="filepath"), gr.Textbox(label="Wave2vec2 Automatic Speech Recognition (English)")],
+    title=title,
+    description=description,
+    examples=examples,
+    allow_flagging="never"
+    )
+demo.launch()

examples/MyBubbaMi-NothingMuch.mp3 ADDED Viewed

Binary file (416 kB). View file

examples/audio_example.mp3 ADDED Viewed

Binary file (263 kB). View file

license.txt ADDED Viewed

	@@ -0,0 +1,4 @@

+Music Nothing Much by My Bubba & Mi
+from https://freemusicarchive.org
+Under Attribution-NonCommercial-ShareAlike 3.0 Unported (CC BY-NC-SA 3.0)

packages.txt ADDED Viewed

	@@ -0,0 +1,2 @@


1	+ libsndfile1
2	+ ffmpeg

requirements.txt ADDED Viewed

	@@ -0,0 +1,6 @@

+transformers
+torch
+pyctcdecode
+pypi-kenlm
+spleeter
+random2