Spaces:

Vageesh1
/

audio_denoiser

Runtime error

App Files Files Community

Vageesh1 commited on Jul 14, 2023

Commit

1f9348b

1 Parent(s): d30a2ed

Upload 3 files

Browse files

Files changed (3) hide show

app.py +90 -0
helper.py +66 -0
requirements.txt +7 -0

app.py ADDED Viewed

	@@ -0,0 +1,90 @@

+import torch
+import torchaudio
+import torchaudio.functional as F
+from torchaudio.utils import download_asset
+from pesq import pesq
+from pystoi import stoi
+import mir_eval
+from pydub import AudioSegment
+import matplotlib.pyplot as plt
+import streamlit as st
+from helper import plot_spectrogram,plot_mask,si_snr,generate_mixture,evaluate,get_irms
+target_snr=3
+#parameters for STFT
+N_FFT = 1024
+N_HOP = 256
+stft = torchaudio.transforms.Spectrogram(
+    n_fft=N_FFT,
+    hop_length=N_HOP,
+    power=None,
+)
+istft = torchaudio.transforms.InverseSpectrogram(n_fft=N_FFT, hop_length=N_HOP)
+#defining a psd transform
+psd_transform = torchaudio.transforms.PSD()
+mvdr_transform = torchaudio.transforms.SoudenMVDR()
+#defining the reference microphone
+REFERENCE_CHANNEL = 0
+#creating a random noise for better calculations
+SAMPLE_NOISE = download_asset("tutorial-assets/mvdr/noise.wav")
+waveform_noise, sr2 = torchaudio.load(SAMPLE_NOISE)
+waveform_noise = waveform_noise.to(torch.double)
+stft_noise = stft(waveform_noise)
+def ui():
+    st.title("Speech Enhancer")
+    st.markdown("Made by Vageesh")
+    #making an audio developer uploader:
+    audio_file = st.file_uploader("Upload an audio file in wav format", type=[ "wav"])
+    if audio_file is not None:
+        waveform_clean,sr=torchaudio.load(audio_file)
+        waveform_clean = waveform_mix.to(torch.double)
+        stft_clean = stft(waveform_clean)
+        st.text("Your uploaded audio")
+        st.audio(waveform_clean)
+        #creating a mixture of our audio file and the noise file
+        waveform_mix = generate_mixture(waveform_clean, waveform_noise, target_snr)
+        #making the files into torch double format
+        waveform_mix = waveform_mix.to(torch.double)
+        #computing STFT
+        stft_mix = stft(waveform_mix)
+        #plotting the spectogram
+        spec_img=plot_spectrogram(stft_mix)
+        st.image(spec_img,captions='Spectrogram of Mixture Speech (dB)')
+        #showing mixed audio in streamlit
+        st.audio(waveform_mix)
+        #getting the irms
+        irm_speech, irm_noise = get_irms(stft_clean, stft_noise)
+        #getting the psd speech
+        psd_speech = psd_transform(stft_mix, irm_speech)
+        psd_noise = psd_transform(stft_mix, irm_noise)
+        stft_souden = mvdr_transform(stft_mix, psd_speech, psd_noise, reference_channel=REFERENCE_CHANNEL)
+        waveform_souden = istft(stft_souden, length=waveform_mix.shape[-1])
+        #plotting the cleaned audio and hearing it
+        spec_clean_img=plot_spectrogram(stft_souden)
+        waveform_souden = waveform_souden.reshape(1, -1)
+        st.image(spec_clean_img,captions='Spectrogram of Mixture Speech (dB)')
+        st.audio(waveform_souden)

helper.py ADDED Viewed

	@@ -0,0 +1,66 @@

+def plot_spectrogram(stft, title="Spectrogram", xlim=None):
+    magnitude = stft.abs()
+    spectrogram = 20 * torch.log10(magnitude + 1e-8).numpy()
+    # figure, axis = plt.subplots(1, 1)
+    # img = axis.imshow(spectrogram, cmap="viridis", vmin=-100, vmax=0, origin="lower", aspect="auto")
+    # figure.suptitle(title)
+    # plt.colorbar(img, ax=axis)
+    # plt.show()
+def plot_mask(mask, title="Mask", xlim=None):
+    mask = mask.numpy()
+    figure, axis = plt.subplots(1, 1)
+    img = axis.imshow(mask, cmap="viridis", origin="lower", aspect="auto")
+    figure.suptitle(title)
+    plt.colorbar(img, ax=axis)
+    plt.show()
+def si_snr(estimate, reference, epsilon=1e-8):
+    estimate = estimate - estimate.mean()
+    reference = reference - reference.mean()
+    reference_pow = reference.pow(2).mean(axis=1, keepdim=True)
+    mix_pow = (estimate * reference).mean(axis=1, keepdim=True)
+    scale = mix_pow / (reference_pow + epsilon)
+    reference = scale * reference
+    error = estimate - reference
+    reference_pow = reference.pow(2)
+    error_pow = error.pow(2)
+    reference_pow = reference_pow.mean(axis=1)
+    error_pow = error_pow.mean(axis=1)
+    si_snr = 10 * torch.log10(reference_pow) - 10 * torch.log10(error_pow)
+    return si_snr.item()
+def generate_mixture(waveform_clean, waveform_noise, target_snr):
+    power_clean_signal = waveform_clean.pow(2).mean()
+    power_noise_signal = waveform_noise.pow(2).mean()
+    current_snr = 10 * torch.log10(power_clean_signal / power_noise_signal)
+    waveform_noise *= 10 ** (-(target_snr - current_snr) / 20)
+    return waveform_clean + waveform_noise
+def evaluate(estimate, reference):
+    si_snr_score = si_snr(estimate, reference)
+    (
+        sdr,
+        _,
+        _,
+        _,
+    ) = mir_eval.separation.bss_eval_sources(reference.numpy(), estimate.numpy(), False)
+    pesq_mix = pesq(SAMPLE_RATE, estimate[0].numpy(), reference[0].numpy(), "wb")
+    stoi_mix = stoi(reference[0].numpy(), estimate[0].numpy(), SAMPLE_RATE, extended=False)
+    print(f"SDR score: {sdr[0]}")
+    print(f"Si-SNR score: {si_snr_score}")
+    print(f"PESQ score: {pesq_mix}")
+    print(f"STOI score: {stoi_mix}")
+def get_irms(stft_clean, stft_noise):
+    mag_clean = stft_clean.abs() ** 2
+    mag_noise = stft_noise.abs() ** 2
+    irm_speech = mag_clean / (mag_clean + mag_noise)
+    irm_noise = mag_noise / (mag_clean + mag_noise)
+    return irm_speech[REFERENCE_CHANNEL], irm_noise[REFERENCE_CHANNEL]

requirements.txt ADDED Viewed

	@@ -0,0 +1,7 @@

+torch
+torchaudio
+pesq
+pystoi
+mir_eval
+streamlit
+matplotlib