Spaces:

AnyaSchen
/

whisper-websocket

Paused

AnyaSchen commited on Apr 9

Commit

65ac0a4

1 Parent(s): d7d66af

feat: fix model

Files changed (1) hide show

language_detector.py CHANGED Viewed

@@ -1,4 +1,4 @@
-import whisper as whp
 import numpy as np
 import logging
 import io
@@ -14,7 +14,7 @@ class LanguageDetector:
         Args:
             model_name (str): Name of the Whisper model to use. Default is "tiny" which is sufficient for language detection.
         """
-        self.model = whp.load_model(model_name)
         logger.info(f"Loaded Whisper model {model_name} for language detection")
     def detect_language_from_file(self, audio_file_path):
@@ -31,11 +31,11 @@ class LanguageDetector:
         """
         try:
             # Load and preprocess audio
-            audio = whp.load_audio(audio_file_path)
-            audio = whp.pad_or_trim(audio)
-            # Make log-Mel spectrogram
-            mel = whp.log_mel_spectrogram(audio).to(self.model.device)
             # Detect language
             _, probs = self.model.detect_language(mel)
@@ -69,10 +69,10 @@ class LanguageDetector:
             audio = (audio * 32768).astype(np.int16)
             # Load and preprocess audio
-            audio = whp.pad_or_trim(audio)
-            # Make log-Mel spectrogram
-            mel = whp.log_mel_spectrogram(audio).to(self.model.device)
             # Detect language
             _, probs = self.model.detect_language(mel)

+import whisper
 import numpy as np
 import logging
 import io
         Args:
             model_name (str): Name of the Whisper model to use. Default is "tiny" which is sufficient for language detection.
         """
+        self.model = whisper.load_model(model_name)
         logger.info(f"Loaded Whisper model {model_name} for language detection")
     def detect_language_from_file(self, audio_file_path):
         """
         try:
             # Load and preprocess audio
+            audio = whisper.load_audio(audio_file_path)
+            audio = whisper.pad_or_trim(audio)
+            # Make log-Mel spectrogram with correct dimensions
+            mel = whisper.log_mel_spectrogram(audio, n_mels=128).to(self.model.device)
             # Detect language
             _, probs = self.model.detect_language(mel)
             audio = (audio * 32768).astype(np.int16)
             # Load and preprocess audio
+            audio = whisper.pad_or_trim(audio)
+            # Make log-Mel spectrogram with correct dimensions
+            mel = whisper.log_mel_spectrogram(audio, n_mels=128).to(self.model.device)
             # Detect language
             _, probs = self.model.detect_language(mel)