Spaces:

AnyaSchen
/

whisper-websocket

Paused

App Files Files Community

AnyaSchen commited on Apr 14

Commit

9c17134

1 Parent(s): 7db1cf9

fix:all segments to check in lang detection

Browse files

Files changed (2) hide show

requirements.txt +1 -1
whisper_streaming_custom/backends.py +12 -7

requirements.txt CHANGED Viewed

@@ -5,7 +5,7 @@ numpy>=1.21.0
 ffmpeg-python>=0.2.0
 torch>=2.0.0
 torchaudio>=2.0.0
-faster-whisper>=0.9.0
 websockets>=10.0
 pydantic>=1.8.0
 python-dotenv>=0.19.0

 ffmpeg-python>=0.2.0
 torch>=2.0.0
 torchaudio>=2.0.0
+faster-whisper
 websockets>=10.0
 pydantic>=1.8.0
 python-dotenv>=0.19.0

whisper_streaming_custom/backends.py CHANGED Viewed

@@ -141,6 +141,8 @@ class FasterWhisperASR(ASRBase):
         device = "cuda" if torch and torch.cuda.is_available() else "cpu"
         compute_type = "float16" if device == "cuda" else "float32"
         model = WhisperModel(
             model_size_or_path,
             device=device,
@@ -152,7 +154,7 @@ class FasterWhisperASR(ASRBase):
     def transcribe(self, audio: np.ndarray, init_prompt: str = "") -> list:
         segments, info = self.model.transcribe(
             audio,
-            language=self.original_language,
             initial_prompt=init_prompt,
             beam_size=5,
             word_timestamps=True,
@@ -181,6 +183,8 @@ class FasterWhisperASR(ASRBase):
         self.transcribe_kargs["task"] = "translate"
     def detect_language(self, audio_file_path):
         """
         Detect the language of the audio using faster-whisper's language detection.
@@ -194,17 +198,18 @@ class FasterWhisperASR(ASRBase):
                 - probabilities (dict): Dictionary of language probabilities
         """
         try:
-            # Load audio using soundfile
-            audio, sr = sf.read(audio_file_path)
-            # Convert to format expected by Whisper (16-bit PCM)
-            audio = (audio * 32768).astype(np.int16)
             # Use faster-whisper's detect_language method
             language, language_probability, all_language_probs = self.model.detect_language(
                 audio=audio,
                 vad_filter=False,  # Disable VAD for language detection
-                language_detection_segments=1,  # Use single segment for detection
                 language_detection_threshold=0.5  # Default threshold
             )

         device = "cuda" if torch and torch.cuda.is_available() else "cpu"
         compute_type = "float16" if device == "cuda" else "float32"
+        logger.info(f"Loading whisper model {model_size_or_path} on {device} with compute type {compute_type}")
         model = WhisperModel(
             model_size_or_path,
             device=device,
     def transcribe(self, audio: np.ndarray, init_prompt: str = "") -> list:
         segments, info = self.model.transcribe(
             audio,
+            language=None,
             initial_prompt=init_prompt,
             beam_size=5,
             word_timestamps=True,
         self.transcribe_kargs["task"] = "translate"
     def detect_language(self, audio_file_path):
+        from faster_whisper.audio import decode_audio
         """
         Detect the language of the audio using faster-whisper's language detection.
                 - probabilities (dict): Dictionary of language probabilities
         """
         try:
+            audio = decode_audio(audio_file_path, sampling_rate=self.model.feature_extractor.sampling_rate)
+            # Calculate total number of segments (each segment is 30 seconds)
+            audio_duration = len(audio) / self.model.feature_extractor.sampling_rate
+            segments_num = max(1, int(audio_duration / 30))  # At least 1 segment
+            logger.info(f"Audio duration: {audio_duration:.2f}s, using {segments_num} segments for language detection")
             # Use faster-whisper's detect_language method
             language, language_probability, all_language_probs = self.model.detect_language(
                 audio=audio,
                 vad_filter=False,  # Disable VAD for language detection
+                language_detection_segments=segments_num,  # Use all possible segments
                 language_detection_threshold=0.5  # Default threshold
             )