asr-inference

Running on Zero

ssolito commited on Jul 18

Commit

069f914

verified ·

1 Parent(s): 8cdbd94

Update whisper_cs.py (#27)

- Update whisper_cs.py (21d88d41c32fdb31a5e1c97551c235825afa4583)

Co-authored-by: Sarah Solito <ssolito@users.noreply.huggingface.co>

Files changed (1) hide show

whisper_cs.py CHANGED Viewed

@@ -46,6 +46,7 @@ def convert_to_mono(input_path):
     audio = AudioSegment.from_file(input_path)
     base, ext = os.path.splitext(input_path)
     output_path = f"{base}_merged.wav"
     mono = audio.set_channels(1)
     mono.export(output_path, format="wav")
     return output_path
@@ -60,6 +61,7 @@ def format_audio(audio_path):
         input_audio = torch.mean(input_audio, dim=0, keepdim=True)
     resampler = torchaudio.transforms.Resample(orig_freq=sample_rate, new_freq=16000)
     input_audio = resampler(input_audio)
     return input_audio.squeeze(), 16000
 def assign_timestamps(asr_segments, audio_path):
@@ -228,10 +230,13 @@ asr_pipe = pipeline(
 def diarization(audio_path):
     diarization_result = diarization_pipeline(audio_path)
     diarized_segments = list(diarization_result.itertracks(yield_label=True))
     return diarized_segments
 def asr(audio_path):
     asr_result = asr_pipe(audio_path, return_timestamps=True)
     asr_segments = hf_chunks_to_whisperx_segments(asr_result['chunks'])
     asr_segments = assign_timestamps(asr_segments, audio_path)
     return asr_segments

     audio = AudioSegment.from_file(input_path)
     base, ext = os.path.splitext(input_path)
     output_path = f"{base}_merged.wav"
+    print('output_path',output_path)
     mono = audio.set_channels(1)
     mono.export(output_path, format="wav")
     return output_path
         input_audio = torch.mean(input_audio, dim=0, keepdim=True)
     resampler = torchaudio.transforms.Resample(orig_freq=sample_rate, new_freq=16000)
     input_audio = resampler(input_audio)
+    print('resampled')
     return input_audio.squeeze(), 16000
 def assign_timestamps(asr_segments, audio_path):
 def diarization(audio_path):
     diarization_result = diarization_pipeline(audio_path)
     diarized_segments = list(diarization_result.itertracks(yield_label=True))
+    print('diarized_segments',diarized_segments)
     return diarized_segments
 def asr(audio_path):
+    print(f"[DEBUG] Starting ASR on audio: {audio_path}")
     asr_result = asr_pipe(audio_path, return_timestamps=True)
+    print(f"[DEBUG] Raw ASR result: {asr_result}")
     asr_segments = hf_chunks_to_whisperx_segments(asr_result['chunks'])
     asr_segments = assign_timestamps(asr_segments, audio_path)
     return asr_segments