Spaces:

Gregniuki
/

f5-tts_Polish_English_German

Running on Zero

Gregniuki commited on Nov 27, 2024

Commit

ef99879

verified ·

1 Parent(s): 6a25cb7

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -49,7 +49,7 @@ device = (
 if device == "cuda":
     dtype = torch.float16
 elif device == "cpu":
-    dtype = torch.bfloat16
 else:
     dtype = torch.float32
@@ -61,7 +61,7 @@ print(f"Using device: {device}, dtype: {dtype}")
 pipe = pipeline(
     "automatic-speech-recognition",
     model="openai/whisper-large-v3-turbo",
-    torch_dtype=torch.float16,
     device=device,
 )
 #vocos = Vocos.from_pretrained("charactr/vocos-mel-24khz")
@@ -242,7 +242,7 @@ def infer_batch(ref_audio, ref_text, gen_text_batches, exp_name, remove_silence,
         generated_waves.append(generated_wave)
  #       spectrograms.append(generated_mel_spec[0].cpu().numpy())
 # Ensure generated_mel_spec is in a compatible dtype (e.g., float32) before passing it to numpy
-        generated_mel_spec = generated_mel_spec.to(dtype=torch.float32)  # Convert to float32 if it's in bfloat16
 # Proceed with the rest of your operations
         spectrograms.append(generated_mel_spec[0].cpu().numpy())

 if device == "cuda":
     dtype = torch.float16
 elif device == "cpu":
+    dtype = torch.float32
 else:
     dtype = torch.float32
 pipe = pipeline(
     "automatic-speech-recognition",
     model="openai/whisper-large-v3-turbo",
+    torch_dtype=torch.float32,
     device=device,
 )
 #vocos = Vocos.from_pretrained("charactr/vocos-mel-24khz")
         generated_waves.append(generated_wave)
  #       spectrograms.append(generated_mel_spec[0].cpu().numpy())
 # Ensure generated_mel_spec is in a compatible dtype (e.g., float32) before passing it to numpy
+#        generated_mel_spec = generated_mel_spec.to(dtype=torch.float32)  # Convert to float32 if it's in bfloat16
 # Proceed with the rest of your operations
         spectrograms.append(generated_mel_spec[0].cpu().numpy())