Spaces:

k2-fsa
/

automatic-speech-recognition-3

Build error

App Files Files Community

csukuangfj commited on May 15, 2023

Commit

e6d227e

1 Parent(s): 0ae65b0

add a french model

Browse files

Files changed (6) hide show

examples.py +21 -0
model.py +81 -1
test_wavs/french/common_voice_fr_19364697.wav +0 -0
test_wavs/french/common_voice_fr_19738183.wav +0 -0
test_wavs/french/common_voice_fr_27024649.wav +0 -0
test_wavs/french/trans.txt +3 -0

examples.py CHANGED Viewed

@@ -65,6 +65,13 @@ examples = [
         4,
         "./test_wavs/tibetan/a_0_cacm-A70_31117.wav",
     ],
     [
         "Chinese",
         "desh2608/icefall-asr-alimeeting-pruned-transducer-stateless7",
@@ -316,4 +323,18 @@ examples = [
         4,
         "./test_wavs/german/20120315-0900-PLENARY-14-de_20120315.wav",
     ],
 ]

         4,
         "./test_wavs/tibetan/a_0_cacm-A70_31117.wav",
     ],
+    [
+        "French",
+        "shaojieli/sherpa-onnx-streaming-zipformer-fr-2023-04-14",
+        "greedy_search",
+        4,
+        "./test_wavs/french/common_voice_fr_19364697.wav",
+    ],
     [
         "Chinese",
         "desh2608/icefall-asr-alimeeting-pruned-transducer-stateless7",
         4,
         "./test_wavs/german/20120315-0900-PLENARY-14-de_20120315.wav",
     ],
+    [
+        "French",
+        "shaojieli/sherpa-onnx-streaming-zipformer-fr-2023-04-14",
+        "greedy_search",
+        4,
+        "./test_wavs/french/common_voice_fr_19738183.wav",
+    ],
+    [
+        "French",
+        "shaojieli/sherpa-onnx-streaming-zipformer-fr-2023-04-14",
+        "greedy_search",
+        4,
+        "./test_wavs/french/common_voice_fr_27024649.wav",
+    ],
 ]

model.py CHANGED Viewed

@@ -111,8 +111,31 @@ def decode_offline_recognizer_sherpa_onnx(
     return s.result.text.lower()
 def decode(
-    recognizer: Union[sherpa.OfflineRecognizer, sherpa.OnlineRecognizer],
     filename: str,
 ) -> str:
     if isinstance(recognizer, sherpa.OfflineRecognizer):
@@ -121,6 +144,8 @@ def decode(
         return decode_online_recognizer(recognizer, filename)
     elif isinstance(recognizer, sherpa_onnx.OfflineRecognizer):
         return decode_offline_recognizer_sherpa_onnx(recognizer, filename)
     else:
         raise ValueError(f"Unknown recognizer type {type(recognizer)}")
@@ -155,6 +180,10 @@ def get_pretrained_model(
         return german_models[repo_id](
             repo_id, decoding_method=decoding_method, num_active_paths=num_active_paths
         )
     elif repo_id in japanese_models:
         return japanese_models[repo_id](
             repo_id, decoding_method=decoding_method, num_active_paths=num_active_paths
@@ -654,6 +683,51 @@ def _get_german_pre_trained_model(
     return recognizer
 @lru_cache(maxsize=10)
 def _get_japanese_pre_trained_model(
     repo_id: str,
@@ -778,6 +852,10 @@ german_models = {
     "csukuangfj/wav2vec2.0-torchaudio": _get_german_pre_trained_model,
 }
 japanese_models = {
     "TeoWenShen/icefall-asr-csj-pruned-transducer-stateless7-streaming-230208-fluent": _get_japanese_pre_trained_model,
     "TeoWenShen/icefall-asr-csj-pruned-transducer-stateless7-streaming-230208-disfluent": _get_japanese_pre_trained_model,
@@ -791,6 +869,7 @@ all_models = {
     **tibetan_models,
     **arabic_models,
     **german_models,
 }
 language_to_models = {
@@ -801,4 +880,5 @@ language_to_models = {
     "Tibetan": list(tibetan_models.keys()),
     "Arabic": list(arabic_models.keys()),
     "German": list(german_models.keys()),
 }

     return s.result.text.lower()
+def decode_online_recognizer_sherpa_onnx(
+    recognizer: sherpa_onnx.OnlineRecognizer,
+    filename: str,
+) -> str:
+    s = recognizer.create_stream()
+    samples, sample_rate = read_wave(filename)
+    s.accept_waveform(sample_rate, samples)
+    tail_paddings = np.zeros(int(0.3 * sample_rate), dtype=np.float32)
+    s.accept_waveform(sample_rate, tail_paddings)
+    s.input_finished()
+    while recognizer.is_ready(s):
+        recognizer.decode_stream(s)
+    return recognizer.get_result(s).lower()
 def decode(
+    recognizer: Union[
+        sherpa.OfflineRecognizer,
+        sherpa.OnlineRecognizer,
+        sherpa_onnx.OfflineRecognizer,
+        sherpa_onnx.OnlineRecognizer,
+    ],
     filename: str,
 ) -> str:
     if isinstance(recognizer, sherpa.OfflineRecognizer):
         return decode_online_recognizer(recognizer, filename)
     elif isinstance(recognizer, sherpa_onnx.OfflineRecognizer):
         return decode_offline_recognizer_sherpa_onnx(recognizer, filename)
+    elif isinstance(recognizer, sherpa_onnx.OnlineRecognizer):
+        return decode_online_recognizer_sherpa_onnx(recognizer, filename)
     else:
         raise ValueError(f"Unknown recognizer type {type(recognizer)}")
         return german_models[repo_id](
             repo_id, decoding_method=decoding_method, num_active_paths=num_active_paths
         )
+    elif repo_id in french_models:
+        return french_models[repo_id](
+            repo_id, decoding_method=decoding_method, num_active_paths=num_active_paths
+        )
     elif repo_id in japanese_models:
         return japanese_models[repo_id](
             repo_id, decoding_method=decoding_method, num_active_paths=num_active_paths
     return recognizer
+@lru_cache(maxsize=10)
+def _get_french_pre_trained_model(
+    repo_id: str,
+    decoding_method: str,
+    num_active_paths: int,
+):
+    assert repo_id in [
+        "shaojieli/sherpa-onnx-streaming-zipformer-fr-2023-04-14",
+    ], repo_id
+    encoder_model = _get_nn_model_filename(
+        repo_id=repo_id,
+        filename="encoder-epoch-29-avg-9-with-averaged-model.onnx",
+        subfolder=".",
+    )
+    decoder_model = _get_nn_model_filename(
+        repo_id=repo_id,
+        filename="decoder-epoch-29-avg-9-with-averaged-model.onnx",
+        subfolder=".",
+    )
+    joiner_model = _get_nn_model_filename(
+        repo_id=repo_id,
+        filename="joiner-epoch-29-avg-9-with-averaged-model.onnx",
+        subfolder=".",
+    )
+    tokens = _get_token_filename(repo_id=repo_id, subfolder=".")
+    recognizer = sherpa_onnx.OnlineRecognizer(
+        tokens=tokens,
+        encoder=encoder_model,
+        decoder=decoder_model,
+        joiner=joiner_model,
+        num_threads=1,
+        sample_rate=16000,
+        feature_dim=80,
+        decoding_method=decoding_method,
+        max_active_paths=num_active_paths,
+    )
+    return recognizer
 @lru_cache(maxsize=10)
 def _get_japanese_pre_trained_model(
     repo_id: str,
     "csukuangfj/wav2vec2.0-torchaudio": _get_german_pre_trained_model,
 }
+french_models = {
+    "shaojieli/sherpa-onnx-streaming-zipformer-fr-2023-04-14": _get_french_pre_trained_model,
+}
 japanese_models = {
     "TeoWenShen/icefall-asr-csj-pruned-transducer-stateless7-streaming-230208-fluent": _get_japanese_pre_trained_model,
     "TeoWenShen/icefall-asr-csj-pruned-transducer-stateless7-streaming-230208-disfluent": _get_japanese_pre_trained_model,
     **tibetan_models,
     **arabic_models,
     **german_models,
+    **french_models,
 }
 language_to_models = {
     "Tibetan": list(tibetan_models.keys()),
     "Arabic": list(arabic_models.keys()),
     "German": list(german_models.keys()),
+    "French": list(french_models.keys()),
 }

test_wavs/french/common_voice_fr_19364697.wav ADDED Viewed

Binary file (228 kB). View file

test_wavs/french/common_voice_fr_19738183.wav ADDED Viewed

Binary file (122 kB). View file

test_wavs/french/common_voice_fr_27024649.wav ADDED Viewed

Binary file (203 kB). View file

test_wavs/french/trans.txt ADDED Viewed

	@@ -0,0 +1,3 @@

+common_voice_fr_19738183	CE DERNIER A ÉVOLUÉ TOUT AU LONG DE L'HISTOIRE ROMAINE
+common_voice_fr_27024649	SON ACTIONNAIRE MAJORITAIRE EST LE CONSEIL TERRITORIAL DE SAINT PIERRE ET MIQUELON
+common_voice_fr_19364697	CE SITE CONTIENT QUATRE TOMBEAUX DE LA DYNASTIE ACHÉMÉNIDE ET SEPT DES SASSANIDES