Spaces:

zeimoto
/

voiceoperation

Runtime error

App Files Files Community

Zeimoto commited on Mar 30, 2024

Commit

fa6f424

1 Parent(s): 071265e

add model specific files

Browse files

Files changed (3) hide show

app.py +1 -1
nameder.py +23 -0
speech2text.py +49 -0

app.py CHANGED Viewed

@@ -1,7 +1,7 @@
 import streamlit as st
 from st_audiorec import st_audiorec
-from ner import init_model_ner, get_entity_labels
 from speech2text import init_model_trans, transcribe
 from resources import audit_elapsedtime, set_start

 import streamlit as st
 from st_audiorec import st_audiorec
+from nameder import init_model_ner, get_entity_labels
 from speech2text import init_model_trans, transcribe
 from resources import audit_elapsedtime, set_start

nameder.py ADDED Viewed

	@@ -0,0 +1,23 @@

+from gliner import GLiNER
+from resources import set_start, audit_elapsedtime, entity_labels
+#Named-Entity Recognition model
+def init_model_ner():
+    print("Initiating NER model...")
+    start = set_start()
+    model = GLiNER.from_pretrained("urchade/gliner_multi")
+    audit_elapsedtime(function="Initiating NER model", start=start)
+    return model
+def get_entity_labels(model: GLiNER, text: str): #-> Lead_labels:
+    print("Initiating entity recognition...")
+    start = set_start()
+    labels = entity_labels
+    entities = model.predict_entities(text, labels)
+    audit_elapsedtime(function="Retreiving entity labels from text", start=start)
+    for entity in entities:
+        print(entity["text"], "=>", entity["label"])
+    return entities

speech2text.py ADDED Viewed

	@@ -0,0 +1,49 @@

+from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline
+import torch
+from resources import set_start, audit_elapsedtime
+#Speech to text transcription model
+def init_model_trans ():
+    print("Initiating transcription model...")
+    start = set_start()
+    device = "cuda:0" if torch.cuda.is_available() else "cpu"
+    torch_dtype = torch.float16 if torch.cuda.is_available() else torch.float32
+    model_id = "openai/whisper-large-v3"
+    model = AutoModelForSpeechSeq2Seq.from_pretrained(
+        model_id, torch_dtype=torch_dtype, low_cpu_mem_usage=True, use_safetensors=True
+    )
+    model.to(device)
+    processor = AutoProcessor.from_pretrained(model_id)
+    pipe = pipeline(
+        "automatic-speech-recognition",
+        model=model,
+        tokenizer=processor.tokenizer,
+        feature_extractor=processor.feature_extractor,
+        max_new_tokens=128,
+        chunk_length_s=30,
+        batch_size=16,
+        return_timestamps=True,
+        torch_dtype=torch_dtype,
+        device=device,
+    )
+    print(f'Init model successful')
+    audit_elapsedtime(function="Initiating transcription model", start=start)
+    return pipe
+def transcribe (audio_sample: bytes, pipe) -> str:
+    print("Initiating transcription...")
+    start = set_start()
+    # dataset = load_dataset("distil-whisper/librispeech_long", "clean", split="validation")
+    # sample = dataset[0]["audio"]
+    result = pipe(audio_sample)
+    audit_elapsedtime(function="Transcription", start=start)
+    print(result)
+    st.write('trancription: ', result["text"])
+    return result["text"]