Spaces:

Seetha
/

IMA-pipeline-streamlit

Sleeping

App Files Files Community

Seetha commited on Oct 20, 2023

Commit

6a2ebdf

1 Parent(s): d083073

Update app.py

Browse files

Files changed (1) hide show

app.py +11 -14

app.py CHANGED Viewed

@@ -123,14 +123,14 @@ def main():
     result2 = re.sub(r'[^\w\s]','',result1)
     result.append(result2)
-  st.write("--- %s seconds ---" % (time.time() - start_time))
   tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased") #bert-base-uncased
   model_path = "checkpoint-2850"
   model = AutoModelForSequenceClassification.from_pretrained(model_path,id2label={0:'non-causal',1:'causal'})
-  st.write('base sequence classification loaded')
   pipe1 = pipeline("text-classification", model=model,tokenizer=tokenizer)
   for sent in result:
     pred = pipe1(sent)
@@ -138,34 +138,31 @@ def main():
         if lab['label'] == 'causal': #causal
             causal_sents.append(sent)
-  st.write('causal sentence classification finished')
-  st.write("--- %s seconds ---" % (time.time() - start_time))
   model_name = "distilbert-base-cased"
   tokenizer = DistilBertTokenizerFast.from_pretrained(model_name)
   model_path1 = "DistilBertforTokenclassification"
   model = DistilBertForTokenClassification.from_pretrained(model_path1) #len(unique_tags),, num_labels= 7, , id2label={0:'CT',1:'E',2:'C',3:'O'}
   pipe = pipeline('ner', model=model, tokenizer=tokenizer,aggregation_strategy='simple') #grouped_entities=True
-  st.write('DistilBERT loaded')
   sentence_pred = []
   class_list = []
   entity_list = []
   for k in causal_sents:
     pred= pipe(k)
     #st.write(pred)
-    st.write('preds')
-    for i in pred:
       sentence_pred.append(k)
       class_list.append(i['word'])
       entity_list.append(i['entity_group'])
-  st.write('causality extraction finished')
-  st.write("--- %s seconds ---" % (time.time() - start_time))
   # filename = 'Checkpoint-classification.sav'
   # loaded_model = pickle.load(open(filename, 'rb'))
@@ -193,8 +190,8 @@ def main():
   predictions = loaded_model.predict(pad_sequences(tokenizer.texts_to_sequences(class_list),maxlen=MAX_SEQUENCE_LENGTH))
   predicted = np.argmax(predictions,axis=1)
-  st.write('stakeholder taxonomy finished')
-  st.write("--- %s seconds ---" % (time.time() - start_time))
   pred1 = predicted
   level0 = []
   count =0

     result2 = re.sub(r'[^\w\s]','',result1)
     result.append(result2)
+  #st.write("--- %s seconds ---" % (time.time() - start_time))
   tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased") #bert-base-uncased
   model_path = "checkpoint-2850"
   model = AutoModelForSequenceClassification.from_pretrained(model_path,id2label={0:'non-causal',1:'causal'})
+  #st.write('base sequence classification loaded')
   pipe1 = pipeline("text-classification", model=model,tokenizer=tokenizer)
   for sent in result:
     pred = pipe1(sent)
         if lab['label'] == 'causal': #causal
             causal_sents.append(sent)
+  #st.write('causal sentence classification finished')
+  #st.write("--- %s seconds ---" % (time.time() - start_time))
   model_name = "distilbert-base-cased"
   tokenizer = DistilBertTokenizerFast.from_pretrained(model_name)
   model_path1 = "DistilBertforTokenclassification"
   model = DistilBertForTokenClassification.from_pretrained(model_path1) #len(unique_tags),, num_labels= 7, , id2label={0:'CT',1:'E',2:'C',3:'O'}
   pipe = pipeline('ner', model=model, tokenizer=tokenizer,aggregation_strategy='simple') #grouped_entities=True
+  #st.write('DistilBERT loaded')
   sentence_pred = []
   class_list = []
   entity_list = []
   for k in causal_sents:
     pred= pipe(k)
     #st.write(pred)
+    #st.write('preds')
+    for i in pred:
       sentence_pred.append(k)
       class_list.append(i['word'])
       entity_list.append(i['entity_group'])
+  # st.write('causality extraction finished')
+  # st.write("--- %s seconds ---" % (time.time() - start_time))
   # filename = 'Checkpoint-classification.sav'
   # loaded_model = pickle.load(open(filename, 'rb'))
   predictions = loaded_model.predict(pad_sequences(tokenizer.texts_to_sequences(class_list),maxlen=MAX_SEQUENCE_LENGTH))
   predicted = np.argmax(predictions,axis=1)
+  # st.write('stakeholder taxonomy finished')
+  # st.write("--- %s seconds ---" % (time.time() - start_time))
   pred1 = predicted
   level0 = []
   count =0