Spaces:

jordyvl
/

ask_my_thesis

Paused

Rahul Bhoyar commited on Jan 19, 2024

Commit

0cec20e

1 Parent(s): 08728cc

Updated files

Files changed (3) hide show

.DS_Store ADDED Viewed

Binary file (6.15 kB). View file

app.py CHANGED Viewed

@@ -61,7 +61,8 @@ from llama_index import SimpleDirectoryReader, VectorStoreIndex
 from llama_index import ServiceContext
 from llama_index.embeddings import HuggingFaceEmbedding
 from llama_index.llms import HuggingFaceInferenceAPI
-import os
 # os.environ["GOOGLE_API_KEY"]="AIzaSyBYrZpUdTc4rumhdHajlKfwY4Kq0u6vFDs"
@@ -73,19 +74,33 @@ hf_token = st.text_input("Enter your Hugging Face token:")
 #function to save a file
-def save_uploadedfile(uploadedfile):
-     with open(os.path.join("data",uploadedfile.name),"wb") as f:
-         f.write(uploadedfile.getbuffer())
-     return st.success("Saved File:{} to directory".format(uploadedfile.name))
 # Streamlit input for user file upload
 uploaded_pdf = st.file_uploader("Upload your PDF", type=['pdf'])
 # Load data and configure the index
 if uploaded_pdf is not None:
-    input_file = save_uploadedfile(uploaded_pdf)
-    st.write("File uploaded successfully!")
-    documents = SimpleDirectoryReader("data").load_data()
     llm = HuggingFaceInferenceAPI(model_name="HuggingFaceH4/zephyr-7b-alpha", token=hf_token)
     embed_model_uae = HuggingFaceEmbedding(model_name="WhereIsAI/UAE-Large-V1")

 from llama_index import ServiceContext
 from llama_index.embeddings import HuggingFaceEmbedding
 from llama_index.llms import HuggingFaceInferenceAPI
+from llama_index.schema import Document
+from PyPDF2 import PdfReader
 # os.environ["GOOGLE_API_KEY"]="AIzaSyBYrZpUdTc4rumhdHajlKfwY4Kq0u6vFDs"
 #function to save a file
+# def save_uploadedfile(uploadedfile):
+#      with open(os.path.join("data",uploadedfile.name),"wb") as f:
+#          f.write(uploadedfile.getbuffer())
+#      return st.success("Saved File:{} to directory".format(uploadedfile.name))
+def read_pdf(uploaded_file):
+    pdf_reader = PdfReader(uploaded_file)
+    text = ""
+    for page_num in range(len(pdf_reader.pages)):
+        text += pdf_reader.pages[page_num].extract_text()
+    return text
 # Streamlit input for user file upload
 uploaded_pdf = st.file_uploader("Upload your PDF", type=['pdf'])
 # Load data and configure the index
 if uploaded_pdf is not None:
+    # input_file = save_uploadedfile(uploaded_pdf)
+    # st.write("File uploaded successfully!")
+    # documents = SimpleDirectoryReader("data").load_data()
+    file_contents = read_pdf(uploaded_pdf)
+    documents = Document(text=file_contents)
+    documents = [documents]
+    st.success("Documents loaded successfully!")
     llm = HuggingFaceInferenceAPI(model_name="HuggingFaceH4/zephyr-7b-alpha", token=hf_token)
     embed_model_uae = HuggingFaceEmbedding(model_name="WhereIsAI/UAE-Large-V1")

requirements.txt CHANGED Viewed

@@ -4,4 +4,5 @@ streamlit
 huggingface_hub[inference]>=0.19.0
 transformers
 torch
-watchdog

 huggingface_hub[inference]>=0.19.0
 transformers
 torch
+watchdog
+PyPDF2