RAG_AI_V2

Sleeping

WebashalarForML commited on Jan 28

Commit

541ce76

verified ·

1 Parent(s): a41be00

Update retrival.py

Files changed (1) hide show

retrival.py CHANGED Viewed

@@ -136,6 +136,7 @@ def load_document(data_path):
     # Loop over tables and match text from the same document and page
     for doc in processed_documents:
         cnt=1 # count for storing number of the table
         for table_metadata in doc.get("tables", {}).get("Metadata", []):
@@ -180,6 +181,7 @@ def load_document(data_path):
                     }
                 )
             )
     # Initialize a structure to group content by doc_id
     grouped_by_doc_id = defaultdict(lambda: {
@@ -224,6 +226,7 @@ def load_document(data_path):
     #Dirctory loader for loading the text data only to specific db
     loader = DirectoryLoader(data_path, glob="*.*")
     documents = loader.load()
@@ -234,8 +237,9 @@ def load_document(data_path):
         path=doc.metadata.get("source")
         match = re.search(r'([^\\]+\.[^\\]+)$', path)
         doc.metadata.update({"filename":match.group(1)})
-    return documents,grouped_documents
 #documents,processed_documents,table_document = load_document(data_path)
@@ -395,7 +399,8 @@ def generate_data_store(file_path, db_name):
     print(f"Filepath ===> {file_path}  DB Name ====> {db_name}")
     try:
-        documents,grouped_documents = load_document(file_path)
         print("Documents loaded successfully.")
     except Exception as e:
         print(f"Error loading documents: {e}")

     # Loop over tables and match text from the same document and page
+    '''
     for doc in processed_documents:
         cnt=1 # count for storing number of the table
         for table_metadata in doc.get("tables", {}).get("Metadata", []):
                     }
                 )
             )
+    '''
     # Initialize a structure to group content by doc_id
     grouped_by_doc_id = defaultdict(lambda: {
     #Dirctory loader for loading the text data only to specific db
+    '''
     loader = DirectoryLoader(data_path, glob="*.*")
     documents = loader.load()
         path=doc.metadata.get("source")
         match = re.search(r'([^\\]+\.[^\\]+)$', path)
         doc.metadata.update({"filename":match.group(1)})
+    return documents,
+    '''
+    return grouped_documents
 #documents,processed_documents,table_document = load_document(data_path)
     print(f"Filepath ===> {file_path}  DB Name ====> {db_name}")
     try:
+        #documents,grouped_documents = load_document(file_path)
+        grouped_documents = load_document(file_path)
         print("Documents loaded successfully.")
     except Exception as e:
         print(f"Error loading documents: {e}")