Spaces:

Shami96
/

PDF-Data_Extractor

Running

Shami96 commited on Jul 29

Commit

86d5840

verified ·

1 Parent(s): 1ccec94

Update pdf_parser.py

Files changed (1) hide show

pdf_parser.py CHANGED Viewed

@@ -1,22 +1,14 @@
 # pdf_parser.py
 import fitz  # PyMuPDF
 def extract_text_from_pdf(pdf_path):
     doc = fitz.open(pdf_path)
-    text = ""
-    for page in doc:
-        text += page.get_text()
-    return text
 def parse_data_blocks(text):
-    # You can customize this logic as needed
     data = {}
-    lines = text.split("\n")
-    for line in lines:
-        if ":" in line:
-            key, val = line.split(":", 1)
             data[key.strip()] = val.strip()
     return data

 # pdf_parser.py
 import fitz  # PyMuPDF
 def extract_text_from_pdf(pdf_path):
     doc = fitz.open(pdf_path)
+    return "\n".join(page.get_text() for page in doc)
 def parse_data_blocks(text):
     data = {}
+    for line in text.splitlines():
+        if ':' in line:
+            key, val = line.split(':', 1)
             data[key.strip()] = val.strip()
     return data