Spaces:

Shami96
/

PDF-Data_Extractor

Running

Shami96 commited on Jul 28

Commit

65691ad

verified ·

1 Parent(s): b48339c

Create pdf_parser.py

Files changed (1) hide show

pdf_parser.py ADDED Viewed

+# pdf_parser.py
+import fitz  # PyMuPDF
+def extract_text_from_pdf(pdf_path):
+    doc = fitz.open(pdf_path)
+    text = ""
+    for page in doc:
+        text += page.get_text()
+    return text
+def parse_data_blocks(text):
+    # You can customize this logic as needed
+    data = {}
+    lines = text.split("\n")
+    for line in lines:
+        if ":" in line:
+            key, val = line.split(":", 1)
+            data[key.strip()] = val.strip()
+    return data