Spaces:

Shami96
/

PDF-Data_Extractor

Running

Shami96 commited on Jul 29

Commit

f1bab1c

verified ·

1 Parent(s): 4b3f51e

Rename pdf_parser.py to pdf_extractor.py

Files changed (2) hide show

pdf_extractor.py ADDED Viewed

+# pdf_extractor.py
+import fitz  # PyMuPDF
+def extract_text_pdf_raw(pdf_path):
+    doc = fitz.open(pdf_path)
+    return "\n".join(page.get_text() for page in doc)
+def extract_label_value_pairs(pdf_path):
+    raw_text = extract_text_pdf_raw(pdf_path)
+    label_value_map = {}
+    for line in raw_text.split('\n'):
+        line = line.strip()
+        if ':' in line:
+            label, value = line.split(':', 1)
+            if len(value.strip()) > 0:
+                label_value_map[label.strip().lower()] = value.strip()
+        elif '-' in line:
+            parts = line.split('-', 1)
+            if len(parts) == 2:
+                label, value = parts
+                label_value_map[label.strip().lower()] = value.strip()
+    return label_value_map

pdf_parser.py DELETED Viewed

@@ -1,14 +0,0 @@
-# pdf_parser.py
-import fitz  # PyMuPDF
-def extract_text_from_pdf(pdf_path):
-    doc = fitz.open(pdf_path)
-    return "\n".join(page.get_text() for page in doc)
-def parse_data_blocks(text):
-    data = {}
-    for line in text.splitlines():
-        if ':' in line:
-            key, val = line.split(':', 1)
-            data[key.strip()] = val.strip()
-    return data