ImageDataExtractor2

Runtime error

App Files Files Community

WebashalarForML commited on Oct 8, 2024

Commit

3c5c7f9

verified ·

1 Parent(s): 3bc2e7c

Update utility/utils.py

Browse files

Files changed (1) hide show

utility/utils.py +34 -6

utility/utils.py CHANGED Viewed

@@ -402,7 +402,31 @@ def process_extracted_text(extracted_text):
 # Process the model output for parsed result
 def process_resume_data(LLMdata,cont_data,extracted_text):
     # Initialize the processed data dictionary
     processed_data = {
             "name": [],
@@ -416,14 +440,18 @@ def process_resume_data(LLMdata,cont_data,extracted_text):
             }
     #LLM
     processed_data['name'].extend(LLMdata.get('Name', []))
-    processed_data['contact_number'].extend(LLMdata.get('Contact', []))
     processed_data['Designation'].extend(LLMdata.get('Designation', []))
-    processed_data['email'].extend(LLMdata.get("Email", []))
     processed_data['Location'].extend(LLMdata.get('Address', []))
-    processed_data['Link'].extend(LLMdata.get('Link', []))
     processed_data['Company'].extend(LLMdata.get('Company', []))
     #Contact
-    processed_data['email'].extend(cont_data.get("emails", []))
-    processed_data['contact_number'].extend(cont_data.get("phone_numbers", []))
-    processed_data['Link'].extend(cont_data.get("links_RE", []))
     return processed_data

 # Process the model output for parsed result
 def process_resume_data(LLMdata,cont_data,extracted_text):
+    # Removing duplicate emails
+    unique_emails = []
+    for email in cont_data['emails']:
+        if email not in LLMdata['Email']:
+            unique_emails.append(email)
+    # Removing duplicate links
+    unique_links = []
+    for link in cont_data['links_RE']:
+        if link not in LLMdata['Link']:
+            unique_links.append(link)
+    # Removing duplicate phone numbers
+    normalized_contact = [num[-10:] for num in LLMdata['Contact']]
+    unique_numbers = []
+    for num in cont_data['phone_numbers']:
+        if num[-10:] not in normalized_contact:
+            unique_numbers.append(num)
+    # Add unique emails, links, and phone numbers to the original LLMdata
+    LLMdata['Email'] += unique_emails
+    LLMdata['Link'] += unique_links
+    LLMdata['Contact'] += unique_numbers
     # Initialize the processed data dictionary
     processed_data = {
             "name": [],
             }
     #LLM
     processed_data['name'].extend(LLMdata.get('Name', []))
+    #processed_data['contact_number'].extend(LLMdata.get('Contact', []))
     processed_data['Designation'].extend(LLMdata.get('Designation', []))
+    #processed_data['email'].extend(LLMdata.get("Email", []))
     processed_data['Location'].extend(LLMdata.get('Address', []))
+    #processed_data['Link'].extend(LLMdata.get('Link', []))
     processed_data['Company'].extend(LLMdata.get('Company', []))
     #Contact
+    #processed_data['email'].extend(cont_data.get("emails", []))
+    #processed_data['contact_number'].extend(cont_data.get("phone_numbers", []))
+    #processed_data['Link'].extend(cont_data.get("links_RE", []))
+    #New_merge_data
+    processed_data['email'].extend(LLMdata['Email'])
+    processed_data['contact_number'].extend(LLMdata['Contact'])
+    processed_data['Link'].extend(LLMdata['Link'])
     return processed_data