Spaces:

moazx
/

HBV_AI_Assistant

Running

App Files Files Community

moazx commited on 3 days ago

Commit

23806d1

1 Parent(s): 8e013e3

make Pydantic data validation more permissive

Browse files

Files changed (2) hide show

api/models.py +40 -18
core/text_parser.py +41 -7

api/models.py CHANGED Viewed

@@ -121,39 +121,61 @@ class HBVPatientInput(BaseModel):
     @validator('sex')
     def validate_sex(cls, v):
-        if v not in ['Male', 'Female']:
-            raise ValueError('Sex must be either Male or Female')
-        return v
     @validator('pregnancy_status')
     def validate_pregnancy(cls, v):
-        if v not in ['Not pregnant', 'Pregnant']:
-            raise ValueError('Pregnancy status must be either "Not pregnant" or "Pregnant"')
-        return v
     @validator('hbsag_status')
     def validate_hbsag(cls, v):
-        if v not in ['Positive', 'Negative']:
-            raise ValueError('HBsAg status must be either Positive or Negative')
-        return v
     @validator('hbeag_status')
     def validate_hbeag(cls, v):
-        if v not in ['Positive', 'Negative']:
-            raise ValueError('HBeAg status must be either Positive or Negative')
-        return v
     @validator('fibrosis_stage')
     def validate_fibrosis(cls, v):
-        if v not in ['F0-F1', 'F2-F3', 'F4']:
-            raise ValueError('Fibrosis stage must be F0-F1, F2-F3, or F4')
-        return v
     @validator('necroinflammatory_activity')
     def validate_necroinflammatory(cls, v):
-        if v not in ['A0', 'A1', 'A2', 'A3']:
-            raise ValueError('Necroinflammatory activity must be A0, A1, A2, or A3')
-        return v
 class HBVAssessmentResponse(BaseModel):

     @validator('sex')
     def validate_sex(cls, v):
+        value = str(v).strip().lower()
+        if value in ['male', 'm', 'man', 'boy']:
+            return 'Male'
+        if value in ['female', 'f', 'woman', 'girl']:
+            return 'Female'
+        raise ValueError('Sex must be either Male or Female')
     @validator('pregnancy_status')
     def validate_pregnancy(cls, v):
+        value = str(v).strip().lower()
+        if value in ['pregnant', 'yes', 'y']:
+            return 'Pregnant'
+        if value in ['not pregnant', 'non-pregnant', 'non pregnant', 'no', 'n', 'none']:
+            return 'Not pregnant'
+        raise ValueError('Pregnancy status must be either "Not pregnant" or "Pregnant"')
     @validator('hbsag_status')
     def validate_hbsag(cls, v):
+        value = str(v).strip().lower()
+        if value in ['positive', 'pos', '+', 'reactive']:
+            return 'Positive'
+        if value in ['negative', 'neg', '-', 'non-reactive', 'nonreactive']:
+            return 'Negative'
+        raise ValueError('HBsAg status must be either Positive or Negative')
     @validator('hbeag_status')
     def validate_hbeag(cls, v):
+        value = str(v).strip().lower()
+        if value in ['positive', 'pos', '+', 'reactive']:
+            return 'Positive'
+        if value in ['negative', 'neg', '-', 'non-reactive', 'nonreactive']:
+            return 'Negative'
+        raise ValueError('HBeAg status must be either Positive or Negative')
     @validator('fibrosis_stage')
     def validate_fibrosis(cls, v):
+        value = str(v).strip().upper().replace(" ", "")
+        if value in ['F0-F1', 'F2-F3', 'F4']:
+            return value
+        if value in ['F0', 'F1']:
+            return 'F0-F1'
+        if value in ['F2', 'F3']:
+            return 'F2-F3'
+        if value == 'F4':
+            return 'F4'
+        raise ValueError('Fibrosis stage must be F0-F1, F2-F3, or F4 (or F0, F1, F2, F3, F4 which will be mapped to these categories)')
     @validator('necroinflammatory_activity')
     def validate_necroinflammatory(cls, v):
+        value = str(v).strip().upper().replace(" ", "")
+        if value in ['A0', 'A1', 'A2', 'A3']:
+            return value
+        if value in ['0', '1', '2', '3']:
+            return 'A' + value
+        raise ValueError('Necroinflammatory activity must be A0, A1, A2, or A3')
 class HBVAssessmentResponse(BaseModel):

core/text_parser.py CHANGED Viewed

@@ -172,23 +172,57 @@ def validate_extracted_data(data: Dict[str, Any]) -> Dict[str, Any]:
     except (ValueError, TypeError) as e:
         raise ValueError(f"Invalid data type in extracted data: {str(e)}")
-    # Validate enum values
-    if data['sex'] not in ['Male', 'Female']:
         raise ValueError(f"Invalid sex value: {data['sex']}")
-    if data['pregnancy_status'] not in ['Not pregnant', 'Pregnant']:
         raise ValueError(f"Invalid pregnancy_status value: {data['pregnancy_status']}")
-    if data['hbsag_status'] not in ['Positive', 'Negative']:
         raise ValueError(f"Invalid hbsag_status value: {data['hbsag_status']}")
-    if data['hbeag_status'] not in ['Positive', 'Negative']:
         raise ValueError(f"Invalid hbeag_status value: {data['hbeag_status']}")
-    if data['fibrosis_stage'] not in ['F0-F1', 'F2-F3', 'F4']:
         raise ValueError(f"Invalid fibrosis_stage value: {data['fibrosis_stage']}")
-    if data['necroinflammatory_activity'] not in ['A0', 'A1', 'A2', 'A3']:
         raise ValueError(f"Invalid necroinflammatory_activity value: {data['necroinflammatory_activity']}")
     return data

     except (ValueError, TypeError) as e:
         raise ValueError(f"Invalid data type in extracted data: {str(e)}")
+    # Validate and normalize enum/string values to canonical forms
+    sex_raw = str(data['sex']).strip().lower()
+    if sex_raw in ['male', 'm', 'man', 'boy']:
+        data['sex'] = 'Male'
+    elif sex_raw in ['female', 'f', 'woman', 'girl']:
+        data['sex'] = 'Female'
+    else:
         raise ValueError(f"Invalid sex value: {data['sex']}")
+    preg_raw = str(data['pregnancy_status']).strip().lower()
+    if preg_raw in ['pregnant', 'yes', 'y']:
+        data['pregnancy_status'] = 'Pregnant'
+    elif preg_raw in ['not pregnant', 'non-pregnant', 'non pregnant', 'no', 'n', 'none']:
+        data['pregnancy_status'] = 'Not pregnant'
+    else:
         raise ValueError(f"Invalid pregnancy_status value: {data['pregnancy_status']}")
+    hbsag_raw = str(data['hbsag_status']).strip().lower()
+    if hbsag_raw in ['positive', 'pos', '+', 'reactive']:
+        data['hbsag_status'] = 'Positive'
+    elif hbsag_raw in ['negative', 'neg', '-', 'non-reactive', 'nonreactive']:
+        data['hbsag_status'] = 'Negative'
+    else:
         raise ValueError(f"Invalid hbsag_status value: {data['hbsag_status']}")
+    hbeag_raw = str(data['hbeag_status']).strip().lower()
+    if hbeag_raw in ['positive', 'pos', '+', 'reactive']:
+        data['hbeag_status'] = 'Positive'
+    elif hbeag_raw in ['negative', 'neg', '-', 'non-reactive', 'nonreactive']:
+        data['hbeag_status'] = 'Negative'
+    else:
         raise ValueError(f"Invalid hbeag_status value: {data['hbeag_status']}")
+    fibrosis_raw = str(data['fibrosis_stage']).strip().upper().replace(" ", "")
+    if fibrosis_raw in ['F0-F1', 'F2-F3', 'F4']:
+        data['fibrosis_stage'] = fibrosis_raw
+    elif fibrosis_raw in ['F0', 'F1']:
+        data['fibrosis_stage'] = 'F0-F1'
+    elif fibrosis_raw in ['F2', 'F3']:
+        data['fibrosis_stage'] = 'F2-F3'
+    elif fibrosis_raw == 'F4':
+        data['fibrosis_stage'] = 'F4'
+    else:
         raise ValueError(f"Invalid fibrosis_stage value: {data['fibrosis_stage']}")
+    necro_raw = str(data['necroinflammatory_activity']).strip().upper().replace(" ", "")
+    if necro_raw in ['A0', 'A1', 'A2', 'A3']:
+        data['necroinflammatory_activity'] = necro_raw
+    elif necro_raw in ['0', '1', '2', '3']:
+        data['necroinflammatory_activity'] = 'A' + necro_raw
+    else:
         raise ValueError(f"Invalid necroinflammatory_activity value: {data['necroinflammatory_activity']}")
     return data