Spaces:

tschouis
/

tox21_chemprop_classifier

Running

Sonja Topf commited on 8 days ago

Commit

e448508

1 Parent(s): 0d7dfdb

changed evaluation

Files changed (3) hide show

.gitignore CHANGED Viewed

@@ -9,4 +9,5 @@ logs/*
 !logs/.gitkeep
 data/*
 !data/.gitkeep
-.env

 !logs/.gitkeep
 data/*
 !data/.gitkeep
+.env
+eval_runs.py

src/evaluation.py CHANGED Viewed

@@ -2,7 +2,7 @@ import pandas as pd
 import numpy as np
 from sklearn.metrics import roc_auc_score
-def compute_roc_auc_from_csv(preds_csv: str, labels_csv: str):
     """
     Compute ROC AUC per class and overall mean, similar to the PyTorch-style function.
     Handles missing labels (NaN) like y_mask.
@@ -20,8 +20,12 @@ def compute_roc_auc_from_csv(preds_csv: str, labels_csv: str):
     preds = preds[shared_cols].apply(pd.to_numeric, errors="coerce")
     labels = labels[shared_cols].apply(pd.to_numeric, errors="coerce")
-    y_pred = preds.to_numpy(dtype=float)
     y_true = labels.to_numpy(dtype=float)
     y_mask = ~np.isnan(y_true)

 import numpy as np
 from sklearn.metrics import roc_auc_score
+def compute_roc_auc_from_csv(preds_csv: str, labels_csv: str, valid_mask):
     """
     Compute ROC AUC per class and overall mean, similar to the PyTorch-style function.
     Handles missing labels (NaN) like y_mask.
     preds = preds[shared_cols].apply(pd.to_numeric, errors="coerce")
     labels = labels[shared_cols].apply(pd.to_numeric, errors="coerce")
+    y_pred_clean = preds.to_numpy(dtype=float)
     y_true = labels.to_numpy(dtype=float)
+    valid_mask = valid_mask[-y_true.shape[0]:]
+    #Re-expand to original size
+    y_pred = np.full((len(valid_mask), y_pred_clean.shape[1]), 0.5, dtype=float)
+    y_pred[valid_mask] = y_pred_clean
     y_mask = ~np.isnan(y_true)

src/preprocess.py CHANGED Viewed

@@ -67,6 +67,7 @@ def clean_smiles_in_csv(input_csv: str, output_csv: str, smiles_col: str = "smil
     # Save cleaned dataset
     df_clean.to_csv(output_csv, index=False)
     print(f"✅ Cleaned dataset saved to '{output_csv}' ({len(df_clean)} valid molecules).")
 def get_tox21_split(token, cvfold=None):
@@ -108,5 +109,20 @@ def get_combined_dataset_csv(token, save_path):
     # Combine all into one DataFrame
     combined_df = pd.concat([train_df, val_df, test_df], ignore_index=True)
     # Save to a new CSV
     combined_df.to_csv(save_path, index=False)

     # Save cleaned dataset
     df_clean.to_csv(output_csv, index=False)
     print(f"✅ Cleaned dataset saved to '{output_csv}' ({len(df_clean)} valid molecules).")
+    return valid_mask
 def get_tox21_split(token, cvfold=None):
     # Combine all into one DataFrame
     combined_df = pd.concat([train_df, val_df, test_df], ignore_index=True)
+    # Save to a new CSV
+    combined_df.to_csv(save_path, index=False)
+def get_combined_dataset_with_testset_csv(token, save_path, testset_path):
+    datasets = get_tox21_split(token, cvfold=4)
+    train_df, val_df = datasets["train"], datasets["validation"]
+    test_df = pd.read_csv(testset_path)
+    # Add split column
+    train_df["split"] = "train"
+    val_df["split"] = "val"
+    test_df["split"] = "test"
+    # Combine all into one DataFrame
+    combined_df = pd.concat([train_df, val_df, test_df], ignore_index=True)
     # Save to a new CSV
     combined_df.to_csv(save_path, index=False)