Spaces:

Knowles-Lab
/

tiger

Running on CPU Upgrade

App Files Files Community

Andrew Stirn commited on Jul 6, 2023

Commit

5b03846

1 Parent(s): daa1987

tiger.py changes in support of app.py

Browse files

Files changed (1) hide show

tiger.py +25 -17

tiger.py CHANGED Viewed

@@ -35,7 +35,11 @@ BATCH_SIZE_SCAN = 20
 BATCH_SIZE_TRANSCRIPTS = 50
 NUM_TOP_GUIDES = 10
 NUM_MISMATCHES = 3
-RUN_MODES = dict(all='All on-target guides per transcript', titration='Top guides per transcript')
 # configure GPUs
@@ -45,7 +49,7 @@ if len(tf.config.list_physical_devices('GPU')) > 0:
     tf.config.experimental.set_visible_devices(tf.config.list_physical_devices('GPU')[0], 'GPU')
-def load_transcripts(fasta_files):
     # load all transcripts from fasta files into a DataFrame
     transcripts = pd.DataFrame()
@@ -64,7 +68,8 @@ def load_transcripts(fasta_files):
     # set index
     transcripts[ID_COL] = transcripts[ID_COL].apply(lambda s: s.split('|')[0])
     transcripts.set_index(ID_COL, inplace=True)
-    assert not transcripts.index.has_duplicates, "duplicate transcript ID's detected in fasta file"
     return transcripts
@@ -156,7 +161,7 @@ def prediction_transform(predictions: np.array, **params):
         raise NotImplementedError
-def get_on_target_predictions(transcripts: pd.DataFrame, model: tf.keras.Model, status_bar=None, status_text=None):
     # loop over transcripts
     predictions = pd.DataFrame()
@@ -178,9 +183,10 @@ def get_on_target_predictions(transcripts: pd.DataFrame, model: tf.keras.Model,
         percent_complete = 100 * min((i + 1) / len(transcripts), 1)
         update_text = 'Evaluating on-target guides for each transcript: {:.2f}%'.format(percent_complete)
         print('\r' + update_text, end='')
-        if status_bar:
-            status_text.text()
-            status_bar.progress(percent_complete)
     print('')
     return predictions
@@ -198,7 +204,7 @@ def top_guides_per_transcript(predictions: pd.DataFrame):
     return top_guides.reset_index(drop=True)
-def find_off_targets(top_guides: pd.DataFrame, status_bar, status_text):
     # load reference transcripts
     reference_transcripts = load_transcripts([os.path.join('transcripts', f) for f in REFERENCE_TRANSCRIPTS])
@@ -255,9 +261,10 @@ def find_off_targets(top_guides: pd.DataFrame, status_bar, status_text):
         percent_complete = 100 * min((i + 1) / len(reference_transcripts), 1)
         update_text = 'Scanning for off-targets: {:.2f}%'.format(percent_complete)
         print('\r' + update_text, end='')
-        if status_bar:
-            status_text.text()
-            status_bar.progress(percent_complete)
     print('')
     return off_targets
@@ -281,7 +288,7 @@ def predict_off_target(off_targets: pd.DataFrame, model: tf.keras.Model):
     return off_targets.sort_values(SCORE_COL, ascending=False).reset_index(drop=True)
-def tiger_exhibit(transcripts: pd.DataFrame, mode: str, check_off_targets: bool, status_bar=None, status_text=None):
     # load model
     if os.path.exists('model'):
@@ -291,24 +298,25 @@ def tiger_exhibit(transcripts: pd.DataFrame, mode: str, check_off_targets: bool,
         exit()
     # evaluate all on-target guides per transcript
-    on_target_predictions = get_on_target_predictions(transcripts, tiger, status_bar, status_text)
     # initialize other outputs
     off_target_predictions = pd.DataFrame()
-    if mode == 'all':
         pass  # nothing to do!
-    elif mode == 'titration':
         on_target_predictions = top_guides_per_transcript(on_target_predictions)
-        # TODO: add titration candidates
     else:
         raise NotImplementedError
     # check off-target effects for top guides
     if check_off_targets:
-        off_targets = find_off_targets(on_target_predictions, status_bar, status_text)
         off_target_predictions = predict_off_target(off_targets, model=tiger)
     # reverse guide sequences

 BATCH_SIZE_TRANSCRIPTS = 50
 NUM_TOP_GUIDES = 10
 NUM_MISMATCHES = 3
+RUN_MODES = dict(
+    all='All on-target guides per transcript',
+    top_guides='Top {:d} guides per transcript'.format(NUM_TOP_GUIDES),
+    titration='Top {:d} guides per transcript & their titration candidates'.format(NUM_TOP_GUIDES)
+)
 # configure GPUs
     tf.config.experimental.set_visible_devices(tf.config.list_physical_devices('GPU')[0], 'GPU')
+def load_transcripts(fasta_files: list, enforce_unique_ids: bool = True):
     # load all transcripts from fasta files into a DataFrame
     transcripts = pd.DataFrame()
     # set index
     transcripts[ID_COL] = transcripts[ID_COL].apply(lambda s: s.split('|')[0])
     transcripts.set_index(ID_COL, inplace=True)
+    if enforce_unique_ids:
+        assert not transcripts.index.has_duplicates, "duplicate transcript ID's detected in fasta file"
     return transcripts
         raise NotImplementedError
+def get_on_target_predictions(transcripts: pd.DataFrame, model: tf.keras.Model, status=None, progress_bar=None):
     # loop over transcripts
     predictions = pd.DataFrame()
         percent_complete = 100 * min((i + 1) / len(transcripts), 1)
         update_text = 'Evaluating on-target guides for each transcript: {:.2f}%'.format(percent_complete)
         print('\r' + update_text, end='')
+        if status is not None:
+            status.text(update_text)
+        if progress_bar is not None:
+            progress_bar.progress(percent_complete / 100)
     print('')
     return predictions
     return top_guides.reset_index(drop=True)
+def find_off_targets(top_guides: pd.DataFrame, status=None, progress_bar=None):
     # load reference transcripts
     reference_transcripts = load_transcripts([os.path.join('transcripts', f) for f in REFERENCE_TRANSCRIPTS])
         percent_complete = 100 * min((i + 1) / len(reference_transcripts), 1)
         update_text = 'Scanning for off-targets: {:.2f}%'.format(percent_complete)
         print('\r' + update_text, end='')
+        if status is not None:
+            status.text(update_text)
+        if progress_bar is not None:
+            progress_bar.progress(percent_complete / 100)
     print('')
     return off_targets
     return off_targets.sort_values(SCORE_COL, ascending=False).reset_index(drop=True)
+def tiger_exhibit(transcripts: pd.DataFrame, mode: str, check_off_targets: bool, status=None, progress_bar=None):
     # load model
     if os.path.exists('model'):
         exit()
     # evaluate all on-target guides per transcript
+    on_target_predictions = get_on_target_predictions(transcripts, tiger, status, progress_bar)
     # initialize other outputs
     off_target_predictions = pd.DataFrame()
+    if mode == 'all' and not check_off_targets:
         pass  # nothing to do!
+    elif mode == 'top_guides':
         on_target_predictions = top_guides_per_transcript(on_target_predictions)
+    # TODO: add titration candidates
     else:
         raise NotImplementedError
     # check off-target effects for top guides
     if check_off_targets:
+        off_targets = find_off_targets(on_target_predictions, status, progress_bar)
         off_target_predictions = predict_off_target(off_targets, model=tiger)
     # reverse guide sequences