Spaces:

Knowles-Lab
/

tiger

Running on CPU Upgrade

App Files Files Community

Andrew Stirn commited on May 6, 2023

Commit

a2591b6

1 Parent(s): 27992d2

ability to run locally

Browse files

Files changed (2) hide show

app.py +1 -1
tiger.py +14 -8

app.py CHANGED Viewed

@@ -78,7 +78,7 @@ else:
 # valid input
 if src_seq and all([True if nt.upper() in NUCLEOTIDE_TOKENS.keys() else False for nt in src_seq]):
     on_target, off_target = tiger_exhibit(pd.DataFrame(dict(id=['ManualEntry'], seq=[src_seq])),
-            status_bar, status_text, option)
     on_target.rename(columns={"Guide":"23 nt guide sequence"}, inplace=True)
     if len(on_target)>0:
         if on_target.iloc[0]["On-target ID"] == 0:

 # valid input
 if src_seq and all([True if nt.upper() in NUCLEOTIDE_TOKENS.keys() else False for nt in src_seq]):
     on_target, off_target = tiger_exhibit(pd.DataFrame(dict(id=['ManualEntry'], seq=[src_seq])),
+            status_bar, status_text, check_off_targets=option == 'On and Off Target')
     on_target.rename(columns={"Guide":"23 nt guide sequence"}, inplace=True)
     if len(on_target)>0:
         if on_target.iloc[0]["On-target ID"] == 0:

tiger.py CHANGED Viewed

@@ -24,6 +24,7 @@ for gpu in tf.config.list_physical_devices('GPU'):
 if len(tf.config.list_physical_devices('GPU')) > 0:
     tf.config.experimental.set_visible_devices(tf.config.list_physical_devices('GPU')[0], 'GPU')
 def load_transcripts(fasta_files):
     # load all transcripts from fasta files into a DataFrame
@@ -94,7 +95,6 @@ def process_data(transcript_seq: str):
         tf.reshape(one_hot_encode_sequence(target_seq, add_context_padding=False), [len(target_seq), -1]),
         tf.reshape(one_hot_encode_sequence(guide_seq, add_context_padding=True), [len(guide_seq), -1]),
         ], axis=-1)
-    print(model_inputs)
     return target_seq, guide_seq, model_inputs
@@ -188,7 +188,7 @@ def predict_off_target(off_targets: pd.DataFrame, model: tf.keras.Model):
     return off_targets.sort_values('Normalized LFC')
-def tiger_exhibit(transcripts: pd.DataFrame, status_bar=None, status_text=None, option=''):
     # load model
     if os.path.exists('model'):
@@ -214,13 +214,13 @@ def tiger_exhibit(transcripts: pd.DataFrame, status_bar=None, status_text=None,
     # predict off-target effects for top guides
     off_target_predictions = pd.DataFrame()
-    if option=='On and Off Target':
         off_targets = find_off_targets(on_target_predictions,  status_bar, status_text)
         off_target_predictions = predict_off_target(off_targets, model=tiger)
     # reverse guide sequences
     on_target_predictions['Guide'] = on_target_predictions['Guide'].apply(lambda s: s[::-1])
-    if option=='On and Off Target' and len(off_target_predictions) > 0:
         off_target_predictions['Guide'] = off_target_predictions['Guide'].apply(lambda s: s[::-1])
     return on_target_predictions.reset_index(drop=True), off_target_predictions.reset_index(drop=True)
@@ -230,6 +230,7 @@ if __name__ == '__main__':
     # common arguments
     parser = argparse.ArgumentParser()
     parser.add_argument('--fasta_path', type=str, default=None)
     parser.add_argument('--simple_test', action='store_true', default=False)
     args = parser.parse_args()
@@ -239,13 +240,17 @@ if __name__ == '__main__':
         # first 50 from EIF3B-003's CDS
         simple_test = pd.DataFrame(dict(id=['ManualEntry'], seq=['ATGCAGGACGCGGAGAACGTGGCGGTGCCCGAGGCGGCCGAGGAGCGCGC']))
         simple_test.set_index('id', inplace=True)
-        df_on_target, df_off_target = tiger_exhibit(simple_test)
         df_on_target.to_csv('on_target.csv')
         df_off_target.to_csv('off_target.csv')
     # directory of fasta files
     elif args.fasta_path is not None and os.path.exists(args.fasta_path):
         # load transcripts
         df_transcripts = load_transcripts([os.path.join(args.fasta_path, f) for f in os.listdir(args.fasta_path)])
@@ -259,11 +264,12 @@ if __name__ == '__main__':
             # run batch
             idx_stop = min(idx + BATCH_SIZE_TRANSCRIPTS, len(df_transcripts))
-            df_on_target, df_off_target = tiger_exhibit(df_transcripts[idx:idx_stop])
             # save batch results
-            df_on_target.to_csv('on_target_{:d}.csv'.format(batch), index=False)
-            df_off_target.to_csv('off_target_{:d}.csv'.format(batch), index=False)
             # clear session to prevent memory blow up
             tf.keras.backend.clear_session()

 if len(tf.config.list_physical_devices('GPU')) > 0:
     tf.config.experimental.set_visible_devices(tf.config.list_physical_devices('GPU')[0], 'GPU')
 def load_transcripts(fasta_files):
     # load all transcripts from fasta files into a DataFrame
         tf.reshape(one_hot_encode_sequence(target_seq, add_context_padding=False), [len(target_seq), -1]),
         tf.reshape(one_hot_encode_sequence(guide_seq, add_context_padding=True), [len(guide_seq), -1]),
         ], axis=-1)
     return target_seq, guide_seq, model_inputs
     return off_targets.sort_values('Normalized LFC')
+def tiger_exhibit(transcripts: pd.DataFrame, status_bar=None, status_text=None, check_off_targets=False):
     # load model
     if os.path.exists('model'):
     # predict off-target effects for top guides
     off_target_predictions = pd.DataFrame()
+    if check_off_targets:
         off_targets = find_off_targets(on_target_predictions,  status_bar, status_text)
         off_target_predictions = predict_off_target(off_targets, model=tiger)
     # reverse guide sequences
     on_target_predictions['Guide'] = on_target_predictions['Guide'].apply(lambda s: s[::-1])
+    if check_off_targets and len(off_target_predictions) > 0:
         off_target_predictions['Guide'] = off_target_predictions['Guide'].apply(lambda s: s[::-1])
     return on_target_predictions.reset_index(drop=True), off_target_predictions.reset_index(drop=True)
     # common arguments
     parser = argparse.ArgumentParser()
+    parser.add_argument('--check_off_targets', action='store_true', default=False)
     parser.add_argument('--fasta_path', type=str, default=None)
     parser.add_argument('--simple_test', action='store_true', default=False)
     args = parser.parse_args()
         # first 50 from EIF3B-003's CDS
         simple_test = pd.DataFrame(dict(id=['ManualEntry'], seq=['ATGCAGGACGCGGAGAACGTGGCGGTGCCCGAGGCGGCCGAGGAGCGCGC']))
         simple_test.set_index('id', inplace=True)
+        df_on_target, df_off_target = tiger_exhibit(simple_test, check_off_targets=args.check_off_targets)
         df_on_target.to_csv('on_target.csv')
         df_off_target.to_csv('off_target.csv')
     # directory of fasta files
     elif args.fasta_path is not None and os.path.exists(args.fasta_path):
+        # check for any existing results
+        if os.path.exists('on_target.csv') or os.path.exists('off_target.csv'):
+            raise FileExistsError('please rename or delete existing results')
         # load transcripts
         df_transcripts = load_transcripts([os.path.join(args.fasta_path, f) for f in os.listdir(args.fasta_path)])
             # run batch
             idx_stop = min(idx + BATCH_SIZE_TRANSCRIPTS, len(df_transcripts))
+            df_on_target, df_off_target = tiger_exhibit(df_transcripts[idx:idx_stop], check_off_targets=args.check_off_targets)
             # save batch results
+            df_on_target.to_csv('on_target.csv', header=batch == 1, index=False, mode='a')
+            if args.check_off_targets:
+                df_off_target.to_csv('off_target.csv', header=batch == 1, index=False, mode='a')
             # clear session to prevent memory blow up
             tf.keras.backend.clear_session()