Spaces:

Knowles-Lab
/

tiger

Running on CPU Upgrade

App Files Files Community

Andrew Stirn commited on Jan 5, 2023

Commit

1ef81e0

1 Parent(s): eac7d3f

off target scanning

Browse files

Files changed (1) hide show

tiger.py +60 -4

tiger.py CHANGED Viewed

@@ -1,6 +1,7 @@
 import os
-import tensorflow as tf
 import pandas as pd
 from Bio import SeqIO
 GUIDE_LEN = 23
@@ -78,13 +79,68 @@ def tiger_predict(transcript_seq: str):
     # get predictions
     normalized_lfc = tiger.predict_step(model_inputs)
     predictions = pd.DataFrame({'Guide': guide_seq, 'Normalized LFC': tf.squeeze(normalized_lfc).numpy()})
     return predictions
 if __name__ == '__main__':
     # simple test case
-    transcript_sequence = 'ACGTACGTACGTACGTACGTACGTACGTACGT'.lower()
-    df = tiger_predict(transcript_sequence)
-    print(df)

 import os
+import numpy as np
 import pandas as pd
+import tensorflow as tf
 from Bio import SeqIO
 GUIDE_LEN = 23
     # get predictions
     normalized_lfc = tiger.predict_step(model_inputs)
     predictions = pd.DataFrame({'Guide': guide_seq, 'Normalized LFC': tf.squeeze(normalized_lfc).numpy()})
+    predictions = predictions.set_index('Guide').sort_values('Normalized LFC')
     return predictions
+def find_off_targets(guides, batch_size=1000):
+    with open('gencode.v19.pc_transcripts.fa', 'r') as file:
+        df_transcripts = pd.DataFrame([(t.id, str(t.seq)) for t in SeqIO.parse(file, 'fasta')], columns=['id', 'seq'])
+    df_transcripts['id'] = df_transcripts['id'].apply(lambda s: s.split('|')[4])
+    df_transcripts.set_index('id', inplace=True)
+    # one-hot encode guides to form a filter
+    guide_filter = one_hot_encode_sequence(sequence_complement(guides), add_context_padding=False)
+    guide_filter = tf.transpose(guide_filter, [1, 2, 0])
+    # loop over transcripts in batches
+    i = 0
+    print('Scanning for off-targets')
+    df_off_targets = pd.DataFrame()
+    while i < len(df_transcripts):
+        # select batch
+        df_batch = df_transcripts.iloc[i:min(i + batch_size, len(df_transcripts))]
+        i += batch_size
+        # find and log off-targets
+        transcripts = one_hot_encode_sequence(df_batch['seq'].values.tolist(), add_context_padding=False)
+        num_mismatches = GUIDE_LEN - tf.nn.conv1d(transcripts, guide_filter, stride=1, padding='SAME')
+        loc_off_targets = tf.where(num_mismatches <= NUM_MISMATCHES).numpy()
+        df_off_targets = pd.concat([df_off_targets, pd.DataFrame({
+            'Guide': np.array(guides)[loc_off_targets[:, 2]],
+            'Isoform': df_batch.index.values[loc_off_targets[:, 0]],
+            'Mismatches': tf.gather_nd(num_mismatches, loc_off_targets).numpy().astype(int),
+            'Midpoint': loc_off_targets[:, 1],
+            'Target': df_batch['seq'].values[loc_off_targets[:, 0]],
+        })])
+        # progress update
+        print('\rPercent complete: {:.2f}%'.format(100 * min(i / len(df_transcripts), 1)), end='')
+    print('')
+    # trim transcripts to targets
+    dict_off_targets = df_off_targets.to_dict('records')
+    for row in dict_off_targets:
+        start_location = row['Midpoint'] - (GUIDE_LEN // 2) - CONTEXT_5P
+        row['Target'] = row['Target'][start_location:start_location + TARGET_LEN]
+        if row['Mismatches'] == 0:
+            assert row['Guide'] == sequence_complement([row['Target'][CONTEXT_5P:TARGET_LEN-CONTEXT_3P]])[0]
+    df_off_targets = pd.DataFrame(dict_off_targets)
+    return df_off_targets
 if __name__ == '__main__':
     # simple test case
+    transcript_sequence = 'ATGCAGGACGCGGAGAACGTGGCGGTGCCCGAGGCGGCCGAGGAGCGCGC'.lower()  # first 50 from EIF3B-003's CDS
+    sorted_predictions = tiger_predict(transcript_sequence)
+    # report top guides only
+    sorted_predictions = sorted_predictions.iloc[:NUM_TOP_GUIDES]
+    print(sorted_predictions)
+    # scan for off-targets for top guides
+    off_targets = find_off_targets(sorted_predictions.index.values.tolist())
+    print(off_targets)