Spaces:

Knowles-Lab
/

tiger

Running on CPU Upgrade

App Files Files Community

Andrew Stirn commited on Feb 9, 2023

Commit

e38af10

1 Parent(s): a690e02

off-targets for gencode.v19.lncRNA_transcripts.fa.gz

Browse files

Files changed (1) hide show

tiger.py +16 -4

tiger.py CHANGED Viewed

@@ -14,6 +14,12 @@ NUCLEOTIDE_COMPLEMENT = dict(zip(['A', 'C', 'G', 'T'], ['T', 'G', 'C', 'A']))
 NUM_TOP_GUIDES = 10
 NUM_MISMATCHES = 3
 def sequence_complement(sequence: list):
     return [''.join([NUCLEOTIDE_COMPLEMENT[nt] for nt in list(seq)]) for seq in sequence]
@@ -78,17 +84,22 @@ def predict_on_target(transcript_seq: str, model: tf.keras.Model):
     return predictions
-def find_off_targets(guides, batch_size=1000):
     # load reference transcripts
-    with gzip.open(os.path.join('transcripts', 'gencode.v19.pc_transcripts.fa.gz'), 'rt') as file:
-        df_transcripts = pd.DataFrame([(t.id, str(t.seq)) for t in SeqIO.parse(file, 'fasta')], columns=['id', 'seq'])
-    df_transcripts['id'] = df_transcripts['id'].apply(lambda s: s.split('|')[4])
     df_transcripts.set_index('id', inplace=True)
     # one-hot encode guides to form a filter
     guide_filter = one_hot_encode_sequence(sequence_complement(guides), add_context_padding=False)
     guide_filter = tf.transpose(guide_filter, [1, 2, 0])
     # loop over transcripts in batches
     i = 0
@@ -101,6 +112,7 @@ def find_off_targets(guides, batch_size=1000):
         # find and log off-targets
         transcripts = one_hot_encode_sequence(df_batch['seq'].values.tolist(), add_context_padding=False)
         num_mismatches = GUIDE_LEN - tf.nn.conv1d(transcripts, guide_filter, stride=1, padding='SAME')
         loc_off_targets = tf.where(tf.round(num_mismatches) <= NUM_MISMATCHES).numpy()
         df_off_targets = pd.concat([df_off_targets, pd.DataFrame({

 NUM_TOP_GUIDES = 10
 NUM_MISMATCHES = 3
+# configure GPUs
+for gpu in tf.config.list_physical_devices('GPU'):
+    tf.config.experimental.set_memory_growth(gpu, enable=True)
+if len(tf.config.list_physical_devices('GPU')) > 0:
+    tf.config.experimental.set_visible_devices(tf.config.list_physical_devices('GPU')[0], 'GPU')
 def sequence_complement(sequence: list):
     return [''.join([NUCLEOTIDE_COMPLEMENT[nt] for nt in list(seq)]) for seq in sequence]
     return predictions
+def find_off_targets(guides, batch_size=500):
     # load reference transcripts
+    df_transcripts = pd.DataFrame()
+    for transcripts in ['gencode.v19.pc_transcripts.fa.gz', 'gencode.v19.lncRNA_transcripts.fa.gz']:
+        with gzip.open(os.path.join('transcripts', transcripts), 'rt') as file:
+            df = pd.DataFrame([(t.id, str(t.seq)) for t in SeqIO.parse(file, 'fasta')], columns=['id', 'seq'])
+        df_transcripts = pd.concat([df_transcripts, df])
+    df_transcripts['id'] = df_transcripts['id'].apply(lambda s: s.split('|')[0])
     df_transcripts.set_index('id', inplace=True)
+    assert not df_transcripts.index.has_duplicates
     # one-hot encode guides to form a filter
     guide_filter = one_hot_encode_sequence(sequence_complement(guides), add_context_padding=False)
     guide_filter = tf.transpose(guide_filter, [1, 2, 0])
+    guide_filter = tf.cast(guide_filter, tf.float16)
     # loop over transcripts in batches
     i = 0
         # find and log off-targets
         transcripts = one_hot_encode_sequence(df_batch['seq'].values.tolist(), add_context_padding=False)
+        transcripts = tf.cast(transcripts, guide_filter.dtype)
         num_mismatches = GUIDE_LEN - tf.nn.conv1d(transcripts, guide_filter, stride=1, padding='SAME')
         loc_off_targets = tf.where(tf.round(num_mismatches) <= NUM_MISMATCHES).numpy()
         df_off_targets = pd.concat([df_off_targets, pd.DataFrame({