better fix out of vocab tokens (#6)

Files changed (1) hide show

tokenization_interns1.py CHANGED Viewed

@@ -891,11 +891,13 @@ class InternS1Tokenizer(Qwen2Tokenizer):
         else:
             return self.encoder.get(token, self.encoder.get(self._unk_token))
     def convert_tokens_to_string(self, tokens):
         """Converts a sequence of tokens (string) in a single string."""
-        text = ""
-        for token in tokens:
-            text += token if token else ""
         text = text.replace(
             "▁", "Ġ"
         )  # This discrepancy stems from differing whitespace treatment in SentencePiece versus BPE tokenization.

         else:
             return self.encoder.get(token, self.encoder.get(self._unk_token))
+    def _convert_id_to_token(self, index):
+        """Converts an index (integer) in a token (str) using the vocab."""
+        return self.decoder.get(index, "")
     def convert_tokens_to_string(self, tokens):
         """Converts a sequence of tokens (string) in a single string."""
+        text = "".join(tokens)
         text = text.replace(
             "▁", "Ġ"
         )  # This discrepancy stems from differing whitespace treatment in SentencePiece versus BPE tokenization.