dev-mode-orpheus-tts

Paused

App Files Files Community

Tomtom84 commited on Jun 9

Commit

1dac694

verified ·

1 Parent(s): 1a347c6

Update orpheus-tts/kartoffel_decoder.py

Browse files

Files changed (1) hide show

orpheus-tts/kartoffel_decoder.py +19 -4

orpheus-tts/kartoffel_decoder.py CHANGED Viewed

@@ -6,9 +6,9 @@ import threading
 import queue
 import os
-# Kartoffel-spezifische Konstanten
 CODE_TOKEN_OFFSET = 128266
-CODE_START_TOKEN_ID = 128257
 CODE_REMOVE_TOKEN_ID = 128258
 print("DEBUG KARTOFFEL: Loading SNAC model...")
@@ -75,8 +75,17 @@ def convert_to_audio_kartoffel(audio_tensor):
 def extract_kartoffel_tokens(token_text, tokenizer):
     """Extrahiert Audio-Token-IDs aus dem generierten Text"""
     try:
-        # Text zu Token-IDs konvertieren
-        token_ids = tokenizer.encode(token_text)
         # Nach Start-Token suchen
         start_idx = -1
@@ -86,10 +95,14 @@ def extract_kartoffel_tokens(token_text, tokenizer):
                 break
         if start_idx == -1:
             return []
         # Audio-Tokens extrahieren (nach Start-Token)
         potential_code_tokens = token_ids[start_idx + 1:]
         # Nur gültige Audio-Tokens (>= CODE_TOKEN_OFFSET, nicht REMOVE_TOKEN)
         valid_raw_codes = [
@@ -97,6 +110,8 @@ def extract_kartoffel_tokens(token_text, tokenizer):
             if token != CODE_REMOVE_TOKEN_ID and token >= CODE_TOKEN_OFFSET
         ]
         # Offset abziehen
         valid_codes = [token - CODE_TOKEN_OFFSET for token in valid_raw_codes]

 import queue
 import os
+# Kartoffel-spezifische Konstanten (basierend auf Referenz-Implementierung)
 CODE_TOKEN_OFFSET = 128266
+CODE_START_TOKEN_ID = 128257  # Token für Audio-Code-Start
 CODE_REMOVE_TOKEN_ID = 128258
 print("DEBUG KARTOFFEL: Loading SNAC model...")
 def extract_kartoffel_tokens(token_text, tokenizer):
     """Extrahiert Audio-Token-IDs aus dem generierten Text"""
     try:
+        print(f"DEBUG KARTOFFEL: Received token_text: {token_text}")
+        # Prüfen ob es sich um numerische Token-IDs handelt (neues Format)
+        if isinstance(token_text, str) and all(c.isdigit() or c.isspace() for c in token_text):
+            # Numerische Token-IDs direkt parsen
+            token_ids = [int(x) for x in token_text.split()]
+            print(f"DEBUG KARTOFFEL: Parsed token_ids from string: {token_ids}")
+        else:
+            # Fallback: Text zu Token-IDs konvertieren (altes Format)
+            token_ids = tokenizer.encode(token_text)
+            print(f"DEBUG KARTOFFEL: Encoded token_ids: {token_ids}")
         # Nach Start-Token suchen
         start_idx = -1
                 break
         if start_idx == -1:
+            print(f"DEBUG KARTOFFEL: No start token found ({CODE_START_TOKEN_ID})")
             return []
+        print(f"DEBUG KARTOFFEL: Found start token at index {start_idx}")
         # Audio-Tokens extrahieren (nach Start-Token)
         potential_code_tokens = token_ids[start_idx + 1:]
+        print(f"DEBUG KARTOFFEL: Potential code tokens: {potential_code_tokens[:10]}...")
         # Nur gültige Audio-Tokens (>= CODE_TOKEN_OFFSET, nicht REMOVE_TOKEN)
         valid_raw_codes = [
             if token != CODE_REMOVE_TOKEN_ID and token >= CODE_TOKEN_OFFSET
         ]
+        print(f"DEBUG KARTOFFEL: Valid raw codes count: {len(valid_raw_codes)}")
         # Offset abziehen
         valid_codes = [token - CODE_TOKEN_OFFSET for token in valid_raw_codes]