Spaces:

davanstrien
/

deepseek-ocr

Runtime error

davanstrien HF Staff commited on 23 days ago

Commit

40f1c08

1 Parent(s): 1411932

Fix TOKENIZER initialization for vLLM compatibility

- Initialize tokenizer at module import time in config.py
- Remove redundant tokenizer initialization from main.py
- Fixes AttributeError during vLLM AsyncEngine profile run

Files changed (2) hide show

config.py +3 -2
main.py +1 -4

config.py CHANGED Viewed

@@ -24,8 +24,9 @@ OUTPUT_PATH = ''
 # Default prompt
 PROMPT = '<image>\n<|grounding|>Convert the document to markdown.'
-# Tokenizer (will be initialized in main.py)
-TOKENIZER = None
 def set_resolution_mode(mode: str):

 # Default prompt
 PROMPT = '<image>\n<|grounding|>Convert the document to markdown.'
+# Tokenizer - initialized at import time for vLLM compatibility
+from transformers import AutoTokenizer
+TOKENIZER = AutoTokenizer.from_pretrained(MODEL_PATH, trust_remote_code=True)
 def set_resolution_mode(mode: str):

main.py CHANGED Viewed

@@ -20,7 +20,6 @@ from datasets import load_dataset
 from huggingface_hub import DatasetCard, login
 from PIL import Image, ImageOps
 from tqdm.auto import tqdm
-from transformers import AutoTokenizer
 from vllm import AsyncLLMEngine, SamplingParams
 from vllm.engine.arg_utils import AsyncEngineArgs
 from vllm.model_executor.models.registry import ModelRegistry
@@ -256,9 +255,7 @@ async def main_async(
     # Set up config for resolution mode
     setup_config(resolution_mode)
-    # Initialize tokenizer
-    logger.info(f"Loading tokenizer from {model}...")
-    config.TOKENIZER = AutoTokenizer.from_pretrained(model, trust_remote_code=True)
     config.MODEL_PATH = model
     config.PROMPT = prompt

 from huggingface_hub import DatasetCard, login
 from PIL import Image, ImageOps
 from tqdm.auto import tqdm
 from vllm import AsyncLLMEngine, SamplingParams
 from vllm.engine.arg_utils import AsyncEngineArgs
 from vllm.model_executor.models.registry import ModelRegistry
     # Set up config for resolution mode
     setup_config(resolution_mode)
+    # Set model and prompt (tokenizer already initialized in config.py)
     config.MODEL_PATH = model
     config.PROMPT = prompt