Spaces:

wanifuck
/

dots-ocr-space

Running

wanifuck Claude commited on Aug 20

Commit

8769d6a

1 Parent(s): ff33c55

fix: tiktoken依存関係追加とAPI構造修正

- requirements.txtにtiktoken>=0.5.0を追加
- BitsAndBytesConfigで現代的な量子化設定に更新
- GradioのAPI構造を修正してocr_apiエンドポイントを適切に公開

🤖 Generated with [Claude Code](https://claude.ai/code)

Co-Authored-By: Claude <noreply@anthropic.com>

Files changed (2) hide show

app.py +24 -8
requirements.txt +2 -1

app.py CHANGED Viewed

@@ -11,7 +11,7 @@ import base64
 import json
 import time
 from PIL import Image
-from transformers import AutoModel, AutoTokenizer
 import logging
 # ロギング設定
@@ -33,6 +33,12 @@ def load_model():
     try:
         logger.info("dots.ocr (GOT-OCR2_0) モデルを読み込み中...")
         # モデルとトークナイザーを読み込み（最大メモリ効率化）
         model = AutoModel.from_pretrained(
             'ucaslcl/GOT-OCR2_0',
@@ -41,7 +47,7 @@ def load_model():
             device_map='auto',
             use_safetensors=True,
             torch_dtype=torch.float16,  # メモリ使用量を半減
-            load_in_8bit=True,          # 8bit量子化でさらに削減
             pad_token_id=151643
         ).eval()
@@ -226,13 +232,23 @@ with gr.Blocks(
         outputs=[text_output, metadata_output, json_output]
     )
-    # API用エンドポイント
-    gr.Interface(
         fn=api_interface,
-        inputs=gr.Image(type="pil"),
-        outputs=gr.JSON(),
-        title="API Endpoint",
-        description="このエンドポイントはプログラムからの呼び出し用です",
         api_name="ocr_api"
     )

 import json
 import time
 from PIL import Image
+from transformers import AutoModel, AutoTokenizer, BitsAndBytesConfig
 import logging
 # ロギング設定
     try:
         logger.info("dots.ocr (GOT-OCR2_0) モデルを読み込み中...")
+        # 8bit量子化設定
+        quantization_config = BitsAndBytesConfig(
+            load_in_8bit=True,
+            bnb_8bit_compute_dtype=torch.float16
+        )
         # モデルとトークナイザーを読み込み（最大メモリ効率化）
         model = AutoModel.from_pretrained(
             'ucaslcl/GOT-OCR2_0',
             device_map='auto',
             use_safetensors=True,
             torch_dtype=torch.float16,  # メモリ使用量を半減
+            quantization_config=quantization_config,  # 現代的な量子化設定
             pad_token_id=151643
         ).eval()
         outputs=[text_output, metadata_output, json_output]
     )
+    # API用のシンプルなエンドポイント（独立したInterface）
+    with gr.Row():
+        gr.Markdown("# API Endpoint")
+    with gr.Row():
+        gr.Markdown("このエンドポイントはプログラムからの呼び出し用です")
+    # API専用のInterface
+    api_image = gr.Image(type="pil", label="image")
+    api_submit = gr.Button("Submit")
+    api_output = gr.JSON(label="output")
+    # API用の関数
+    api_submit.click(
         fn=api_interface,
+        inputs=[api_image],
+        outputs=[api_output],
         api_name="ocr_api"
     )

requirements.txt CHANGED Viewed

@@ -10,4 +10,5 @@ bitsandbytes>=0.41.0
 scipy>=1.10.0
 numpy>=1.24.0
 huggingface-hub>=0.17.0
-verovio>=4.0.0

 scipy>=1.10.0
 numpy>=1.24.0
 huggingface-hub>=0.17.0
+verovio>=4.0.0
+tiktoken>=0.5.0