Captain

Sleeping

mrbeliever commited on Aug 13, 2024

Commit

bd767c7

verified ·

1 Parent(s): 2b4dee5

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -34,12 +34,25 @@ def generate_caption(
     image: Image.Image,
     params: dict[str, Any] = DEFAULT_PARAMS,
 ) -> str:
     inputs = model.build_conversation_input_ids(
         tokenizer=tokenizer,
         query=DEFAULT_QUERY,
         history=[],
         images=[image],
     )
     inputs = {
         "input_ids": inputs["input_ids"].unsqueeze(0).to(device=DEVICE),
         "token_type_ids": inputs["token_type_ids"].unsqueeze(0).to(device=DEVICE),
@@ -78,8 +91,8 @@ css = """
     border-radius: 8px;
   }
   #run_button {
-    background-color: #ffffff;
-    color: black; /* White text */
     border-radius: 10px;
     padding: 10px;
     cursor: pointer;
@@ -95,7 +108,7 @@ css = """
 with gr.Blocks(css=css) as demo:
     with gr.Column(elem_id="container"):
         input_image = gr.Image(type="pil", elem_id="input_image")
-        run_button = gr.Button(value="Generate", elem_id="run_button")
         output_caption = gr.Textbox(label="Generated Caption", show_copy_button=True, elem_id="output_caption")
     run_button.click(

     image: Image.Image,
     params: dict[str, Any] = DEFAULT_PARAMS,
 ) -> str:
+    # Debugging: Check image size and format
+    print(f"Uploaded image format: {image.format}, size: {image.size}")
+    # Convert image to the expected format (if needed)
+    if image.mode != "RGB":
+        image = image.convert("RGB")
+        print(f"Image converted to RGB mode: {image.mode}")
     inputs = model.build_conversation_input_ids(
         tokenizer=tokenizer,
         query=DEFAULT_QUERY,
         history=[],
         images=[image],
     )
+    # Debugging: Check tensor shapes
+    print(f"Input IDs shape: {inputs['input_ids'].shape}")
+    print(f"Images tensor shape: {inputs['images'][0].shape}")
     inputs = {
         "input_ids": inputs["input_ids"].unsqueeze(0).to(device=DEVICE),
         "token_type_ids": inputs["token_type_ids"].unsqueeze(0).to(device=DEVICE),
     border-radius: 8px;
   }
   #run_button {
+    background-color: #000000; /* Dark button color */
+    color: white; /* White text */
     border-radius: 10px;
     padding: 10px;
     cursor: pointer;
 with gr.Blocks(css=css) as demo:
     with gr.Column(elem_id="container"):
         input_image = gr.Image(type="pil", elem_id="input_image")
+        run_button = gr.Button(value="Generate Caption", elem_id="run_button")
         output_caption = gr.Textbox(label="Generated Caption", show_copy_button=True, elem_id="output_caption")
     run_button.click(