Spaces:

Vageesh1
/

clip_gpt2

Sleeping

App Files Files Community

Vageesh1 commited on May 9, 2023

Commit

0225049

1 Parent(s): 8e60890

Upload 3 files

Browse files

Files changed (3) hide show

COCO_model.h5 +3 -0
app.py +63 -0
model.h5 +3 -0

COCO_model.h5 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:35200360d19ea02ce5c8f007c8bf6d8297e3c16ae3b3fb4b6eeb24ec1c07f8e6
+size 636283447

app.py ADDED Viewed

	@@ -0,0 +1,63 @@

+import torch
+import clip
+import PIL.Image
+import skimage.io as io
+import streamlit as st
+from transformers import GPT2Tokenizer, GPT2LMHeadModel, AdamW, get_linear_schedule_with_warmup
+from model import preprocess,clip_model,generate2,ClipCaptionModel
+#model loading code
+device =  "cpu"
+clip_model, preprocess = clip.load("ViT-B/32", device=device, jit=False)
+tokenizer = GPT2Tokenizer.from_pretrained("gpt2")
+prefix_length = 10
+model = ClipCaptionModel(prefix_length)
+model.load_state_dict(torch.load('C:\Deep learning lab\DLops Project\Cl+gpt2\model.h5',map_location=torch.device('cpu')))
+model = model.eval()
+coco_model = ClipCaptionModel(prefix_length)
+coco_model.load_state_dict(torch.load('C:\Deep learning lab\DLops Project\Cl+gpt2\COCO_model.h5',map_location=torch.device('cpu')))
+model = model.eval()
+def ui():
+    st.markdown("# Image Captioning")
+    uploaded_file = st.file_uploader("Upload an Image", type=['png', 'jpeg', 'jpg'])
+    if uploaded_file is not None:
+        image = io.imread(uploaded_file)
+        pil_image = PIL.Image.fromarray(image)
+        image = preprocess(pil_image).unsqueeze(0).to(device)
+        option = st.selectbox('Please select the Model',('Model', 'COCO Model'))
+        if option=='Model':
+            with torch.no_grad():
+                prefix = clip_model.encode_image(image).to(device, dtype=torch.float32)
+                prefix_embed = model.clip_project(prefix).reshape(1, prefix_length, -1)
+            generated_text_prefix = generate2(model, tokenizer, embed=prefix_embed)
+            st.image(uploaded_file, width = 500, channels = 'RGB')
+            st.markdown("**PREDICTION:** " + generated_text_prefix)
+        elif option=='COCO Model':
+            with torch.no_grad():
+                prefix = clip_model.encode_image(image).to(device, dtype=torch.float32)
+                prefix_embed = model.clip_project(prefix).reshape(1, prefix_length, -1)
+            generated_text_prefix = generate2(coco_model, tokenizer, embed=prefix_embed)
+            st.image(uploaded_file, width = 500, channels = 'RGB')
+            st.markdown("**PREDICTION:** " + generated_text_prefix)
+if __name__ == '__main__':
+    ui()

model.h5 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2a36a09076b9779de2807d3aa533d455a398d70c1250aeb24a5cc9110e3d59a4
+size 636272061