Spaces:

olacode55
/

zimble

Sleeping

olacode55 commited on 25 days ago

Commit

9f17d88

verified ·

1 Parent(s): 6a531fb

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,24 +1,37 @@
 import gradio as gr
 from transformers import AutoTokenizer, AutoModelForCausalLM
 from peft import PeftModel
-import torch
 base_model = "meta-llama/Llama-2-7b-chat-hf"
 adapter_model = "olacode55/zimble-llama2"
 tokenizer = AutoTokenizer.from_pretrained(base_model)
 base = AutoModelForCausalLM.from_pretrained(
     base_model,
     torch_dtype=torch.float16 if torch.cuda.is_available() else torch.float32,
-    device_map="auto"
 )
 model = PeftModel.from_pretrained(base, adapter_model)
 def generate(prompt):
     inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
     outputs = model.generate(**inputs, max_new_tokens=200, temperature=0.7)
     return tokenizer.decode(outputs[0], skip_special_tokens=True)
 demo = gr.Interface(fn=generate, inputs="text", outputs="text", title="Zimble LLaMA 2 Fine-Tuned")
 demo.launch()

+import os
+import torch
 import gradio as gr
+from huggingface_hub import login
 from transformers import AutoTokenizer, AutoModelForCausalLM
 from peft import PeftModel
+# === STEP 1: Authenticate with Hugging Face ===
+# Make sure you set your HF token as an environment variable or paste it here temporarily
+# For security, prefer environment variable (recommended)
+os.environ["HF_TOKEN"] = "boewmwFyewoJuARzTMoCNFLVyYNQSMDUvx"
+login(token=os.getenv("HF_TOKEN"))
+# === STEP 2: Load base and adapter models ===
 base_model = "meta-llama/Llama-2-7b-chat-hf"
 adapter_model = "olacode55/zimble-llama2"
 tokenizer = AutoTokenizer.from_pretrained(base_model)
 base = AutoModelForCausalLM.from_pretrained(
     base_model,
     torch_dtype=torch.float16 if torch.cuda.is_available() else torch.float32,
+    device_map="auto",
+    use_auth_token="hf_" +os.getenv("HF_TOKEN")  # ensure it uses your auth
 )
 model = PeftModel.from_pretrained(base, adapter_model)
+# === STEP 3: Define generation function ===
 def generate(prompt):
     inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
     outputs = model.generate(**inputs, max_new_tokens=200, temperature=0.7)
     return tokenizer.decode(outputs[0], skip_special_tokens=True)
+# === STEP 4: Launch Gradio app ===
 demo = gr.Interface(fn=generate, inputs="text", outputs="text", title="Zimble LLaMA 2 Fine-Tuned")
 demo.launch()