Spaces:

gaur3009
/

training_and_generation

Sleeping

App Files Files Community

gaur3009 commited on Sep 7

Commit

709c9f6

verified ·

1 Parent(s): b5317df

Update app.py

Browse files

Files changed (1) hide show

app.py +65 -24

app.py CHANGED Viewed

@@ -11,15 +11,12 @@ import torch
 file_path = "marketing-campaigns.csv"
 df = pd.read_csv(file_path)
-# Flexible column handling
-if "description" in df.columns:
-    df = df.dropna(subset=["campaign_name", "description"])
-    df["text"] = df["campaign_name"].astype(str) + ": " + df["description"].astype(str)
-elif "campaign_name" in df.columns:
-    df = df.dropna(subset=["campaign_name"])
-    df["text"] = df["campaign_name"].astype(str)
-else:
-    raise ValueError("CSV must contain at least a 'campaign_name' column")
 # -------------------------------
 # Embeddings + FAISS
@@ -35,7 +32,7 @@ index.add(embeddings_np)
 # -------------------------------
 # Load LLM (Phi-4-mini)
 # -------------------------------
-model_name = "microsoft/phi-2"
 tokenizer = AutoTokenizer.from_pretrained(model_name)
 model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.float32, device_map="auto")
@@ -43,37 +40,81 @@ model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.float
 # RAG functions
 # -------------------------------
 def retrieve_context(query, k=3):
     query_vec = embed_model.encode([query], convert_to_tensor=True).cpu().numpy()
-    D, I = index.search(query_vec, k)
     results = [df.iloc[i]["text"] for i in I[0]]
     return results
-def generate_with_rag(prompt):
-    context = retrieve_context(prompt, k=3)
-    context_str = "\n".join(context)
     rag_prompt = f"""
-    You are an AI marketing assistant.
-    Here are some past campaigns for reference:\n{context_str}\n
-    Based on these, generate a new creative campaign idea for: {prompt}
     """
     inputs = tokenizer(rag_prompt, return_tensors="pt").to(model.device)
-    outputs = model.generate(**inputs, max_length=200, temperature=0.7, top_p=0.9)
     return tokenizer.decode(outputs[0], skip_special_tokens=True)
 # -------------------------------
 # Gradio UI
 # -------------------------------
 with gr.Blocks() as demo:
-    gr.Markdown("## 🤖 RAG-powered AI Marketing Campaign Generator")
-    with gr.Row():
-        query = gr.Textbox(label="Enter campaign idea or keyword")
-        output = gr.Textbox(label="Generated Campaign")
-        btn = gr.Button("Generate with RAG")
-    btn.click(generate_with_rag, inputs=query, outputs=output)
 if __name__ == "__main__":
     demo.launch()

 file_path = "marketing-campaigns.csv"
 df = pd.read_csv(file_path)
+if df.empty:
+    raise ValueError("CSV is empty. Please provide a dataset with campaign info.")
+# Join all columns to form knowledge text
+df = df.dropna()
+df["text"] = df.astype(str).agg(" | ".join, axis=1)
 # -------------------------------
 # Embeddings + FAISS
 # -------------------------------
 # Load LLM (Phi-4-mini)
 # -------------------------------
+model_name = "microsoft/phi-4-mini"
 tokenizer = AutoTokenizer.from_pretrained(model_name)
 model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.float32, device_map="auto")
 # RAG functions
 # -------------------------------
 def retrieve_context(query, k=3):
+    """Retrieve top-k similar rows from dataset"""
+    if not query.strip():
+        return []
     query_vec = embed_model.encode([query], convert_to_tensor=True).cpu().numpy()
+    D, I = index.search(query_vec, min(k, len(df)))
     results = [df.iloc[i]["text"] for i in I[0]]
     return results
+def generate_with_rag(prompt, k=3, temperature=0.7):
+    if not prompt.strip():
+        return "⚠️ Please enter a campaign idea or theme."
+    # Step 1: Retrieve supporting facts
+    context = retrieve_context(prompt, k)
+    if not context:
+        return "⚠️ No relevant context found in dataset."
+    context_str = "\n".join(context[:k])
+    # Step 2: Build grounded structured prompt
     rag_prompt = f"""
+    You are a top-tier creative marketing AI assistant.
+    Use the following supporting dataset entries as context:
+    {context_str}
+    Task: Generate a **structured marketing campaign** for:
+    {prompt}
+    Format your answer clearly with:
+    - 📌 Campaign Title
+    - ✨ Tagline
+    - 🧑‍🤝‍🧑 Target Audience
+    - 🎯 Key Selling Points
+    - 🎬 Creative Idea
     """
+    # Step 3: LLM Generation
     inputs = tokenizer(rag_prompt, return_tensors="pt").to(model.device)
+    outputs = model.generate(
+        **inputs,
+        max_length=300,
+        temperature=float(temperature),
+        top_p=0.9,
+        do_sample=True
+    )
     return tokenizer.decode(outputs[0], skip_special_tokens=True)
+def search_dataset(query, k=5):
+    """Search dataset and return top matching rows"""
+    context = retrieve_context(query, k)
+    if not context:
+        return "⚠️ No results found."
+    return "\n\n".join(context)
 # -------------------------------
 # Gradio UI
 # -------------------------------
 with gr.Blocks() as demo:
+    gr.Markdown("# 🤖 RAG-powered Creative Campaign Assistant")
+    gr.Markdown("Generate **smart, creative, and data-grounded campaigns** with retrieval-augmented AI.")
+    with gr.Tab("🔎 Explore Dataset"):
+        search_query = gr.Textbox(label="Search dataset by keyword / theme")
+        search_results = gr.Textbox(label="Top Matches", lines=10)
+        search_btn = gr.Button("Search")
+        search_btn.click(search_dataset, inputs=search_query, outputs=search_results)
+    with gr.Tab("✍️ Generate Campaign"):
+        with gr.Row():
+            prompt = gr.Textbox(label="Enter campaign idea / theme", lines=3)
+        with gr.Row():
+            k_slider = gr.Slider(1, 10, value=3, step=1, label="Number of supporting facts (k)")
+            temp_slider = gr.Slider(0.3, 1.2, value=0.7, step=0.1, label="Creativity (temperature)")
+        campaign_output = gr.Textbox(label="Generated Campaign", lines=15)
+        gen_btn = gr.Button("Generate with RAG")
+        gen_btn.click(generate_with_rag, inputs=[prompt, k_slider, temp_slider], outputs=campaign_output)
 if __name__ == "__main__":
     demo.launch()