Spaces:

minhvtt
/

ChatbotRAG

Sleeping

App Files Files Community

minhvtt commited on 1 day ago

Commit

caa8975

verified ·

1 Parent(s): e05f8fb

Upload 14 files

Browse files

Files changed (1) hide show

main.py +46 -156

main.py CHANGED Viewed

@@ -683,167 +683,57 @@ async def get_stats():
 @app.post("/chat", response_model=ChatResponse)
 async def chat(request: ChatRequest):
     """
-    Chat endpoint với RAG
-    Body:
-    - message: User message
     - use_rag: Enable RAG retrieval (default: true)
-    - top_k: Number of documents to retrieve (default: 3)
-    - system_message: System prompt (optional)
-    - max_tokens: Max tokens for response (default: 512)
-    - temperature: Temperature for generation (default: 0.7)
-    - hf_token: Hugging Face token (optional, sẽ dùng env nếu không truyền)
     Returns:
-    - response: Generated response
     - context_used: Retrieved context documents
     - timestamp: Response timestamp
     """
-    try:
-        # Retrieve context if RAG enabled
-        context_used = []
-        rag_stats = None
-        if request.use_rag:
-            if request.use_advanced_rag:
-                # Use Advanced RAG Pipeline (Best Case 2025)
-                hf_client = None
-                if request.hf_token or hf_token:
-                    hf_client = InferenceClient(token=request.hf_token or hf_token)
-                documents, stats = advanced_rag.hybrid_rag_pipeline(
-                    query=request.message,
-                    top_k=request.top_k,
-                    score_threshold=request.score_threshold,
-                    use_reranking=request.use_reranking,
-                    use_compression=request.use_compression,
-                    use_query_expansion=request.use_query_expansion,
-                    max_context_tokens=500,
-                    hf_client=hf_client
-                )
-                # Convert to dict format
-                context_used = [
-                    {
-                        "id": doc.id,
-                        "confidence": doc.confidence,
-                        "metadata": doc.metadata
-                    }
-                    for doc in documents
-                ]
-                rag_stats = stats
-                # Format context using Advanced RAG
-                context_text = advanced_rag.format_context_for_llm(documents)
-            else:
-                # Basic RAG (fallback)
-                query_embedding = embedding_service.encode_text(request.message)
-                results = qdrant_service.search(
-                    query_embedding=query_embedding,
-                    limit=request.top_k,
-                    score_threshold=request.score_threshold
-                )
-                context_used = results
-                context_text = "\n\nRelevant Context:\n"
-                for i, doc in enumerate(context_used, 1):
-                    doc_text = doc["metadata"].get("text", "")
-                    if not doc_text:
-                        doc_text = " ".join(doc["metadata"].get("texts", []))
-                    confidence = doc["confidence"]
-                    context_text += f"\n[{i}] (Confidence: {confidence:.2f})\n{doc_text}\n"
-        # Build system message with context
-        if request.use_rag and context_used:
-            if request.use_advanced_rag:
-                # Use Advanced RAG prompt builder
-                system_message = advanced_rag.build_rag_prompt(
-                    query=request.message,
-                    context=context_text,
-                    system_message=request.system_message
-                )
-            else:
-                # Basic prompt
-                # Basic prompt with better instructions
-                system_message = f"""{request.system_message}
-{context_text}
-HƯỚNG DẪN:
-- Sử dụng thông tin từ context trên để trả lời câu h��i.
-- Trả lời tự nhiên, thân thiện, không copy nguyên văn.
-- Nếu tìm thấy sự kiện, hãy tóm tắt các thông tin quan trọng nhất.
-"""
-        else:
-            system_message = request.system_message
-        # Use token from request or fallback to env
-        token = request.hf_token or hf_token
-        # Generate response
-        if not token:
-            response = f"""[LLM Response Placeholder]
-Context retrieved: {len(context_used)} documents
-User question: {request.message}
-To enable actual LLM generation:
-1. Set HUGGINGFACE_TOKEN environment variable, OR
-2. Pass hf_token in request body
-Example:
-{{
-  "message": "Your question",
-  "hf_token": "hf_xxxxxxxxxxxxx"
-}}
-"""
-        else:
-            try:
-                client = InferenceClient(
-                    token=hf_token,
-                    model="openai/gpt-oss-20b"
-                )
-                # Build messages - luôn dùng cấu trúc chuẩn
-                # System = instructions + context, User = query
-                messages = [
-                    {"role": "system", "content": system_message},
-                    {"role": "user", "content": request.message}
-                ]
-                # Generate response
-                response = ""
-                for msg in client.chat_completion(
-                    messages,
-                    max_tokens=request.max_tokens,
-                    stream=True,
-                    temperature=request.temperature,
-                    top_p=request.top_p,
-                ):
-                    choices = msg.choices
-                    if len(choices) and choices[0].delta.content:
-                        response += choices[0].delta.content
-            except Exception as e:
-                response = f"Error generating response with LLM: {str(e)}\n\nContext was retrieved successfully, but LLM generation failed."
-        # Save to history
-        chat_data = {
-            "user_message": request.message,
-            "assistant_response": response,
-            "context_used": context_used,
-            "timestamp": datetime.utcnow()
-        }
-        chat_history_collection.insert_one(chat_data)
-        return ChatResponse(
-            response=response,
-            context_used=context_used,
-            timestamp=datetime.utcnow().isoformat(),
-            rag_stats=rag_stats
-        )
-    except Exception as e:
-        raise HTTPException(status_code=500, detail=f"Error: {str(e)}")
 @app.post("/documents", response_model=AddDocumentResponse)

 @app.post("/chat", response_model=ChatResponse)
 async def chat(request: ChatRequest):
     """
+    Multi-turn conversational chatbot với RAG + Function Calling
+    Features:
+    - ✅ Server-side session management (tự động tạo session_id)
+    - ✅ Conversation history tracking
+    - ✅ RAG context retrieval
+    - ✅ Function calling (gọi API khi cần thông tin chi tiết)
+    Flow:
+    1. Request đầu tiên: Không cần session_id → BE tạo mới
+    2. Request tiếp theo: Gửi session_id từ response trước → BE nhớ context
+    Example:
+    ```
+    # Lần 1
+    POST /chat { "message": "Tìm sự kiện hòa nhạc" }
+    Response: { "session_id": "abc-123", "response": "..." }
+    # Lần 2 (follow-up)
+    POST /chat { "message": "Ngày tổ chức chính xác?", "session_id": "abc-123" }
+    Response: { "session_id": "abc-123", "response": "..." }  # Bot hiểu context
+    ```
+    Body Parameters:
+    - message: User message (required)
+    - session_id: Session ID cho multi-turn (optional, tự tạo nếu không có)
     - use_rag: Enable RAG retrieval (default: true)
+    - enable_tools: Enable function calling (default: true)
+    - top_k: Number of documents (default: 3)
+    - temperature: LLM temperature (default: 0.7)
     Returns:
+    - response: AI generated response
+    - session_id: Session identifier (TRẢ VỀ trong mọi trường hợp)
     - context_used: Retrieved context documents
+    - tool_calls: API calls made (if any)
     - timestamp: Response timestamp
     """
+    # Import chat endpoint logic
+    from chat_endpoint import chat_endpoint
+    return await chat_endpoint(
+        request=request,
+        conversation_service=conversation_service,
+        tools_service=tools_service,
+        advanced_rag=advanced_rag,
+        embedding_service=embedding_service,
+        qdrant_service=qdrant_service,
+        chat_history_collection=chat_history_collection,
+        hf_token=hf_token
+    )
 @app.post("/documents", response_model=AddDocumentResponse)