Spaces:

minhvtt
/

ChatbotRAG

Running

App Files Files Community

minhvtt commited on 7 days ago

Commit

fba01f9

verified ·

1 Parent(s): b85b8b1

Upload 12 files

Browse files

Files changed (2) hide show

advanced_rag.py +65 -64
main.py +6 -14

advanced_rag.py CHANGED Viewed

@@ -150,11 +150,22 @@ Alternative queries (one per line):"""
             for result in results:
                 doc_id = result["id"]
                 if doc_id not in all_results or result["confidence"] > all_results[doc_id].confidence:
                     all_results[doc_id] = RetrievedDocument(
                         id=doc_id,
-                        text=result["metadata"].get("text", ""),
                         confidence=result["confidence"],
-                        metadata=result["metadata"]
                     )
         # Sort by confidence and return top_k
@@ -170,12 +181,12 @@ Alternative queries (one per line):"""
         """
         Rerank documents using Cross-Encoder (Best Case 2025)
         Cross-Encoder provides superior relevance scoring compared to bi-encoders
         Args:
             query: Original user query
             documents: Retrieved documents to rerank
             top_k: Number of top documents to return
         Returns:
             Reranked documents
         """
@@ -184,29 +195,38 @@ Alternative queries (one per line):"""
         # Prepare query-document pairs for Cross-Encoder
         pairs = [[query, doc.text] for doc in documents]
-        # Get Cross-Encoder scores
         ce_scores = self.cross_encoder.predict(pairs)
-        # Normalize CE scores using sigmoid (convert logits to 0-1 range)
-        import math
-        def sigmoid(x):
-            return 1 / (1 + math.exp(-x))
-        ce_scores_normalized = [sigmoid(float(score)) for score in ce_scores]
-        # Create reranked documents with normalized scores
         reranked = []
-        for doc, ce_score_norm in zip(documents, ce_scores_normalized):
-            # Use ONLY Cross-Encoder score (it's more accurate than cosine similarity)
             reranked.append(RetrievedDocument(
                 id=doc.id,
                 text=doc.text,
-                confidence=float(ce_score_norm),
                 metadata=doc.metadata
             ))
-        # Sort by Cross-Encoder score
         reranked.sort(key=lambda x: x.confidence, reverse=True)
         return reranked[:top_k]
@@ -217,47 +237,32 @@ Alternative queries (one per line):"""
         max_tokens: int = 500
     ) -> List[RetrievedDocument]:
         """
-        Compress context to most relevant parts
-        Remove redundant information and keep only relevant sentences
         """
         compressed_docs = []
         for doc in documents:
-            # Split into sentences
-            sentences = self._split_sentences(doc.text)
-            # Score each sentence based on relevance to query
-            scored_sentences = []
-            query_words = set(query.lower().split())
-            for sent in sentences:
-                sent_words = set(sent.lower().split())
-                # Simple relevance: word overlap
-                overlap = len(query_words & sent_words)
-                if overlap > 0:
-                    scored_sentences.append((sent, overlap))
-            # Sort by relevance and take top sentences
-            scored_sentences.sort(key=lambda x: x[1], reverse=True)
-            # Reconstruct compressed text (up to max_tokens)
-            compressed_text = ""
-            word_count = 0
-            for sent, score in scored_sentences:
-                sent_words = len(sent.split())
-                if word_count + sent_words <= max_tokens:
-                    compressed_text += sent + " "
-                    word_count += sent_words
-                else:
-                    break
-            # If nothing selected, take original first part
-            if not compressed_text.strip():
-                compressed_text = doc.text[:max_tokens * 5]  # Rough estimate
             compressed_docs.append(RetrievedDocument(
                 id=doc.id,
-                text=compressed_text.strip(),
                 confidence=doc.confidence,
                 metadata=doc.metadata
             ))
@@ -386,22 +391,18 @@ Alternative queries (one per line):"""
         system_message: str = "You are a helpful AI assistant."
     ) -> str:
         """
-        Build optimized RAG prompt for LLM
-        Uses best practices for prompt engineering
         """
         prompt_template = f"""{system_message}
 {context}
-INSTRUCTIONS:
 1. Dựa trên CONTEXT phía trên, hãy trả lời câu hỏi của người dùng
-2. Context đã được lọc với độ tương đồng cao - LUÔN SỬ DỤNG nếu có liên quan đến câu hỏi
-3. Trích dẫn thông tin cụ thể từ context khi trả lời
 4. CHỈ nói "Tôi không tìm thấy thông tin liên quan" nếu context HOÀN TOÀN KHÔNG đề cập đến chủ đề được hỏi
-5. Trả lời bằng tiếng Việt nếu câu hỏi là tiếng Việt
-USER QUESTION: {query}
-YOUR ANSWER:"""
         return prompt_template

             for result in results:
                 doc_id = result["id"]
                 if doc_id not in all_results or result["confidence"] > all_results[doc_id].confidence:
+                    # Lấy text từ metadata - hỗ trợ cả "text" (string) và "texts" (array)
+                    metadata = result["metadata"]
+                    doc_text = metadata.get("text", "")
+                    if not doc_text and "texts" in metadata:
+                        # Nếu là array, join thành string
+                        texts_arr = metadata.get("texts", [])
+                        if isinstance(texts_arr, list):
+                            doc_text = "\n".join(texts_arr)
+                        else:
+                            doc_text = str(texts_arr)
                     all_results[doc_id] = RetrievedDocument(
                         id=doc_id,
+                        text=doc_text,
                         confidence=result["confidence"],
+                        metadata=metadata
                     )
         # Sort by confidence and return top_k
         """
         Rerank documents using Cross-Encoder (Best Case 2025)
         Cross-Encoder provides superior relevance scoring compared to bi-encoders
         Args:
             query: Original user query
             documents: Retrieved documents to rerank
             top_k: Number of top documents to return
         Returns:
             Reranked documents
         """
         # Prepare query-document pairs for Cross-Encoder
         pairs = [[query, doc.text] for doc in documents]
+        # Get Cross-Encoder scores (raw logits)
         ce_scores = self.cross_encoder.predict(pairs)
+        ce_scores = [float(s) for s in ce_scores]
+        # Min-Max normalization để scale về 0-1
+        # Thay vì sigmoid (cho điểm rất thấp với logits âm)
+        min_score = min(ce_scores)
+        max_score = max(ce_scores)
+        if max_score - min_score > 0.001:  # Có sự khác biệt giữa các scores
+            ce_scores_normalized = [
+                (score - min_score) / (max_score - min_score)
+                for score in ce_scores
+            ]
+        else:
+            # Tất cả scores gần như bằng nhau -> giữ original confidence
+            ce_scores_normalized = [doc.confidence for doc in documents]
+        # Combine: 70% Cross-Encoder ranking + 30% original cosine similarity
+        # Để giữ lại một phần semantic similarity từ embedding
         reranked = []
+        for doc, ce_norm in zip(documents, ce_scores_normalized):
+            combined_score = 0.7 * ce_norm + 0.3 * doc.confidence
             reranked.append(RetrievedDocument(
                 id=doc.id,
                 text=doc.text,
+                confidence=float(combined_score),
                 metadata=doc.metadata
             ))
+        # Sort by combined score
         reranked.sort(key=lambda x: x.confidence, reverse=True)
         return reranked[:top_k]
         max_tokens: int = 500
     ) -> List[RetrievedDocument]:
         """
+        Compress context - giữ nguyên nội dung quan trọng, chỉ truncate nếu quá dài
+        KHÔNG dùng word overlap vì nó loại bỏ sai thông tin quan trọng
         """
         compressed_docs = []
         for doc in documents:
+            text = doc.text.strip()
+            # Chỉ truncate nếu text quá dài (ước tính ~4 chars/token)
+            max_chars = max_tokens * 4
+            if len(text) > max_chars:
+                # Cắt thông minh tại câu gần nhất
+                truncated = text[:max_chars]
+                last_period = max(
+                    truncated.rfind('.'),
+                    truncated.rfind('!'),
+                    truncated.rfind('?'),
+                    truncated.rfind('\n')
+                )
+                if last_period > max_chars * 0.5:  # Nếu tìm thấy dấu câu ở nửa sau
+                    truncated = truncated[:last_period + 1]
+                text = truncated.strip()
             compressed_docs.append(RetrievedDocument(
                 id=doc.id,
+                text=text,
                 confidence=doc.confidence,
                 metadata=doc.metadata
             ))
         system_message: str = "You are a helpful AI assistant."
     ) -> str:
         """
+        Build optimized RAG system prompt for LLM
+        Query sẽ được gửi riêng trong user message
         """
         prompt_template = f"""{system_message}
 {context}
+HƯỚNG DẪN TRẢ LỜI:
 1. Dựa trên CONTEXT phía trên, hãy trả lời câu hỏi của người dùng
+2. Context đã được hệ thống tìm kiếm và lọc - HÃY SỬ DỤNG thông tin này để trả lời
+3. Trích dẫn thông tin cụ thể từ context khi trả lời (tên sự kiện, địa điểm, thời gian, v.v.)
 4. CHỈ nói "Tôi không tìm thấy thông tin liên quan" nếu context HOÀN TOÀN KHÔNG đề cập đến chủ đề được hỏi
+5. Trả lời bằng tiếng Việt, ngắn gọn và đầy đủ thông tin"""
         return prompt_template

main.py CHANGED Viewed

@@ -778,20 +778,12 @@ Example:
                     model="openai/gpt-oss-20b"
                 )
-                # Build messages
-                if request.use_advanced_rag and context_used:
-                    # Advanced RAG prompt already contains query + instructions
-                    # Just send it as system message, user message is empty
-                    messages = [
-                        {"role": "system", "content": "You are a helpful assistant."},
-                        {"role": "user", "content": system_message}
-                    ]
-                else:
-                    # Basic RAG or no RAG - normal message flow
-                    messages = [
-                        {"role": "system", "content": system_message},
-                        {"role": "user", "content": request.message}
-                    ]
                 # Generate response
                 response = ""

                     model="openai/gpt-oss-20b"
                 )
+                # Build messages - luôn dùng cấu trúc chuẩn
+                # System = instructions + context, User = query
+                messages = [
+                    {"role": "system", "content": system_message},
+                    {"role": "user", "content": request.message}
+                ]
                 # Generate response
                 response = ""