Spaces:

ecceembusra
/

turkish-wikipedia-rag

Sleeping

App Files Files Community

ecceembusra commited on 18 days ago

Commit

e8711e2

verified ·

1 Parent(s): 154a74f

Update rag_pipeline.py

Browse files

Files changed (1) hide show

rag_pipeline.py +59 -93

rag_pipeline.py CHANGED Viewed

@@ -8,34 +8,31 @@ import numpy as np
 from providers import embed, generate, rerank, qa_extract
 # =========================
-# Depo yolları
 # =========================
 VSTORE_DIR = "vectorstore"
 FAISS_FILE = "index.faiss"
 META_JSONL = "meta.jsonl"
 # =========================
 # Hız / kalite ayarları
 # =========================
-TOP_K_DEFAULT     = 4      # Kaç pasaj döndürelim?
-FETCH_K_DEFAULT   = 16     # FAISS'ten kaç aday çekelim?
-HIGH_SCORE_THRES  = 0.78   # erken karar eşiği (cosine)
-MARGIN_THRES      = 0.06   # top1 - top2 farkı (erken karar)
-CTX_CHAR_LIMIT    = 1400   # LLM'e verilecek maksimum bağlam karakteri
-QA_SCORE_THRES    = 0.25   # ekstraktif QA güven eşiği (bilerek düşük)
-QA_PER_PASSAGES   = 4      # kaç hit üzerinde tek tek QA denensin
-# Basit "title" ve "lexical" boost ağırlıkları
 W_TITLE_BOOST     = 0.25
 W_LEXICAL         = 0.15
 # =========================
-# Yardımcı regex'ler
 # =========================
 DATE_RX = re.compile(
     r"\b(\d{1,2}\s+(Ocak|Şubat|Mart|Nisan|Mayıs|Haziran|Temmuz|Ağustos|Eylül|Ekim|Kasım|Aralık)\s+\d{3,4}"
@@ -43,52 +40,17 @@ DATE_RX = re.compile(
     r"|\d{4})\b",
     flags=re.IGNORECASE
 )
 DEATH_KEYS = ["öldü", "vefat", "hayatını kaybet", "ölümü", "ölüm"]
 FOUND_KEYS = ["kuruldu", "kuruluş", "kurulmuştur", "kuruluşu", "kuruluş tarihi"]
-CAP_WORD_RX = re.compile(r"\b([A-ZÇĞİIÖŞÜ][a-zçğıiöşü]+(?:\s+[A-ZÇĞİIÖŞÜ][a-zçğıiöşü]+)*)\b")
-NAME_RX     = re.compile(r"\b([A-ZÇĞİIÖŞÜ][a-zçğıiöşü]+(?:\s+[A-ZÇĞİIÖŞÜ][a-zçğıiöşü]+){0,3})\b")
-# =========================
-# Küçük yardımcılar
-# =========================
 def _split_sentences(txt: str) -> List[str]:
     parts = re.split(r"(?<=[.!?])\s+", (txt or "").strip())
     return [p.strip() for p in parts if p.strip()]
-def _keywords_from_query(q: str) -> List[str]:
-    q = (q or "").strip()
-    caps = [m.group(1) for m in CAP_WORD_RX.finditer(q)]
-    nums = re.findall(r"\b\d{3,4}\b", q)
-    base = [w.lower() for w in re.findall(r"[A-Za-zÇĞİIÖŞÜçğıiöşü]+", q) if len(w) > 2]
-    # sıralı benzersiz
-    return list(dict.fromkeys(caps + nums + base))
-def _lexical_overlap(q_tokens: List[str], text: str) -> float:
-    toks = re.findall(r"[A-Za-zÇĞİIÖŞÜçğıiöşü]+", (text or "").lower())
-    if not toks:
-        return 0.0
-    qset = set([t for t in q_tokens if len(t) > 2])
-    tset = set([t for t in toks if len(t) > 2])
-    inter = len(qset & tset)
-    denom = len(qset) or 1
-    return inter / denom
 def _extract_fact_sentence(query: str, hits: List[Dict]) -> Tuple[str, str]:
-    """
-    'ne zaman öldü / ne zaman kuruldu' tipindeki sorularda
-    tarih + anahtar kelime içeren ilk cümleyi yakala.
-    Döndür: (cümle, kaynak_url) | ("", "")
-    """
     q = (query or "").lower()
     if "ne zaman" not in q:
         return "", ""
     if any(k in q for k in DEATH_KEYS):
         keylist = DEATH_KEYS
     elif any(k in q for k in ["kuruldu", "kuruluş"]):
@@ -102,19 +64,17 @@ def _extract_fact_sentence(query: str, hits: List[Dict]) -> Tuple[str, str]:
                 return s, h.get("source", "")
     return "", ""
 def _expand_named_span(answer: str, hits: List[Dict]) -> str:
-    """
-    QA'dan gelen 'Kemal' gibi kısa/eksik özel adı,
-    bağlamdaki en uzun uygun özel adla genişletir.
-    """
     ans = (answer or "").strip()
     if not ans or len(ans.split()) > 2:
         return ans
     ans_low = ans.lower()
-    # Öncelikli alias'lar
     preferred_aliases = [
         "Mustafa Kemal Atatürk",
         "Sabiha Gökçen",
@@ -129,61 +89,79 @@ def _expand_named_span(answer: str, hits: List[Dict]) -> str:
     best = ans
     for h in hits:
         for sent in _split_sentences(h.get("text", "")):
-            if ans_low not in sent.lower():
                 continue
             for m in NAME_RX.finditer(sent):
                 cand = m.group(1).strip()
-                if ans_low in cand.lower():
-                    # Tamamen büyük/kurumsal kısa adları ele (biraz kabaca)
-                    if len(cand) >= len(best) and any(ch.islower() for ch in cand):
-                        if len(cand.split()) >= len(best.split()):
-                            best = cand
     return best
 # =========================
-# Vektör deposunu yükle
 # =========================
-def load_vectorstore() -> Tuple[faiss.Index, List[Dict]]:
-    index_path = os.path.join(VSTORE_DIR, FAISS_FILE)
-    meta_path  = os.path.join(VSTORE_DIR, META_JSONL)
-    if not (os.path.exists(index_path) and os.path.exists(meta_path)):
         raise FileNotFoundError(
             "Vektör deposu bulunamadı. Önce `python data_preparation.py` çalıştırın:\n"
-            f"- {index_path}\n- {meta_path}"
         )
-    index = faiss.read_index(index_path)  # IndexFlatIP veya HNSW olabilir
-    # HNSW ise efSearch ayarı
     try:
-        index.hnsw.efSearch = 32  # güvenli varsayılan
     except Exception:
         pass
     records: List[Dict] = []
-    with open(meta_path, "r", encoding="utf-8") as f:
         for line in f:
             obj = json.loads(line)
             records.append({
                 "text": obj.get("text", ""),
                 "metadata": obj.get("metadata", {}),
             })
     if not records:
         raise RuntimeError("meta.jsonl boş görünüyor.")
     return index, records
 # =========================
 # Retrieval + (koşullu) Rerank + title/lexical boost
 # =========================
 @lru_cache(maxsize=256)
 def _cached_query_vec(e5_query: str) -> np.ndarray:
-    """E5 sorgu embedding'ini cache'ler."""
     v = embed([e5_query]).astype("float32")
     return v
 def search_chunks(
     query: str,
     index: faiss.Index,
@@ -208,11 +186,10 @@ def search_chunks(
                 "source": md.get("source", ""),
                 "score_vec": float(s),
             })
     if not pool:
         return []
-    # --- title & lexical boost ---
     q_tokens = _keywords_from_query(q)
     q_tokens_lower = [t.lower() for t in q_tokens]
     for p in pool:
@@ -224,12 +201,11 @@ def search_chunks(
     pool_by_boost = sorted(pool, key=lambda x: x["score_boosted"], reverse=True)
-    # --- erken karar: top1 güçlü ve fark yüksekse rerank yapma ---
     if len(pool_by_boost) >= 2:
         top1, top2 = pool_by_boost[0]["score_boosted"], pool_by_boost[1]["score_boosted"]
     else:
         top1, top2 = pool_by_boost[0]["score_boosted"], 0.0
     do_rerank = not (top1 >= HIGH_SCORE_THRES and (top1 - top2) >= MARGIN_THRES)
     if do_rerank:
@@ -240,7 +216,6 @@ def search_chunks(
     return pool_by_boost[:top_k]
 # =========================
 # LLM bağlamı ve kaynak listesi
 # =========================
@@ -253,7 +228,6 @@ def _format_sources(hits: List[Dict]) -> str:
             seen.add(u)
     return "\n".join(f"- {u}" for u in urls) if urls else "- (yok)"
 def _llm_context(hits: List[Dict], limit: int = CTX_CHAR_LIMIT) -> str:
     ctx, total = [], 0
     for i, h in enumerate(hits, 1):
@@ -264,9 +238,8 @@ def _llm_context(hits: List[Dict], limit: int = CTX_CHAR_LIMIT) -> str:
         total += len(block)
     return "\n\n---\n\n".join(ctx)
 # =========================
-# Nihai cevap (kural → QA → LLM → güvenli özet)
 # =========================
 def generate_answer(
     query: str,
@@ -278,12 +251,12 @@ def generate_answer(
     if not hits:
         return "Bilgi bulunamadı."
-    # 0) Kural-tabanlı hızlı çıkarım (tarih/kuruluş soruları)
     rule_sent, rule_src = _extract_fact_sentence(query, hits)
     if rule_sent:
         return f"{rule_sent}\n\nKaynaklar:\n- {rule_src if rule_src else _format_sources(hits)}"
-    # 1) Pasaj bazlı ekstraktif QA
     best = {"answer": None, "score": 0.0, "src": None}
     for h in hits[:QA_PER_PASSAGES]:
         try:
@@ -294,11 +267,8 @@ def generate_answer(
             score = float(qa.get("score", 0.0))
             ans = qa["answer"].strip()
-            # Cevap tarih/özel ad içeriyorsa ekstra güven
             if re.search(r"\b(19\d{2}|20\d{2}|Atatürk|Gökçen|Kemal|Ankara|Fenerbahçe)\b", ans, flags=re.IGNORECASE):
                 score += 0.30
-            # Çok kısa veya eksik isimse → bağlamdan tam özel ada genişlet
             if len(ans.split()) <= 2:
                 ans = _expand_named_span(ans, hits)
@@ -307,7 +277,6 @@ def generate_answer(
     if best["answer"] and best["score"] >= QA_SCORE_THRES:
         final = best["answer"].strip()
-        # Soru "kimdir/kim" ise doğal cümleye dök
         if any(k in (query or "").lower() for k in ["kimdir", "kim"]):
             if not final.endswith("."):
                 final += "."
@@ -315,7 +284,7 @@ def generate_answer(
         src_line = f"Kaynaklar:\n- {best['src']}" if best["src"] else "Kaynaklar:\n" + _format_sources(hits)
         return f"{final}\n\n{src_line}"
-    # 2) QA düşük güven verdiyse → LLM (varsa)
     context = _llm_context(hits)
     prompt = (
         "Aşağıdaki BAĞLAM Wikipedia parçalarından alınmıştır.\n"
@@ -324,8 +293,6 @@ def generate_answer(
         f"Soru:\n{query}\n\nBağlam:\n{context}\n\nYanıtı 1-2 cümlede ver."
     )
     llm_ans = (generate(prompt) or "").strip()
-    # 3) LLM yapılandırılmamışsa → güvenli özet fallback
     if (not llm_ans) or ("yapılandırılmadı" in llm_ans.lower()):
         text = hits[0].get("text", "")
         first = re.split(r"(?<=[.!?])\s+", text.strip())[:2]
@@ -335,12 +302,11 @@ def generate_answer(
         llm_ans += "\n\nKaynaklar:\n" + _format_sources(hits)
     return llm_ans
 # =========================
 # Hızlı test
 # =========================
 if __name__ == "__main__":
-    idx, recs = load_vectorstore()
     for q in [
         "Atatürk ne zaman öldü?",
         "Türkiye'nin ilk cumhurbaşkanı kimdir?",

 from providers import embed, generate, rerank, qa_extract
 # =========================
+# Varsayılan dizin/isimler (istemci override edebilir)
 # =========================
 VSTORE_DIR = "vectorstore"
 FAISS_FILE = "index.faiss"
 META_JSONL = "meta.jsonl"
 # =========================
 # Hız / kalite ayarları
 # =========================
+TOP_K_DEFAULT     = 4
+FETCH_K_DEFAULT   = 16
+HNSW_EFSEARCH     = 32
+HIGH_SCORE_THRES  = 0.78
+MARGIN_THRES      = 0.06
+CTX_CHAR_LIMIT    = 1400
+QA_SCORE_THRES    = 0.25
+QA_PER_PASSAGES   = 4
 W_TITLE_BOOST     = 0.25
 W_LEXICAL         = 0.15
 # =========================
+# Kural-tabanlı çıkarım yardımcıları
 # =========================
 DATE_RX = re.compile(
     r"\b(\d{1,2}\s+(Ocak|Şubat|Mart|Nisan|Mayıs|Haziran|Temmuz|Ağustos|Eylül|Ekim|Kasım|Aralık)\s+\d{3,4}"
     r"|\d{4})\b",
     flags=re.IGNORECASE
 )
 DEATH_KEYS = ["öldü", "vefat", "hayatını kaybet", "ölümü", "ölüm"]
 FOUND_KEYS = ["kuruldu", "kuruluş", "kurulmuştur", "kuruluşu", "kuruluş tarihi"]
 def _split_sentences(txt: str) -> List[str]:
     parts = re.split(r"(?<=[.!?])\s+", (txt or "").strip())
     return [p.strip() for p in parts if p.strip()]
 def _extract_fact_sentence(query: str, hits: List[Dict]) -> Tuple[str, str]:
     q = (query or "").lower()
     if "ne zaman" not in q:
         return "", ""
     if any(k in q for k in DEATH_KEYS):
         keylist = DEATH_KEYS
     elif any(k in q for k in ["kuruldu", "kuruluş"]):
                 return s, h.get("source", "")
     return "", ""
+# =========================
+# İsim normalizasyonu (kısa span → tam özel ad)
+# =========================
+NAME_RX = re.compile(r"\b([A-ZÇĞİIÖŞÜ][a-zçğıiöşü]+(?:\s+[A-ZÇĞİIÖŞÜ][a-zçğıiöşü]+){0,3})\b")
 def _expand_named_span(answer: str, hits: List[Dict]) -> str:
     ans = (answer or "").strip()
     if not ans or len(ans.split()) > 2:
         return ans
     ans_low = ans.lower()
     preferred_aliases = [
         "Mustafa Kemal Atatürk",
         "Sabiha Gökçen",
     best = ans
     for h in hits:
         for sent in _split_sentences(h.get("text", "")):
+            if ans_low not in sent.lower():
                 continue
             for m in NAME_RX.finditer(sent):
                 cand = m.group(1).strip()
+                if ans_low in cand.lower() and any(ch.islower() for ch in cand):
+                    if len(cand.split()) >= len(best.split()):
+                        best = cand
     return best
 # =========================
+# Vektör deposunu yükle (PARAMETRELİ)
 # =========================
+def load_vectorstore(vstore_dir: str = "vectorstore") -> Tuple[faiss.Index, List[Dict]]:
+    """Hugging Face Spaces gibi ortamlarda da kullanılabilsin diye
+    vektör deposu kök dizini parametre olarak alınır.
+    """
+    faiss_file = os.path.join(vstore_dir, "index.faiss")
+    meta_file  = os.path.join(vstore_dir, "meta.jsonl")
+    if not (os.path.exists(faiss_file) and os.path.exists(meta_file)):
         raise FileNotFoundError(
             "Vektör deposu bulunamadı. Önce `python data_preparation.py` çalıştırın:\n"
+            f"- {faiss_file}\n- {meta_file}"
         )
+    index = faiss.read_index(faiss_file)
     try:
+        index.hnsw.efSearch = HNSW_EFSEARCH
     except Exception:
         pass
     records: List[Dict] = []
+    with open(meta_file, "r", encoding="utf-8") as f:
         for line in f:
             obj = json.loads(line)
             records.append({
                 "text": obj.get("text", ""),
                 "metadata": obj.get("metadata", {}),
             })
     if not records:
         raise RuntimeError("meta.jsonl boş görünüyor.")
     return index, records
+# =========================
+# Anahtar kelime çıkarımı + lexical puan
+# =========================
+_CAP_WORD = re.compile(r"\b([A-ZÇĞİIÖŞÜ][a-zçğıiöşü]+(?:\s+[A-ZÇĞİIÖŞÜ][a-zçğıiöşü]+)*)\b")
+def _keywords_from_query(q: str) -> List[str]:
+    q = (q or "").strip()
+    caps = [m.group(1) for m in _CAP_WORD.finditer(q)]
+    nums = re.findall(r"\b\d{3,4}\b", q)
+    base = [w.lower() for w in re.findall(r"[A-Za-zÇĞİIÖŞÜçğıiöşü]+", q) if len(w) > 2]
+    return list(dict.fromkeys(caps + nums + base))
+def _lexical_overlap(q_tokens: List[str], text: str) -> float:
+    toks = re.findall(r"[A-Za-zÇĞİIÖŞÜçğıiöşü]+", (text or "").lower())
+    if not toks:
+        return 0.0
+    qset = set([t for t in q_tokens if len(t) > 2])
+    tset = set([t for t in toks if len(t) > 2])
+    inter = len(qset & tset)
+    denom = len(qset) or 1
+    return inter / denom
 # =========================
 # Retrieval + (koşullu) Rerank + title/lexical boost
 # =========================
 @lru_cache(maxsize=256)
 def _cached_query_vec(e5_query: str) -> np.ndarray:
     v = embed([e5_query]).astype("float32")
     return v
 def search_chunks(
     query: str,
     index: faiss.Index,
                 "source": md.get("source", ""),
                 "score_vec": float(s),
             })
     if not pool:
         return []
+    # title & lexical boost
     q_tokens = _keywords_from_query(q)
     q_tokens_lower = [t.lower() for t in q_tokens]
     for p in pool:
     pool_by_boost = sorted(pool, key=lambda x: x["score_boosted"], reverse=True)
+    # erken karar
     if len(pool_by_boost) >= 2:
         top1, top2 = pool_by_boost[0]["score_boosted"], pool_by_boost[1]["score_boosted"]
     else:
         top1, top2 = pool_by_boost[0]["score_boosted"], 0.0
     do_rerank = not (top1 >= HIGH_SCORE_THRES and (top1 - top2) >= MARGIN_THRES)
     if do_rerank:
     return pool_by_boost[:top_k]
 # =========================
 # LLM bağlamı ve kaynak listesi
 # =========================
             seen.add(u)
     return "\n".join(f"- {u}" for u in urls) if urls else "- (yok)"
 def _llm_context(hits: List[Dict], limit: int = CTX_CHAR_LIMIT) -> str:
     ctx, total = [], 0
     for i, h in enumerate(hits, 1):
         total += len(block)
     return "\n\n---\n\n".join(ctx)
 # =========================
+# Nihai cevap
 # =========================
 def generate_answer(
     query: str,
     if not hits:
         return "Bilgi bulunamadı."
+    # kural-tabanlı ilk hamle
     rule_sent, rule_src = _extract_fact_sentence(query, hits)
     if rule_sent:
         return f"{rule_sent}\n\nKaynaklar:\n- {rule_src if rule_src else _format_sources(hits)}"
+    # ekstraktif QA
     best = {"answer": None, "score": 0.0, "src": None}
     for h in hits[:QA_PER_PASSAGES]:
         try:
             score = float(qa.get("score", 0.0))
             ans = qa["answer"].strip()
             if re.search(r"\b(19\d{2}|20\d{2}|Atatürk|Gökçen|Kemal|Ankara|Fenerbahçe)\b", ans, flags=re.IGNORECASE):
                 score += 0.30
             if len(ans.split()) <= 2:
                 ans = _expand_named_span(ans, hits)
     if best["answer"] and best["score"] >= QA_SCORE_THRES:
         final = best["answer"].strip()
         if any(k in (query or "").lower() for k in ["kimdir", "kim"]):
             if not final.endswith("."):
                 final += "."
         src_line = f"Kaynaklar:\n- {best['src']}" if best["src"] else "Kaynaklar:\n" + _format_sources(hits)
         return f"{final}\n\n{src_line}"
+    # LLM fallback
     context = _llm_context(hits)
     prompt = (
         "Aşağıdaki BAĞLAM Wikipedia parçalarından alınmıştır.\n"
         f"Soru:\n{query}\n\nBağlam:\n{context}\n\nYanıtı 1-2 cümlede ver."
     )
     llm_ans = (generate(prompt) or "").strip()
     if (not llm_ans) or ("yapılandırılmadı" in llm_ans.lower()):
         text = hits[0].get("text", "")
         first = re.split(r"(?<=[.!?])\s+", text.strip())[:2]
         llm_ans += "\n\nKaynaklar:\n" + _format_sources(hits)
     return llm_ans
 # =========================
 # Hızlı test
 # =========================
 if __name__ == "__main__":
+    idx, recs = load_vectorstore(VSTORE_DIR)
     for q in [
         "Atatürk ne zaman öldü?",
         "Türkiye'nin ilk cumhurbaşkanı kimdir?",