Spaces:

CHUNYU0505
/

RAG_Test_System

Sleeping

App Files Files Community

CHUNYU0505 commited on Aug 30

Commit

1740855

verified ·

1 Parent(s): 2aa3d8b

Update app.py

Browse files

Files changed (1) hide show

app.py +44 -0

app.py CHANGED Viewed

@@ -1,3 +1,47 @@
 # -------------------------------
 # 4. 本地推論模型設定
 # -------------------------------

+# app.py
+# -------------------------------
+# 1. 套件載入
+# -------------------------------
+import os, glob
+from langchain.docstore.document import Document
+from langchain.text_splitter import RecursiveCharacterTextSplitter
+from langchain_community.vectorstores import FAISS
+from langchain_huggingface import HuggingFaceEmbeddings
+from docx import Document as DocxDocument
+from transformers import pipeline, AutoTokenizer, AutoModelForCausalLM
+import gradio as gr
+# -------------------------------
+# 2. 環境變數與資料路徑
+# -------------------------------
+TXT_FOLDER = "./out_texts"
+DB_PATH = "./faiss_db"
+os.makedirs(DB_PATH, exist_ok=True)
+os.makedirs(TXT_FOLDER, exist_ok=True)
+# -------------------------------
+# 3. 建立或載入向量資料庫
+# -------------------------------
+EMBEDDINGS_MODEL_NAME = "sentence-transformers/all-MiniLM-L6-v2"
+embeddings_model = HuggingFaceEmbeddings(model_name=EMBEDDINGS_MODEL_NAME)
+if os.path.exists(os.path.join(DB_PATH, "index.faiss")):
+    print("載入現有向量資料庫...")
+    db = FAISS.load_local(DB_PATH, embeddings_model, allow_dangerous_deserialization=True)
+else:
+    print("沒有資料庫，開始建立新向量資料庫...")
+    txt_files = glob.glob(f"{TXT_FOLDER}/*.txt")
+    docs = []
+    for filepath in txt_files:
+        with open(filepath, "r", encoding="utf-8") as f:
+            docs.append(Document(page_content=f.read(), metadata={"source": os.path.basename(filepath)}))
+    splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=100)
+    split_docs = splitter.split_documents(docs)
+    db = FAISS.from_documents(split_docs, embeddings_model)
+    db.save_local(DB_PATH)
+retriever = db.as_retriever(search_type="similarity", search_kwargs={"k": 5})
 # -------------------------------
 # 4. 本地推論模型設定
 # -------------------------------