Spaces:

ljy5946
/

Smart_Learning_Assistant

Sleeping

App Files Files Community

ljy5946 commited on Jun 8

Commit

75d6e02

verified ·

1 Parent(s): 1c34cf7

Upload build_vector_store.py

Browse files

Files changed (1) hide show

vector_build/build_vector_store.py +50 -0

vector_build/build_vector_store.py ADDED Viewed

	@@ -0,0 +1,50 @@

+import os
+import shutil
+from langchain_huggingface import HuggingFaceEmbeddings
+from langchain_community.vectorstores import Chroma
+from langchain.text_splitter import RecursiveCharacterTextSplitter
+from langchain.schema import Document
+# ====== 1. 设置路径 ======
+md_folder = "../"  # markdown 文件所在目录
+persist_path = "../vector_store"  # 向量库保存路径
+# ====== 2. 清空旧向量库（如存在） ======
+if os.path.exists(persist_path):
+    print("⚠️  检测到旧向量库，自动删除重建…")
+    shutil.rmtree(persist_path)
+# ====== 3. 加载 Markdown 文件 ======
+docs = []
+for filename in os.listdir(md_folder):
+    if filename.endswith(".md"):
+        file_path = os.path.join(md_folder, filename)
+        with open(file_path, "r", encoding="utf-8") as f:
+            text = f.read()
+            docs.append(Document(page_content=text, metadata={"source": filename}))
+if not docs:
+    print("❌ 未发现任何 Markdown 文件，请检查路径和文件名")
+    exit()
+# ====== 4. 分割文本块 ======
+splitter = RecursiveCharacterTextSplitter(
+    chunk_size=500,
+    chunk_overlap=100,
+    separators=["\n\n", "\n", "。", ".", "，", ","],
+)
+split_docs = splitter.split_documents(docs)
+print(f"🐣 共切分出 {len(split_docs)} 段文本，准备向量化…")
+# ====== 5. 构建向量库并保存 ======
+embedding_model = HuggingFaceEmbeddings(
+    model_name="sentence-transformers/paraphrase-multilingual-mpnet-base-v2"
+)
+vectordb = Chroma.from_documents(
+    documents=split_docs,
+    embedding=embedding_model,
+    persist_directory=persist_path,
+)
+vectordb.persist()
+print(f"✅ 向量库已保存到：{persist_path}")