Spaces:

mintaeng
/

fut_rag

Runtime error

mintaeng commited on Jun 24, 2024

Commit

31a698a

verified ·

1 Parent(s): ea8722f

Create ingest.py

Files changed (1) hide show

ingest.py ADDED Viewed

+import os
+from langchain.text_splitter import RecursiveCharacterTextSplitter
+from langchain.vectorstores import Chroma
+from langchain.embeddings import HuggingFaceBgeEmbeddings
+from langchain.document_loaders import PyPDFLoader
+model_name = "jhgan/ko-sroberta-multitask"
+model_kwargs = {'device': 'cpu'}
+encode_kwargs = {'normalize_embeddings': False}
+embeddings = HuggingFaceBgeEmbeddings(
+    model_name=model_name,
+    model_kwargs=model_kwargs,
+    encode_kwargs=encode_kwargs
+)
+loader = PyPDFLoader("23-24풋살경기규칙.pdf")
+documents = loader.load()
+text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=100)
+texts = text_splitter.split_documents(documents)
+vector_store = Chroma.from_documents(texts, embeddings, collection_metadata={"hnsw:space": "cosine"}, persist_directory="stores/pet_cosine")
+print("Vector Store Created.......")