FakeQA

Build error

App Files Files Community

Charles Chan commited on Feb 11

Commit

1e21aa9

1 Parent(s): a054c10

coding

Browse files

Files changed (1) hide show

app.py +43 -22

app.py CHANGED Viewed

@@ -7,34 +7,55 @@ from datasets import load_dataset
 from opencc import OpenCC
 # 使用 進擊的巨人 数据集
-try:
-    converter = OpenCC('tw2s.json') # 'tw2s.json' 表示繁体中文到简体中文的转换
-    dataset = load_dataset("rorubyy/attack_on_titan_wiki_chinese")
-    answer_list = [converter.convert(example["Answer"]) for example in dataset["train"]]
-except Exception as e:
-    st.error(f"读取数据集失败：{e}")
-    st.stop()
 # 构建向量数据库 (如果需要，仅构建一次)
-try:
-    with st.spinner("正在读取数据库..."):
-        embeddings = SentenceTransformerEmbeddings(model_name="all-mpnet-base-v2")
-        db = FAISS.from_texts(answer_list, embeddings)
-        st.success("数据库读取完成！")
-except Exception as e:
-    st.error(f"向量数据库构建失败：{e}")
-    st.stop()
 # 问答函数
 def answer_question(repo_id, temperature, max_length, question):
     # 初始化 Gemma 模型
-    try:
-        with st.spinner("正在初始化 Gemma 模型..."):
-            llm = HuggingFaceHub(repo_id=repo_id, model_kwargs={"temperature": temperature, "max_length": max_length})
-            st.success("Gemma 模型初始化完成！")
-    except Exception as e:
-        st.error(f"Gemma 模型加载失败：{e}")
-        st.stop()
     # 获取答案
     try:

 from opencc import OpenCC
 # 使用 進擊的巨人 数据集
+# 原数据集是是繁体中文，为了调试方便，将其转换成简体中文之后使用
+if "dataset_loaded" not in st.session_state:
+    st.session_state.dataset_loaded = False
+if not st.session_state.dataset_loaded:
+    try:
+        with st.spinner("正在读取数据库..."):
+            converter = OpenCC('tw2s') # 'tw2s.json' 表示繁体中文到简体中文的转换
+            dataset = load_dataset("rorubyy/attack_on_titan_wiki_chinese")
+            answer_list = [converter.convert(example["Answer"]) for example in dataset["train"]]
+            st.success("数据库读取完成！")
+    except Exception as e:
+        st.error(f"读取数据集失败：{e}")
+        st.stop()
+    st.session_state.dataset_loaded = True
 # 构建向量数据库 (如果需要，仅构建一次)
+if "vector_created" not in st.session_state:
+    st.session_state.vector_created = False
+if not st.session_state.vector_created:
+    try:
+        with st.spinner("正在构建向量数据库..."):
+            embeddings = SentenceTransformerEmbeddings(model_name="all-mpnet-base-v2")
+            db = FAISS.from_texts(answer_list, embeddings)
+            st.success("向量数据库构建完成！")
+    except Exception as e:
+        st.error(f"向量数据库构建失败：{e}")
+        st.stop()
+    st.session_state.vector_created = True
 # 问答函数
+if "repo_id" not in st.session_state:
+    st.session_state.repo_id = ''
+if "temperature" not in st.session_state:
+    st.session_state.temperature = ''
+if "max_length" not in st.session_state:
+    st.session_state.max_length = ''
 def answer_question(repo_id, temperature, max_length, question):
     # 初始化 Gemma 模型
+    if repo_id != st.session_state.repo_id or temperature != st.session_state.temperature or max_length != st.session_state.max_length:
+        try:
+            with st.spinner("正在初始化 Gemma 模型..."):
+                llm = HuggingFaceHub(repo_id=repo_id, model_kwargs={"temperature": temperature, "max_length": max_length})
+                st.success("Gemma 模型初始化完成！")
+                st.session_state.repo_id = repo_id
+                st.session_state.temperature = temperature
+                st.session_state.max_length = max_length
+        except Exception as e:
+            st.error(f"Gemma 模型加载失败：{e}")
+            st.stop()
     # 获取答案
     try: