More_Advanced_Embeddings_Comparator

Runtime error

App Files Files Community

Chris4K commited on Oct 21, 2024

Commit

a14da67

verified ·

1 Parent(s): a5caef8

Update app.py

Browse files

Files changed (1) hide show

app.py +33 -20

app.py CHANGED Viewed

@@ -161,11 +161,17 @@ def phonetic_match(text, query, method='levenshtein_distance', apply_phonetic=Tr
 #def optimize_query(query, llm_model):
 def optimize_query(query, llm_model, chunks, embedding_model, vector_store_type, search_type, top_k):
-    llm = HuggingFacePipeline.from_model_id(
-        model_id=llm_model,
-        task="text2text-generation",
-        model_kwargs={"do_sample": True, "temperature": 0, "max_new_tokens": 64},
-    )
     # Create a temporary vector store for query optimization
     temp_vector_store = get_vector_store(vector_store_type, chunks, embedding_model)
@@ -443,11 +449,17 @@ def optimize_vocabulary(texts, vocab_size=10000, min_frequency=2):
 # New preprocessing function
 def optimize_query(query, llm_model, chunks, embedding_model, vector_store_type, search_type, top_k):
-    llm = HuggingFacePipeline.from_model_id(
-        model_id=llm_model,
-        task="text2text-generation",
-        model_kwargs={"do_sample": True, "temperature": 0, "max_new_tokens": 64},
-    )
     # Create a temporary vector store for query optimization
     temp_vector_store = get_vector_store(vector_store_type, chunks, embedding_model)
@@ -633,8 +645,8 @@ def automated_testing(file, query, test_params, expected_result=None):
         stats = calculate_statistics(results_raw, search_time, vector_store, num_tokens, embedding_model, query, params['top_k'], expected_result)
         stats["model"] = f"{params['model_type']} - {params['model_name']}"
-        stats["model_type"] = model_type
-        stats["model_name"] = model_name
         stats.update(params)
         all_results.extend(format_results(results_raw, stats))
@@ -732,15 +744,16 @@ Text chunks:
 Provide your suggestions in a Python dictionary format."""
     # Use a HuggingFace model for text generation
-    model_id = "google/flan-t5-large"
-    tokenizer = AutoTokenizer.from_pretrained(model_id)
-    model = AutoModelForCausalLM.from_pretrained(model_id)
-    pipe = pipeline(
-        "text-generation", model=model, tokenizer=tokenizer, max_new_tokens=512
-    )
-    llm = HuggingFacePipeline(pipeline=pipe)
     #llm = HuggingFacePipeline.from_model_id(
     #    model_id="google/flan-t5-large",

 #def optimize_query(query, llm_model):
 def optimize_query(query, llm_model, chunks, embedding_model, vector_store_type, search_type, top_k):
+    # Use a HuggingFace model for text generation
+    #model_id = "google/flan-t5-large"
+    #tokenizer = AutoTokenizer.from_pretrained(model_id)
+    #model = AutoModelForCausalLM.from_pretrained(model_id)
+    #pipe = pipeline(
+    #    "text-generation", model=model, tokenizer=tokenizer, max_new_tokens=512
+    #)
+    #llm = HuggingFacePipeline(pipeline=pipe)
+    llm = HuggingFacePipeline(pipeline(model="HuggingFaceH4/zephyr-7b-beta"))
     # Create a temporary vector store for query optimization
     temp_vector_store = get_vector_store(vector_store_type, chunks, embedding_model)
 # New preprocessing function
 def optimize_query(query, llm_model, chunks, embedding_model, vector_store_type, search_type, top_k):
+    # Use a HuggingFace model for text generation
+    #model_id = "google/flan-t5-large"
+    #tokenizer = AutoTokenizer.from_pretrained(model_id)
+    #model = AutoModelForCausalLM.from_pretrained(model_id)
+    #pipe = pipeline(
+    #    "text-generation", model=model, tokenizer=tokenizer, max_new_tokens=512
+    #)
+    #llm = HuggingFacePipeline(pipeline=pipe)
+    llm = HuggingFacePipeline(pipeline(model="HuggingFaceH4/zephyr-7b-beta"))
     # Create a temporary vector store for query optimization
     temp_vector_store = get_vector_store(vector_store_type, chunks, embedding_model)
         stats = calculate_statistics(results_raw, search_time, vector_store, num_tokens, embedding_model, query, params['top_k'], expected_result)
         stats["model"] = f"{params['model_type']} - {params['model_name']}"
+        stats["model_type"] = params['model_type']
+        stats["model_name"] = params['model_name']
         stats.update(params)
         all_results.extend(format_results(results_raw, stats))
 Provide your suggestions in a Python dictionary format."""
     # Use a HuggingFace model for text generation
+    #model_id = "google/flan-t5-large"
+    #tokenizer = AutoTokenizer.from_pretrained(model_id)
+    #model = AutoModelForCausalLM.from_pretrained(model_id)
+    #pipe = pipeline(
+    #    "text-generation", model=model, tokenizer=tokenizer, max_new_tokens=512
+    #)
+    #llm = HuggingFacePipeline(pipeline=pipe)
+    llm = HuggingFacePipeline(pipeline(model="HuggingFaceH4/zephyr-7b-beta"))
     #llm = HuggingFacePipeline.from_model_id(
     #    model_id="google/flan-t5-large",