Spaces:

JiakaiDu
/

RAG_Test

Paused

JiakaiDu commited on Sep 26, 2024

Commit

b18fb8c

verified ·

1 Parent(s): df0b1a0

Upload folder using huggingface_hub

Files changed (1) hide show

Test_RAG.py CHANGED Viewed

@@ -282,13 +282,6 @@ print(f"Loading model from {model_dir}")
 ov_config = {"PERFORMANCE_HINT": "LATENCY", "NUM_STREAMS": "1", "CACHE_DIR": ""}
-if "GPU" in llm_device and "qwen2-7b-instruct" in llm_model_id:
-    ov_config["GPU_ENABLE_SDPA_OPTIMIZATION"] = "NO"
-# On a GPU device a model is executed in FP16 precision. For red-pajama-3b-chat model there known accuracy
-# issues caused by this, which we avoid by setting precision hint to "f32".
-if llm_model_id == "red-pajama-3b-chat" and "GPU" in core.available_devices and llm_device in ["GPU", "AUTO"]:
-    ov_config["INFERENCE_PRECISION_HINT"] = "f32"
 # llm = HuggingFacePipeline.from_model_id(
 #     model_id= "meta-llama/Meta-Llama-3-8B",
@@ -304,7 +297,7 @@ if llm_model_id == "red-pajama-3b-chat" and "GPU" in core.available_devices and
 # )
 from optimum.intel.openvino import OVModelForCausalLM
 from transformers import pipeline
 model_id = "meta-llama/Meta-Llama-3-8B"
 ov_config = {"PERFORMANCE_HINT": "LATENCY"}  # 这是一个例子，检查你的实际 ov_config

 ov_config = {"PERFORMANCE_HINT": "LATENCY", "NUM_STREAMS": "1", "CACHE_DIR": ""}
 # llm = HuggingFacePipeline.from_model_id(
 #     model_id= "meta-llama/Meta-Llama-3-8B",
 # )
 from optimum.intel.openvino import OVModelForCausalLM
 from transformers import pipeline
+print("starting setting llm model")
 model_id = "meta-llama/Meta-Llama-3-8B"
 ov_config = {"PERFORMANCE_HINT": "LATENCY"}  # 这是一个例子，检查你的实际 ov_config