Spaces:

CyberNative-AI
/

Colibri_8b_v0.1_chat

Sleeping

CyberNative commited on May 15, 2024

Commit

b1e1493

verified ·

1 Parent(s): e655844

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,8 +1,8 @@
 import gradio as gr
 import os
 import spaces
-from transformers import GemmaTokenizer, AutoModelForCausalLM
-from transformers import AutoModelForCausalLM, AutoTokenizer, TextIteratorStreamer
 from threading import Thread
 # Set an environment variable
@@ -46,13 +46,8 @@ h1 {
 """
 # Load the tokenizer and model
-tokenizer = AutoTokenizer.from_pretrained("CyberNative-AI/Colibri_8b_v0.1")
-#model = AutoModelForCausalLM.from_pretrained("CyberNative-AI/Colibri_8b_v0.1", load_in_4bit=True, load_in_8bit=False, device_map="auto")
-from transformers import BitsAndBytesConfig
-nf4_config = BitsAndBytesConfig(load_in_4bit=True, bnb_4bit_quant_type="nf4")
-model = AutoModelForCausalLM.from_pretrained("CyberNative-AI/Colibri_8b_v0.1", quantization_config=nf4_config)
 terminators = [
     tokenizer.eos_token_id,

 import gradio as gr
 import os
 import spaces
+from transformers import AutoTokenizer
+from auto_gptq import AutoGPTQForCausalLM, BaseQuantizeConfig
 from threading import Thread
 # Set an environment variable
 """
 # Load the tokenizer and model
+tokenizer = AutoTokenizer.from_pretrained("CyberNative-AI/Colibri_8b_v0.1_gptq_128_4bit")
+model = AutoGPTQForCausalLM.from_quantized("CyberNative-AI/Colibri_8b_v0.1_gptq_128_4bit", device="cpu")
 terminators = [
     tokenizer.eos_token_id,