codefuse-ai
/

CodeFuse-DeepSeek-33B-4bits

@@ -1,28 +1,22 @@
 ---
 frameworks:
 - Pytorch
-license: apache-2.0
 tasks:
 - text-generation
 ---
-# Model Card for CodeFuse-DeepSeek-33B
-<p align="center">
-    <img src="https://modelscope.cn/api/v1/models/codefuse-ai/CodeFuse-DeepSeek-33B/repo?Revision=master&FilePath=LOGO.jpg&View=true" width="800"/>
-<p>
 [[中文]](#chinese)    [[English]](#english)
-#### Clone with HTTP
-```bash
- git clone https://www.modelscope.cn/codefuse-ai/CodeFuse-DeepSeek-33B-4bits.git
-```
 <a id="english"></a>
 ## Model Description
 CodeFuse-DeepSeek-33B-4bits is the 4-bit quantized version of [CodeFuse-DeepSeek-33B](https://modelscope.cn/models/codefuse-ai/CodeFuse-DeepSeek-33B/summary) which is a 33B Code-LLM finetuned by QLoRA on multiple code-related tasks on the base model DeepSeek-Coder-33B.
-After undergoing 4-bit quantization, the CodeFuse-DeepSeek-33B-4bits model can be loaded on either a single A10 (24GB VRAM) or a RTX 4090 (24GB VRAM). Moreover, the quantized model still achives an impressive accuracy of 78.05% on the Humaneval pass@1 metric.
 <br>
@@ -30,7 +24,7 @@ After undergoing 4-bit quantization, the CodeFuse-DeepSeek-33B-4bits model can b
 🔥🔥🔥 2024-01-12 CodeFuse-DeepSeek-33B-4bits has been released. Despite the quantization process, the model still achieves a remarkable 78.05% accuracy (greedy decoding) on the HumanEval pass@1 metric.
-🔥🔥🔥 2024-01-12 CodeFuse-DeepSeek-33B has been released, achiving a pass@1 (greedy decoding) score of 78.65% on HumanEval.
   🔥🔥 2023-11-10 CodeFuse-CodeGeeX2-6B has been released, achieving a pass@1 (greedy decoding) score of 45.12% on HumanEval, which is a 9.22% increase compared to CodeGeeX2 35.9%.
@@ -42,7 +36,7 @@ After undergoing 4-bit quantization, the CodeFuse-DeepSeek-33B-4bits model can b
 🔥🔥🔥 2023-09-26 We are pleased to announce the release of the [4-bit quantized version](https://modelscope.cn/models/codefuse-ai/CodeFuse-CodeLlama-34B-4bits/summary) of [CodeFuse-CodeLlama-34B](https://modelscope.cn/models/codefuse-ai/CodeFuse-CodeLlama-34B/summary). Despite the quantization process, the model still achieves a remarkable 73.8% accuracy (greedy decoding) on the HumanEval pass@1 metric.
-🔥🔥🔥 2023-09-11 [CodeFuse-CodeLlama34B](https://modelscope.cn/models/codefuse-ai/CodeFuse-CodeLlama-34B/summary) has achived 74.4% of pass@1 (greedy decoding) on HumanEval, which is SOTA results for openspurced LLMs at present.
 <br>
@@ -140,7 +134,7 @@ In this format, the system section is optional and the conversation can be eithe
 import os
 import torch
 import time
-from modelscope import AutoTokenizer, snapshot_download
 from auto_gptq import AutoGPTQForCausalLM
 os.environ["TOKENIZERS_PARALLELISM"] = "false"
@@ -149,7 +143,7 @@ def load_model_tokenizer(model_path):
     """
     Load model and tokenizer based on the given model name or local path of downloaded model.
     """
-    tokenizer = AutoTokenizer.from_pretrained(model_path,
                                               trust_remote_code=True,
                                               use_fast=False,
                                               lagecy=False)
@@ -157,7 +151,7 @@ def load_model_tokenizer(model_path):
     tokenizer.pad_token_id = tokenizer.convert_tokens_to_ids("<｜end▁of▁sentence｜>")
     tokenizer.eos_token_id = tokenizer.convert_tokens_to_ids("<｜end▁of▁sentence｜>")
-    model = AutoGPTQForCausalLM.from_quantized(model_path,
                                                 inject_fused_attention=False,
                                                 inject_fused_mlp=False,
                                                 use_safetensors=False,
@@ -170,7 +164,7 @@ def load_model_tokenizer(model_path):
 def inference(model, tokenizer, prompt):
     """
-    Uset the given model and tokenizer to generate an answer for the speicifed prompt.
     """
     st = time.time()
     prompt = prompt if prompt.endswith('\n') else f'{prompt}\n'
@@ -198,8 +192,6 @@ def inference(model, tokenizer, prompt):
 if __name__ == "__main__":
-    model_dir = snapshot_download('codefuse-ai/CodeFuse-DeepSeek-33B-4bits', revision='v1.0.0')
     prompt = 'Please write a QuickSort program in Python'
     model, tokenizer = load_model_tokenizer(model_dir)
@@ -332,16 +324,16 @@ User prompt...
 import os
 import torch
 import time
-from modelscope import AutoTokenizer, snapshot_download
 from auto_gptq import AutoGPTQForCausalLM
 os.environ["TOKENIZERS_PARALLELISM"] = "false"
 def load_model_tokenizer(model_path):
     """
-    Load model and tokenizer based on the given model name or local path of downloaded model.
     """
-    tokenizer = AutoTokenizer.from_pretrained(model_path,
                                               trust_remote_code=True,
                                               use_fast=False,
                                               lagecy=False)
@@ -349,7 +341,7 @@ def load_model_tokenizer(model_path):
     tokenizer.pad_token_id = tokenizer.convert_tokens_to_ids("<｜end▁of▁sentence｜>")
     tokenizer.eos_token_id = tokenizer.convert_tokens_to_ids("<｜end▁of▁sentence｜>")
-    model = AutoGPTQForCausalLM.from_quantized(model_path,
                                                 inject_fused_attention=False,
                                                 inject_fused_mlp=False,
                                                 use_safetensors=False,
@@ -390,7 +382,6 @@ def inference(model, tokenizer, prompt):
 if __name__ == "__main__":
-    model_dir = snapshot_download('codefuse-ai/CodeFuse-DeepSeek-33B-4bits', revision='v1.0.0')
     prompt = 'Please write a QuickSort program in Python'

 ---
 frameworks:
 - Pytorch
+license: other
 tasks:
 - text-generation
 ---
+# Model Card for CodeFuse-DeepSeek-33B-4bits
+![LOGO](LOGO.jpg)
 [[中文]](#chinese)    [[English]](#english)
 <a id="english"></a>
 ## Model Description
 CodeFuse-DeepSeek-33B-4bits is the 4-bit quantized version of [CodeFuse-DeepSeek-33B](https://modelscope.cn/models/codefuse-ai/CodeFuse-DeepSeek-33B/summary) which is a 33B Code-LLM finetuned by QLoRA on multiple code-related tasks on the base model DeepSeek-Coder-33B.
+fter undergoing 4-bit quantization, the CodeFuse-DeepSeek-33B-4bits model can be loaded on either a single A10 (24GB VRAM) or an RTX 4090 (24GB VRAM). Moreover, the quantized model still achives an impressive accuracy of 78.05% on the Humaneval pass@1 metric.
 <br>
 🔥🔥🔥 2024-01-12 CodeFuse-DeepSeek-33B-4bits has been released. Despite the quantization process, the model still achieves a remarkable 78.05% accuracy (greedy decoding) on the HumanEval pass@1 metric.
+🔥🔥🔥 2024-01-12 CodeFuse-DeepSeek-33B has been released, achieving a pass@1 (greedy decoding) score of 78.65% on HumanEval.
   🔥🔥 2023-11-10 CodeFuse-CodeGeeX2-6B has been released, achieving a pass@1 (greedy decoding) score of 45.12% on HumanEval, which is a 9.22% increase compared to CodeGeeX2 35.9%.
 🔥🔥🔥 2023-09-26 We are pleased to announce the release of the [4-bit quantized version](https://modelscope.cn/models/codefuse-ai/CodeFuse-CodeLlama-34B-4bits/summary) of [CodeFuse-CodeLlama-34B](https://modelscope.cn/models/codefuse-ai/CodeFuse-CodeLlama-34B/summary). Despite the quantization process, the model still achieves a remarkable 73.8% accuracy (greedy decoding) on the HumanEval pass@1 metric.
+🔥🔥🔥 2023-09-11 [CodeFuse-CodeLlama34B](https://modelscope.cn/models/codefuse-ai/CodeFuse-CodeLlama-34B/summary) has achieved 74.4% of pass@1 (greedy decoding) on HumanEval, which is SOTA results for openspurced LLMs at present.
 <br>
 import os
 import torch
 import time
+from transformers import AutoTokenizer
 from auto_gptq import AutoGPTQForCausalLM
 os.environ["TOKENIZERS_PARALLELISM"] = "false"
     """
     Load model and tokenizer based on the given model name or local path of downloaded model.
     """
+    tokenizer = AutoTokenizer.from_pretrained("codefuse-ai/CodeFuse-DeepSeek-33B-4bits",
                                               trust_remote_code=True,
                                               use_fast=False,
                                               lagecy=False)
     tokenizer.pad_token_id = tokenizer.convert_tokens_to_ids("<｜end▁of▁sentence｜>")
     tokenizer.eos_token_id = tokenizer.convert_tokens_to_ids("<｜end▁of▁sentence｜>")
+    model = AutoGPTQForCausalLM.from_quantized("codefuse-ai/CodeFuse-DeepSeek-33B-4bits",
                                                 inject_fused_attention=False,
                                                 inject_fused_mlp=False,
                                                 use_safetensors=False,
 def inference(model, tokenizer, prompt):
     """
+    Uset the given model and tokenizer to generate an answer for the specified prompt.
     """
     st = time.time()
     prompt = prompt if prompt.endswith('\n') else f'{prompt}\n'
 if __name__ == "__main__":
     prompt = 'Please write a QuickSort program in Python'
     model, tokenizer = load_model_tokenizer(model_dir)
 import os
 import torch
 import time
+from transformers import AutoTokenizer
 from auto_gptq import AutoGPTQForCausalLM
 os.environ["TOKENIZERS_PARALLELISM"] = "false"
 def load_model_tokenizer(model_path):
     """
+    Load model and tokenizer based on the given model name or local path of the downloaded model.
     """
+    tokenizer = AutoTokenizer.from_pretrained("codefuse-ai/CodeFuse-DeepSeek-33B-4bits",
                                               trust_remote_code=True,
                                               use_fast=False,
                                               lagecy=False)
     tokenizer.pad_token_id = tokenizer.convert_tokens_to_ids("<｜end▁of▁sentence｜>")
     tokenizer.eos_token_id = tokenizer.convert_tokens_to_ids("<｜end▁of▁sentence｜>")
+    model = AutoGPTQForCausalLM.from_quantized("codefuse-ai/CodeFuse-DeepSeek-33B-4bits",
                                                 inject_fused_attention=False,
                                                 inject_fused_mlp=False,
                                                 use_safetensors=False,
 if __name__ == "__main__":
     prompt = 'Please write a QuickSort program in Python'