llm-perf-leaderboard

Sleeping

IlyasMoutawwakil HF Staff commited on Apr 15, 2024

Commit

a1f6c2e

1 Parent(s): bd9edb7

update viz

Files changed (2) hide show

src/latency_score_memory.py CHANGED Viewed

@@ -15,7 +15,7 @@ SCORE_MEMORY_LATENCY_DATA = [
     "Decode Throughput (tokens/s)",
     "Allocated Memory (MB)",
     "E2E Latency (s)",
-    "E2E Throughput (tokens/s)",
 ]

     "Decode Throughput (tokens/s)",
     "Allocated Memory (MB)",
     "E2E Latency (s)",
+    # "E2E Throughput (tokens/s)",
 ]

src/llm_perf.py CHANGED Viewed

@@ -12,22 +12,23 @@ COLUMNS_MAPPING = {
     "Model": "Model 🤗",
     "Arch": "Arch 🏛️",
     "Size": "Params (B)",
-    "Score": "Open LLM Score (%)",
-    # deployment settings
-    "backend.name": "Backend 🏭",
-    "backend.torch_dtype": "DType 📥",
-    "optimization": "Optimization 🛠️",
-    "quantization": "Quantization 🗜️",
     # primary measurements
     "forward.latency(s)": "Prefill Latency (s)",
     "decode.throughput(tokens/s)": "Decode Throughput (tokens/s)",
     "generate.max_memory_allocated(MB)": "Allocated Memory (MB)",
     "generate.energy_consumption(tokens/kWh)": "Energy (tokens/kWh)",
     # additional measurements
     "generate.latency(s)": "E2E Latency (s)",
     "generate.throughput(tokens/s)": "E2E Throughput (tokens/s)",
-    "generate.max_memory_reserved(MB)": "Reserved Memory (MB)",
-    "generate.max_memory_used(MB)": "Used Memory (MB)",
 }
 SORTING_COLUMNS = [
     "Open LLM Score (%)",

     "Model": "Model 🤗",
     "Arch": "Arch 🏛️",
     "Size": "Params (B)",
     # primary measurements
     "forward.latency(s)": "Prefill Latency (s)",
     "decode.throughput(tokens/s)": "Decode Throughput (tokens/s)",
     "generate.max_memory_allocated(MB)": "Allocated Memory (MB)",
     "generate.energy_consumption(tokens/kWh)": "Energy (tokens/kWh)",
+    # deployment settings
+    "backend.name": "Backend 🏭",
+    "backend.torch_dtype": "DType 📥",
+    "optimization": "Optimization 🛠️",
+    "quantization": "Quantization 🗜️",
     # additional measurements
+    "Score": "Open LLM Score (%)",
     "generate.latency(s)": "E2E Latency (s)",
     "generate.throughput(tokens/s)": "E2E Throughput (tokens/s)",
+    # "generate.max_memory_reserved(MB)": "Reserved Memory (MB)",
+    # "generate.max_memory_used(MB)": "Used Memory (MB)",
 }
 SORTING_COLUMNS = [
     "Open LLM Score (%)",