href

Running

natolambert commited on Apr 23, 2024

Commit

d1c65aa

verified ·

1 Parent(s): 9328c72

Update src/md.py

Files changed (1) hide show

src/md.py CHANGED Viewed

@@ -25,7 +25,10 @@ We include multiple types of reward models in this evaluation:
 4. **Generative**: Prompting fine-tuned models to choose between two answers, similar to MT Bench and AlpacaEval.
 All models are evaluated in fp16 expect for Starling-7B, which is evaluated in fp32.
-Others, such as **Generative Judge** are coming soon.
 ### Subset Details

 4. **Generative**: Prompting fine-tuned models to choose between two answers, similar to MT Bench and AlpacaEval.
 All models are evaluated in fp16 expect for Starling-7B, which is evaluated in fp32.
+*Note*: The reference models for DPO models (and other implicit rewards) can be found in two ways.
+* Click on a specific model in results and you'll see a key `ref_model`, e.g. [Qwen](https://huggingface.co/datasets/allenai/reward-bench-results/blob/main/eval-set/Qwen/Qwen1.5-72B-Chat.json).
+* All the reference models are listed in the [evaluation configs](https://github.com/allenai/reward-bench/blob/main/scripts/configs/eval_configs.yaml).
 ### Subset Details