Spaces:

allenai
/

reward-bench

Running

App Files Files Community

natolambert commited on Oct 8, 2024

Commit

b64c62d

1 Parent(s): 45dc572

add contamination note

Browse files

Files changed (3) hide show

src/md.py +3 -1
src/rm-training-data.csv +36 -0
src/utils.py +14 -3

src/md.py CHANGED Viewed

@@ -95,5 +95,7 @@ For more details, see the [dataset](https://huggingface.co/datasets/allenai/rewa
 TOP_TEXT = """
 # RewardBench: Evaluating Reward Models
 ### Evaluating the capabilities, safety, and pitfalls of reward models
-[Code](https://github.com/allenai/reward-bench) | [Eval. Dataset](https://huggingface.co/datasets/allenai/reward-bench) | [Prior Test Sets](https://huggingface.co/datasets/allenai/pref-test-sets) | [Results](https://huggingface.co/datasets/allenai/reward-bench-results) | [Paper](https://arxiv.org/abs/2403.13787) | Total models: {} | * Unverified models
 """

 TOP_TEXT = """
 # RewardBench: Evaluating Reward Models
 ### Evaluating the capabilities, safety, and pitfalls of reward models
+[Code](https://github.com/allenai/reward-bench) | [Eval. Dataset](https://huggingface.co/datasets/allenai/reward-bench) | [Prior Test Sets](https://huggingface.co/datasets/allenai/pref-test-sets) | [Results](https://huggingface.co/datasets/allenai/reward-bench-results) | [Paper](https://arxiv.org/abs/2403.13787) | Total models: {} | * Unverified models | ⚠️ Dataset Contamination
+⚠️ Many of the top models were trained on unintentionally contaminated, AI-generated data ([Skywork/Skywork-Reward-Preference-80K-v0.1](https://huggingface.co/datasets/Skywork/Skywork-Reward-Preference-80K-v0.1)), for more information, see this [gist](https://gist.github.com/natolambert/1aed306000c13e0e8c5bc17c1a5dd300).
 """

src/rm-training-data.csv ADDED Viewed

	@@ -0,0 +1,36 @@

+Reward Model,Preference Datasets Used
+RLHFlow/ArmoRM-Llama3-8B-v0.1,"HelpSteer, UltraFeedback, BeaverTails, Argilla-Capybara, Argilla-Math-Preferences, CodeUltraFeedback, Argilla-OpenOrca"
+RLHFlow/pair-preference-model-LLaMA3-8B,"Filtered HH-RLHF, SHP, HelpSteer, SafeRLHF-30k, UltraFeedback, UltraInteract, CodeUltraFeedback, Argilla-Math, OpenOrca, Capybara"
+sfairXC/FsfairX-LLaMA3-RM-v0.1,"Filtered HH-RLHF, SHP, HelpSteer, SafeRLHF-30k, UltraFeedback, UltraInteract, CodeUltraFeedback, Argilla-Math, OpenOrca, Capybara"
+openbmb/Eurus-RM-7b,"UltraInteract, UltraFeedback, UltrSafety"
+Nexusflow/Starling-RM-34B,Nectar
+weqweasdas/RM-Mistral-7B,"HH-RLHF, Capybara, Orca, SHP, UltraFeedback, HelpSetter, PKU-SafeRLHF, PKU-SafeRLHF-30k"
+hendrydong/Mistral-RM-for-RAFT-GSHF-v0,Undisclosed
+stabilityai/stablelm-2-12b-chat,"HH-RLHF, argilla/dpo-mix-7k, and other Undisclosed"
+Ray2333/reward-model-Mistral-7B-instruct...,"Summarize, WebGPT, Dahoas/instruct-synthetic-prompt-responses, HH-RLHF, ChatBotArena Conversations, UltraFeedback, Nectar"
+allenai/tulu-2-dpo-70b,UltraFeedback
+meta-llama/Meta-Llama-3-70B-Instruct,Undisclosed
+prometheus-eval/prometheus-8x7b-v2.0,Preference Collction (relabeled mix)
+NousResearch/Nous-Hermes-2-Mistral-7B-DPO,Undisclosed
+mistralai/Mixtral-8x7B-Instruct-v0.1,Undisclosed
+upstage/SOLAR-10.7B-Instruct-v1.0,"OpenOrca, Intel-Orca, UltraFeedback"
+HuggingFaceH4/zephyr-7b-alpha,UltraFeedback
+allenai/tulu-2-dpo-13b,UltraFeedback
+0-hero/Matter-0.1-7B-boost-DPO-preview,Undisclosed
+prometheus-eval/prometheus-7b-v2.0,Preference Collction (relabeled mix)
+HuggingFaceH4/starchat2-15b-v0.1,"UltraFeedback, Orca"
+HuggingFaceH4/zephyr-7b-beta,UltraFeedback
+allenai/tulu-2-dpo-7b,UltraFeedback
+jondurbin/bagel-dpo-34b-v0.5,"Airoboros 3.2, Contextual DPO, HelpSteer, Orca, Gutenberg-DPO, Python DPO, Toxic DPO, Truthy, UltraFeedback"
+berkeley-nest/Starling-RM-7B-alpha,Nectar
+NousResearch/Nous-Hermes-2-Mixtral-8x7B-DPO,Undisclosed
+0-hero/Matter-0.1-7B-DPO-preview,Undisclosed
+stabilityai/stablelm-zephyr-3b,"UltraFeedback, Orca"
+Qwen/Qwen1.5-14B-Chat,Undisclosed
+CohereForAI/c4ai-command-r-plus,Undisclosed
+OpenAssistant/oasst-rm-2.1-pythia-1.4b-epoch-2.5,"WebGPT, HH-RLHF, SHP, WebGPT, Summarize"
+Qwen/Qwen1.5-7B-Chat,Undisclosed
+weqweasdas/RM-Gemma-7B,"HH-RLHF, SHP, UltraFeedback, Capybara, HelpSteer, Orca"
+openbmb/Eurus-7b-kto,"UltraInteract, UltraFeedback"
+Qwen/Qwen1.5-72B-Chat,Undisclosed
+openbmb/UltraRM-13b,"UltraFeedback, HH-RLHF, SHP, Summarize"

src/utils.py CHANGED Viewed

@@ -18,6 +18,16 @@ UNVERIFIED_MODELS = [
     "Salesforce/SFR-LLaMa-3.1-70B-Judge-r",
     "Salesforce/SFR-nemo-12B-Judge-r",
     "Salesforce/SFR-LLaMa-3.1-8B-Judge-r",
 ]
 # From Open LLM Leaderboard
@@ -40,9 +50,10 @@ def model_hyperlink(link, model_name):
     output = f'<a target="_blank" href="{link}" style="color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;">{model_name}</a>'
     if model_name in UNVERIFIED_MODELS:
-        return output + " *"
-    else:
-        return output
 def undo_hyperlink(html_string):
     # Regex pattern to match content inside > and <

     "Salesforce/SFR-LLaMa-3.1-70B-Judge-r",
     "Salesforce/SFR-nemo-12B-Judge-r",
     "Salesforce/SFR-LLaMa-3.1-8B-Judge-r",
+    "SF-Foundation/TextEval-OffsetBias-12B",
+    "SF-Foundation/TextEval-Llama3.1-70B",
+]
+CONTAMINATED_MODELS = [
+    "Skywork/Skywork-Reward-Gemma-2-27B",
+    "Skywork/Skywork-Critic-Llama-3.1-70B",
+    "LxzGordon/URM-LLaMa-3.1-8B",
+    "Skywork/Skywork-Reward-Llama-3.1-8B",
+    "Ray2333/GRM-Llama3-8B-rewardmodel-ft",
 ]
 # From Open LLM Leaderboard
     output = f'<a target="_blank" href="{link}" style="color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;">{model_name}</a>'
     if model_name in UNVERIFIED_MODELS:
+        output += " *"
+    if model_name in CONTAMINATED_MODELS:
+        output += " ⚠️"
+    return output
 def undo_hyperlink(html_string):
     # Regex pattern to match content inside > and <