toxic-comment-classifier_rlhf

Paused

App Files Files Community

JanviMl commited on Apr 19

Commit

7351455

verified ·

1 Parent(s): 77f7351

Update metrics.py

Browse files

Files changed (1) hide show

metrics.py +48 -7

metrics.py CHANGED Viewed

@@ -8,6 +8,50 @@ def softmax(logits):
     exp_logits = np.exp(logits - np.max(logits))
     return exp_logits / exp_logits.sum()
 def compute_reward_scores(original, paraphrase):
     """
     Compute reward scores for a paraphrased comment.
@@ -44,17 +88,14 @@ def compute_reward_scores(original, paraphrase):
             probs = softmax(logits)
         toxicity = probs[1]  # Assuming label 1 is toxic
-        empathy = 1.0 - toxicity  # Simplified empathy score
-        bias = probs[1]  # Placeholder for bias
         print(f"Classification took {time.time() - start_time:.2f} seconds")
         # Compute semantic similarity using Sentence-BERT
         print("Computing semantic similarity...")
-        sentence_bert = metrics_models.sentence_bert
-        embeddings = sentence_bert.encode([original, paraphrase], convert_to_tensor=True)
-        similarity = torch.cosine_similarity(embeddings[0], embeddings[1], dim=0).item()
-        hallucination = 1.0 - similarity  # High difference means potential hallucination
-        print(f"Semantic similarity computed: {similarity}")
         # Compute reward score (weighted combination)
         reward = 0.4 * empathy - 0.2 * toxicity - 0.2 * bias - 0.2 * hallucination

     exp_logits = np.exp(logits - np.max(logits))
     return exp_logits / exp_logits.sum()
+def compute_semantic_similarity(original, paraphrase):
+    """
+    Compute semantic similarity between original and paraphrased text using Sentence-BERT.
+    Returns a similarity score between 0 and 1.
+    """
+    try:
+        if not isinstance(original, str) or not isinstance(paraphrase, str):
+            print(f"Invalid input for semantic similarity: original={original}, paraphrase={paraphrase}")
+            return 0.0
+        if "Error: Unable to generate paraphrase" in paraphrase:
+            print(f"Invalid paraphrase: {paraphrase}. Returning similarity 0.0.")
+            return 0.0
+        sentence_bert = metrics_models.sentence_bert
+        embeddings = sentence_bert.encode([original, paraphrase], convert_to_tensor=True)
+        similarity = torch.cosine_similarity(embeddings[0], embeddings[1], dim=0).item()
+        print(f"Semantic similarity computed: {similarity}")
+        return similarity
+    except Exception as e:
+        print(f"Error computing semantic similarity: {str(e)}")
+        return 0.0
+def compute_empathy_score(toxicity):
+    """
+    Placeholder for empathy score computation.
+    For now, inversely proportional to toxicity.
+    """
+    return 1.0 - toxicity
+def compute_bias_score(toxicity):
+    """
+    Placeholder for bias score computation.
+    For now, equal to toxicity.
+    """
+    return toxicity
+def compute_hallucination_score(similarity):
+    """
+    Compute hallucination score based on semantic similarity.
+    High difference means potential hallucination.
+    """
+    return 1.0 - similarity
 def compute_reward_scores(original, paraphrase):
     """
     Compute reward scores for a paraphrased comment.
             probs = softmax(logits)
         toxicity = probs[1]  # Assuming label 1 is toxic
+        empathy = compute_empathy_score(toxicity)
+        bias = compute_bias_score(toxicity)
         print(f"Classification took {time.time() - start_time:.2f} seconds")
         # Compute semantic similarity using Sentence-BERT
         print("Computing semantic similarity...")
+        similarity = compute_semantic_similarity(original, paraphrase)
+        hallucination = compute_hallucination_score(similarity)
         # Compute reward score (weighted combination)
         reward = 0.4 * empathy - 0.2 * toxicity - 0.2 * bias - 0.2 * hallucination