Spaces:

akisg
/

care-notes

Sleeping

App Files Files Community

Akis Giannoukos commited on about 1 month ago

Commit

7ee0100

1 Parent(s): 8b938f4

Implement error suppression for TorchInductor in generation functions to enhance stability across environments.

Browse files

Files changed (1) hide show

app.py +55 -18

app.py CHANGED Viewed

@@ -343,16 +343,36 @@ def generate_recording_agent_reply(chat_history: List[Tuple[str, str]]) -> str:
         {"role": "user", "content": combined_prompt},
     ]
     prompt = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
-    gen = pipe(
-        prompt,
-        max_new_tokens=96,
-        temperature=0.7,
-        do_sample=True,
-        top_p=0.9,
-        top_k=50,
-        pad_token_id=tokenizer.eos_token_id,
-        return_full_text=False,
-    )
     reply = gen[0]["generated_text"].strip()
     # Ensure it's a single concise question/sentence
     if len(reply) > 300:
@@ -385,14 +405,31 @@ def scoring_agent_infer(chat_history: List[Tuple[str, str]], features: Dict[str,
     ]
     prompt = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
     # Use deterministic decoding to avoid CUDA sampling edge cases on some models
-    gen = pipe(
-        prompt,
-        max_new_tokens=256,
-        temperature=0.0,
-        do_sample=False,
-        pad_token_id=tokenizer.eos_token_id,
-        return_full_text=False,
-    )
     out_text = gen[0]["generated_text"]
     parsed = safe_json_extract(out_text)

         {"role": "user", "content": combined_prompt},
     ]
     prompt = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
+    # Avoid TorchInductor graph capture issues on some environments
+    try:
+        import torch._dynamo as _dynamo  # type: ignore
+    except Exception:
+        _dynamo = None
+    if _dynamo is not None:
+        _dynamo.config.suppress_errors = True  # best-effort safe fallback
+    if hasattr(torch, "_dynamo"):
+        with torch._dynamo.disable():  # type: ignore[attr-defined]
+            gen = pipe(
+                prompt,
+                max_new_tokens=96,
+                temperature=0.7,
+                do_sample=True,
+                top_p=0.9,
+                top_k=50,
+                pad_token_id=tokenizer.eos_token_id,
+                return_full_text=False,
+            )
+    else:
+        gen = pipe(
+            prompt,
+            max_new_tokens=96,
+            temperature=0.7,
+            do_sample=True,
+            top_p=0.9,
+            top_k=50,
+            pad_token_id=tokenizer.eos_token_id,
+            return_full_text=False,
+        )
     reply = gen[0]["generated_text"].strip()
     # Ensure it's a single concise question/sentence
     if len(reply) > 300:
     ]
     prompt = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
     # Use deterministic decoding to avoid CUDA sampling edge cases on some models
+    try:
+        import torch._dynamo as _dynamo  # type: ignore
+    except Exception:
+        _dynamo = None
+    if _dynamo is not None:
+        _dynamo.config.suppress_errors = True
+    if hasattr(torch, "_dynamo"):
+        with torch._dynamo.disable():  # type: ignore[attr-defined]
+            gen = pipe(
+                prompt,
+                max_new_tokens=256,
+                temperature=0.0,
+                do_sample=False,
+                pad_token_id=tokenizer.eos_token_id,
+                return_full_text=False,
+            )
+    else:
+        gen = pipe(
+            prompt,
+            max_new_tokens=256,
+            temperature=0.0,
+            do_sample=False,
+            pad_token_id=tokenizer.eos_token_id,
+            return_full_text=False,
+        )
     out_text = gen[0]["generated_text"]
     parsed = safe_json_extract(out_text)