Spaces:

MarvinRoque
/

phi2-gym-bot

Sleeping

App Files Files Community

MarvinRoque commited on Sep 18

Commit

bc62d05

verified ·

1 Parent(s): ef54bed

A

Browse files

Files changed (1) hide show

app.py +106 -146

app.py CHANGED Viewed

@@ -1,172 +1,129 @@
 import gradio as gr
 from transformers import AutoModelForCausalLM, AutoTokenizer
 from sentence_transformers import SentenceTransformer, util
-import unicodedata
 import torch
-def normalize_text(text):
-    """Remove acentos e coloca em minúsculas para comparação robusta."""
-    return "".join(
-        c for c in unicodedata.normalize("NFD", text.lower())
-        if unicodedata.category(c) != "Mn"
-    )
-# =========================================================
-# Modelo de linguagem (Falcon 1B Instruct)
-# =========================================================
-model_id = "tiiuae/Falcon3-1B-Instruct"
-tokenizer = AutoTokenizer.from_pretrained(model_id)
-model = AutoModelForCausalLM.from_pretrained(
-    model_id,
-    torch_dtype="float32",
-    device_map="auto"
-)
-# =========================================================
-# Modelo de embeddings (BAAI/bge-m3 ou fallback bge-small)
-# =========================================================
-try:
-    embedder = SentenceTransformer("BAAI/bge-m3")
-    print("✅ Usando embeddings BAAI/bge-m3")
-except Exception as e:
-    print(f"⚠️ Erro ao carregar bge-m3: {e}")
-    print("➡️ Usando fallback BAAI/bge-small-en-v1.5")
-    embedder = SentenceTransformer("BAAI/bge-small-en-v1.5")
-# =========================================================
-# Domínios fitness
-# =========================================================
 fitness_domains = [
-    # 🏋️‍♂️ Treino
-    "treino para",
-    "exercícios para",
-    "como dividir meu treino",
-    "tipos de treino: força, resistência, hipertrofia",
-    "como melhorar hipertrofia",
-    "periodização de treino",
-    # 🍎 Nutrição
-    "dieta para",
-    "o que comer para",
-    "alimentos que ajudam na recuperação muscular",
-    "suplementos para treino",
-    "creatina e whey protein",
-    "hidratação e desempenho físico",
-    "nutrição esportiva",
-    "macronutrientes e micronutrientes",
-    "planejamento alimentar",
-    "proteínas, carboidratos e gorduras",
-    "creatina, bcaas, whey protein",
-    "o que ajuda na hipertrofia",
-    # 🛌 Recuperação
-    "descanso e recuperação muscular",
-    "descanso entre séries",
-    "alongamento e aquecimento",
-    "prevenção de lesões no treino",
-    "sono e hidratação no desempenho físico",
-    # 🩺 Lesões e reabilitação
-    "treino adaptado para lesões",
-    "reabilitação e fisioterapia esportiva",
-    # 🎯 Objetivos gerais
-    "como ganhar massa muscular",
-    "como perder peso",
-    "como ganhar massa",
-    "melhor forma de melhorar condicionamento físico",
-    "plano de treino para iniciantes",
-    "estratégias para motivação e metas fitness"
-]
-# Contra-domínios mais específicos
-contra_domains = [
-    # Finanças
-    "como ganhar dinheiro",
-    "investir em ações e bolsa de valores",
-    "criptomoedas e bitcoin",
-    "finanças pessoais e poupança",
-    # Tecnologia
-    "melhores celulares android",
-    "como deixar o computador mais rápido",
-    "programação em python",
-    "jogos online e consoles",
-    "reviews de gadgets e eletrônicos",
-    # Outros
-    "viagens e turismo",
-    "política e governo no brasil",
-    "história da segunda guerra mundial",
-    "astrologia e signos",
-    "religião e espiritualidade"
 ]
-# Palavras-chave relevantes (normalizadas depois)
 fitness_keywords = [
-    "treino", "exercício", "academia", "ginasio", "hipertrofia", "musculação",
-    "condicionamento", "força", "resistência", "alongamento", "aquecimento",
-    "nutrição", "alimentacao", "dieta", "suplemento", "suplementacao", "creatina", "whey", "bcaas",
-    "recuperação", "descanso", "sono", "hidratação",
-    "lesão", "joelho", "ombro", "lombar", "cotovelo","costas", "peito", "pernas", "trapezio",
-    "bíceps", "tríceps", "abdômen", "core", "quadriceps", "posterior de coxa", "panturrilha",
-    "reabilitação", "fisioterapia", "explosividade", "mobilidade", "flexibilidade", "plano de treino", "plano alimentar",
-    "perder peso", "emagrecer", "ganhar massa", "ganhar músculo", "definição muscular", "motivação", "metas fitness",
-    "fitness", "personal trainer", "personal", "treinador"
 ]
-# Normalizar keywords
-fitness_keywords_norm = [normalize_text(kw) for kw in fitness_keywords]
-# =========================================================
-# Pré-calcular embeddings
-# =========================================================
-fitness_embeddings = embedder.encode(fitness_domains, convert_to_tensor=True, normalize_embeddings=True)
-contra_embeddings = embedder.encode(contra_domains, convert_to_tensor=True, normalize_embeddings=True)
-# =========================================================
-# Função principal
-# =========================================================
-def responder(prompt):
-    prompt_norm = normalize_text(prompt)
-    prompt_embedding = embedder.encode(prompt, convert_to_tensor=True, normalize_embeddings=True)
-    # Similaridades
-    fitness_sim = util.cos_sim(prompt_embedding, fitness_embeddings)
-    contra_sim = util.cos_sim(prompt_embedding, contra_embeddings)
-    max_fitness = torch.max(fitness_sim).item()
-    max_contra = torch.max(contra_sim).item()
-    # Palavras-chave
-    keyword_match = any(kw in prompt_norm for kw in fitness_keywords_norm)
-    # Score híbrido
-    score = max_fitness - max_contra
-    if keyword_match:
-        score += 0.25  # pequeno bônus se tem keyword fitness
-    print(f"Prompt: {prompt}")
-    print(f"Fitness (max): {max_fitness:.3f} | Contra (max): {max_contra:.3f} | KW matches: {int(keyword_match)} | Score: {score:.3f}")
-    # Decisão
-    if score < 0.05:
         return "Desculpe, só respondo perguntas sobre treino, nutrição e fitness."
-    # === Geração com LLM ===
     system_message = (
         "Você é um personal trainer virtual. "
-        "Sempre responda em PORTUGUÊS, de forma clara, curta e prática. "
         "Se o usuário pedir treino, forneça uma lista numerada de exercícios físicos reais."
     )
-    return
-    entrada = f"{system_message}\n\nUsuário: {prompt}\nAssistente:"
     inputs = tokenizer(entrada, return_tensors="pt").to(model.device)
     outputs = model.generate(
         **inputs,
-        max_new_tokens=120,
         temperature=0.7,
         do_sample=True,
         top_p=0.9,
@@ -174,16 +131,19 @@ def responder(prompt):
     )
     resposta = tokenizer.decode(outputs[0], skip_special_tokens=True)
-    return resposta.split("Assistente:")[-1].strip()
-# =========================================================
-# Interface Gradio
-# =========================================================
 demo = gr.Interface(
     fn=responder,
     inputs=gr.Textbox(lines=3, label="Pergunta"),
     outputs=gr.Textbox(label="Resposta"),
-    title="Personal Trainer AI com Filtro Semântico (BAAI/bge-m3)"
 )
 demo.queue().launch()

 import gradio as gr
 from transformers import AutoModelForCausalLM, AutoTokenizer
 from sentence_transformers import SentenceTransformer, util
 import torch
+import torch.nn.functional as F
+import unicodedata
+# -------------------------
+# Config
+# -------------------------
+EMBEDDING_MODEL = "rufimelo/bert-large-portuguese-cased-sts"
+LLM_MODEL = "tiiuae/Falcon3-1B-Instruct"  # ajuste se precisar outro LLM
+# score params (ajustáveis)
+THRESHOLD = 0.60          # cutoff para aceitar prompt como fitness
+KEYWORD_WEIGHT = 0.12     # peso por keyword encontrada
+MAX_KEYWORD_BONUS = 0.50  # máximo bônus de keyword
+# -------------------------
+# Normalização
+# -------------------------
+def normalize_text(text: str) -> str:
+    if text is None:
+        return ""
+    text = unicodedata.normalize("NFD", text)
+    text = "".join(ch for ch in text if unicodedata.category(ch) != "Mn")
+    return text.lower().strip()
+# -------------------------
+# Carregamento de modelos
+# -------------------------
+print("Carregando embedder...", EMBEDDING_MODEL)
+embedder = SentenceTransformer(EMBEDDING_MODEL)
+print("Carregando LLM...", LLM_MODEL)
+tokenizer = AutoTokenizer.from_pretrained(LLM_MODEL, use_fast=True)
+model = AutoModelForCausalLM.from_pretrained(LLM_MODEL, device_map="auto", torch_dtype=torch.float32)
+# -------------------------
+# Domínio fitness (frases representativas)
+# -------------------------
 fitness_domains = [
+    "treino para pernas e gluteos",
+    "exercícios para hipertrofia muscular",
+    "como dividir meu treino semanal",
+    "periodização para ganho de força",
+    "programa de hipertrofia de 12 semanas",
+    "dieta para ganho de massa muscular",
+    "o que comer antes e depois do treino",
+    "suplementação para hipertrofia",
+    "recuperação e descanso muscular",
+    "alongamento e aquecimento antes do treino",
+    "prevenção de lesões para corredores",
+    "treino adaptado para lesão no joelho",
+    "reabilitação esportiva e fisioterapia",
+    "treino para condicionamento e resistência",
+    "exercícios explosivos para membros inferiores",
+    "divisão de treino abc para hipertrofia",
+    "planejamento alimentar para atletas",
+    "estratégias para perder gordura mantendo massa muscular"
 ]
+# -------------------------
+# Keywords (fallback)
+# -------------------------
 fitness_keywords = [
+    "treino", "treinar", "exercicio", "exercícios", "academia", "ginasio",
+    "hipertrofia", "musculacao", "musculação", "dieta", "alimentacao", "alimentação",
+    "suplemento", "creatina", "whey", "bcaas", "recuperacao", "recuperação",
+    "lesao", "lesão", "joelho", "ombro", "lombar", "fisioterapia", "reabilitacao",
+    "forca", "resistencia", "resistência", "explosividade", "aquecimento", "alongamento",
+    "plano de treino", "plano alimentar", "ganhar massa", "perder peso", "condicionamento"
 ]
+# pré-normaliza keywords
+fitness_keywords_norm = [normalize_text(k) for k in fitness_keywords]
+# -------------------------
+# Pré-calcular embeddings do domínio fitness (e normalizar)
+# -------------------------
+fitness_embeddings = embedder.encode([normalize_text(s) for s in fitness_domains],
+                                    convert_to_tensor=True)
+fitness_embeddings = F.normalize(fitness_embeddings, p=2, dim=1)  # vetores unitários
+# -------------------------
+# Função de filtragem + geração
+# -------------------------
+def responder(prompt: str):
+    prompt_text = prompt or ""
+    prompt_norm = normalize_text(prompt_text)
+    # embedding do prompt e normalização
+    prompt_emb = embedder.encode(prompt_norm, convert_to_tensor=True)
+    prompt_emb = F.normalize(prompt_emb, p=2, dim=0).unsqueeze(0)  # shape (1, dim)
+    # similaridade com domínio fitness (max)
+    sims = util.cos_sim(prompt_emb, fitness_embeddings)[0]  # shape (N_domains,)
+    max_fitness = float(torch.max(sims).item())
+    # keywords matches (adaptativo)
+    kw_matches = sum(1 for kw in fitness_keywords_norm if kw in prompt_norm)
+    keyword_bonus = min(kw_matches * KEYWORD_WEIGHT, MAX_KEYWORD_BONUS)
+    # score final (somente fitness + bonus)
+    score = max_fitness + keyword_bonus
+    # logs para debug
+    print(f"Prompt: {prompt_text}")
+    print(f"max_fitness: {max_fitness:.3f} | kw_matches: {kw_matches} | bonus: {keyword_bonus:.3f} | score: {score:.3f}")
+    # decisão
+    if score < THRESHOLD:
         return "Desculpe, só respondo perguntas sobre treino, nutrição e fitness."
+    # se passou: gerar resposta com LLM
     system_message = (
         "Você é um personal trainer virtual. "
+        "Responda em português, de forma clara, curta e prática. "
         "Se o usuário pedir treino, forneça uma lista numerada de exercícios físicos reais."
     )
+    entrada = f"{system_message}\n\nUsuário: {prompt_text}\nAssistente:"
     inputs = tokenizer(entrada, return_tensors="pt").to(model.device)
     outputs = model.generate(
         **inputs,
+        max_new_tokens=200,
         temperature=0.7,
         do_sample=True,
         top_p=0.9,
     )
     resposta = tokenizer.decode(outputs[0], skip_special_tokens=True)
+    # retorna apenas a parte após "Assistente:" se existir
+    if "Assistente:" in resposta:
+        return resposta.split("Assistente:")[-1].strip()
+    return resposta.strip()
+# -------------------------
+# Gradio
+# -------------------------
 demo = gr.Interface(
     fn=responder,
     inputs=gr.Textbox(lines=3, label="Pergunta"),
     outputs=gr.Textbox(label="Resposta"),
+    title="Personal Trainer AI (PT-BR embeddings)"
 )
 demo.queue().launch()